V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MuskZhou
V2EX  ›  机器学习

求助微信聊天记录训练 ai

  •  
  •   MuskZhou · 1 月 2 日 · 2869 次点击
    这是一个创建于 55 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题所示,导出了大概 12 万条聊天记录,请问各位佬有什么好的办法训练让 ai 模仿吗
    18 条回复    2026-02-10 23:05:11 +08:00
    s609926202
        1
    s609926202  
       1 月 2 日 via iPhone
    同问,我想把聊天记录做成知识库,做成什么格式的( excel ,txt 等)最好
    liuzimin
        2
    liuzimin  
       1 月 2 日 via Android
    准备做秽土转生?
    qixinwuchen
        3
    qixinwuchen  
       1 月 2 日 via iPhone
    感兴趣,关注一下
    vovov
        4
    vovov  
       1 月 2 日 via iPhone
    我准备把聊天记录向量化,然后把匹配的数据用大模型来回答看看效果
    dji38838c
        5
    dji38838c  
       1 月 2 日
    这思路..
    你直接拿这个问题用 AI 不就行了
    lloovve
        6
    lloovve  
       1 月 2 日 via iPhone
    找到方案踢我一下,我也想转生一个
    okoklll
        7
    okoklll  
       1 月 2 日
    试试 Weclone
    https://docs.llamafactory.online/docs/documents/best-practice/weclone
    zisen
        8
    zisen  
       1 月 2 日
    euph
        9
    euph  
       1 月 2 日 via Android
    刚问了哈基米,感觉瓶颈还是在 gpu
    might1
        10
    might1  
       1 月 2 日 via Android
    更好奇是怎么导出来的微信聊天记录
    cxsz
        11
    cxsz  
       1 月 2 日
    同好奇怎么导出数据
    hafuhafu
        12
    hafuhafu  
       1 月 2 日   ❤️ 1
    需要自己清洗一下对话,去掉没用的信息,然后多次连续的消息拼成一个长句,最终应该变成 QA 形式的,你的对话是 Q ,对方的是 A 。
    然后用 LlamaFactory 之类的微调。
    之前稍微玩了一下,太久了忘了,反正看文档完事。
    jiandandkl
        14
    jiandandkl  
       1 月 3 日
    @okoklll 试过 weclone ,效果很不好
    MuskZhou
        15
    MuskZhou  
    OP
       1 月 3 日
    @might1 我的是 macOS ,微信回退到 3.8.0 然后用 wxdump
    MuskZhou
        16
    MuskZhou  
    OP
       1 月 3 日
    @cxsz 我的是 macOS ,微信回退到 3.8.0 然后用 wxdump
    okoklll
        17
    okoklll  
       1 月 3 日
    @jiandandkl 这个和数据质量关系还是挺大的,当时用的哪个模型呢
    kingmiao
        18
    kingmiao  
       15 天前
    12 万条数据 数量不错了。
    这个需求大致是个微调个人风格,这个数据量完全够了,数据清洗多做做。数据洗不干净模型会瞎整的,可以 vibe coding 一个 python 脚本,注意只保留文本对话,数据格式处理成 ShareGPT ,因为是多轮对话,不要用 Alpaca ,那个是单轮的,学不会上下文的联系。
    然后就是看有没有显卡了,整个 8B 模型,效果就不错了,没有显卡可以整 colab 或者 kaggle 都有免费的算力。
    微调库可以用 unsloth ,这种任务跑起来快,方便导出
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3595 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:35 · PVG 18:35 · LAX 02:35 · JFK 05:35
    ♥ Do have faith in what you're doing.