微信分身 WeClone_v3
版本:v1.0.0
创建时间:2025-12-31
微信分身
Weclone
快速启动
  • 系统环境
    ubuntu 20.04
    3.11.7
    12.4
  • 包含模型

Weclone:用微信聊天记录训练一个AI分身

https://github.com/xming521/WeClone 是一个开源的 AI数字分身 生成项目,它通过用户的微信聊天记录,对大语言模型(LLM)进行微调,从而创建一个有那味儿的"你"。

快速开始

一、申请云服务器

因为完整搭建一个训练环境非常复杂,我建议新手使用云算力测验。

目前市面上很多算力平台都提供了免费试用的云服务器,一些新的小平台赠送的免费额度还挺可观的(比如趣算云、算多多、恒源云、智星文、damodel等),我这里以算多多为例。

1、注册 用以下链接注册,可以免费领取 36 小时的 4070 http://www.gpuduoduo.com/console/login?shareToken=L76YLJ

2、创建实例 选择Weclone 镜像,这个镜像包含了依赖的 LLaMA Factory 库、Qwen2.5-7B 模型、CUDA等。

等待实例创建成功,可以通过 SSH 或 PyJupyter 连接机器。

二、准备数据:使用 PyWxDump 导出微信聊天记录

1、将手机微信聊天记录迁移到电脑上

参考:https://zhuanlan.zhihu.com/p/647727121

2、使用 PyWxDump 导出聊天记录文件

注意,此步骤需要保持电脑上的微信是打开的

PyWxDump 是一个开源的导出电脑上的微信聊天记录的库,主要步骤:

1、下载安装包(目前只支持Windows):Windows下载包

2、解压后,打开应用,会自动在浏览器打开页面

3、解密微信数据

4、导出聊天记录

5、查看聊天记录文件夹

复制导出成功后的目录,粘贴到我的电脑地址栏,回车

三、预处理数据

1、将本地聊天记录 csv 文件夹复制到云服务器上 Weclone 工程的./dataset目录下

  • Windows 用户
scp -P 2222 -r C:\xxx\wxdump_tmp\export\\csv [root@10.114.40.10](mailto:root@10.114.40.10):/root/weclone/WeClone/dataset 

将 2222 换成你的实例 ssh 端口号,xxx/csv换成本地聊天记录的文件夹目录,10.114.40.10 换成实例ssh地址

注意:如果提示找不到 scp,请在“应用和功能”里添加“OpenSSH 客户端”。(也可以下载图形客户端 winscp:https://winscp.net/eng/download.php

  • Mac 或 Linux 用户:
scp -P 2222 -r /xxx/csv [root@10.114.40.10](mailto:root@10.114.40.10):/root/weclone/WeClone/dataset

即复制下图中的 csv 到云端服务器

2、在云服务器上对聊天记录进行预处理

原始的聊天记录需要经过预处理才能用于模型训练。

提升权限为 root

sudo -i

进入工程文件夹

cd /root/weclone/WeClone

激活 python 虚拟环境

source .venv/bin/activate

预处理数据

weclone-cli make-dataset  #在WeClone根目录下执行该命令

成功后,你会看到:

Collecting lengths: 100%|██████████████████████████████████████████| 9/9 [00:00<00:00, 370085.65it/s]
[WeClone] I | 16:07:12 |  cutoff_len设置建议:
[WeClone] W | 16:07:12 | 多模态任务请务必配置cutoff_len为数据最大长度
[WeClone] I | 16:07:12 | 9 (100.00%) samples have length < 256.
[WeClone] S | 16:07:13 | 聊天记录处理成功,共9条,保存到 ./dataset/res_csv/sft/sft-my.json
(.venv) (base) root@ins-tcaiohv2xon41mtq510pgpwxu0b42duj:~/weclone/WeClone# 

到这里,我们的前置工作都准备好了,可以正式开始训练(微调)大模型了

四、微调大模型

这个镜像里预置了 Qwen2.5-7B-Instruct 模型

如果希望更换模型,可以使用 modelscope 下载其他模型,注意要替换一下 settings.jsonc 里的配置

保证当前仍处于虚拟环境下,执行以下命令开始微调

weclone-cli train-sft

注意:工程里已经默认配置好各种参数(./settings.jsonc),我们可以修改相关参数,此处我介绍一些常用的:

common_args 里的 model_name_or_path 代表大模型的目录
common_args 里的 template 代表大模型类型
common_args 里的 use_unsloth 是否使用 unsloth 优化 LoRA 微调,unsloth 可以提高微调速度,减少微调所需的显存⚠️如果打开这个,那么推理的时候会有报错,目前还没解决

更详细的参数设置可参考:https://llamafactory.readthedocs.io/zh-cn/latest/advanced/arguments.html

正常情况下,使用预置的模型,如果只有几十条聊天记录,大概 2-3 分钟就能完成训练,

训练好的模型就保存到 ./model_output

五、与你的数字分身对话(进行模型推理)

微调完成后,你可以通过启动一个 web 服务,与数字分身进行对话交互。

在激活虚拟环境的命令行中,运行:

weclone-cli webchat-demo

脚本会启动一个 Web 服务:

[INFO|2025-06-13 16:43:22] llamafactory.model.model_utils.attention:143 >> Using torch SDPA for faster training and inference.
[INFO|2025-06-13 16:43:22] llamafactory.model.adapter:143 >> Loaded adapter(s): ./model_output
[INFO|2025-06-13 16:43:22] llamafactory.model.loader:143 >> all params: 7,616,878,080
* Running on local URL:  http://0.0.0.0:7860

平台已经将这个端口映射到公网了,等 Web 服务成功起来后,在算多多控制台的快捷应用区域打开 Web 页面:

接下来就可以愉快地和你的分身聊天了

六、其他

你可以考虑将训练好的模型部署到常用的聊天机器人中,比如 AstrBot 本地聊天机器人、Dify工作流等,具体教程可以参考 https://blog.051088.xyz/posts/weclone-linux-tutorial/

参考资料

欢迎加入 AI 讨论群:

开始您的AI 之旅
立即注册,获得10元算力币
输入手机号注册
立即注册