HeyGem 开源数字人项目详解
1. 什么是HeyGem
HeyGem是由Duix.com开发的免费开源AI数字人项目。
七年前,一群年轻的技术先驱选择了一条非传统的技术路线——通过真人视频数据训练数字人模型。不同于传统耗资巨大的3D数字人方案,我们利用AI生成技术创造出超写实数字人,将制作成本从数十万美元降至仅1000美元。这项创新已赋能超过10,000家企业,为教育工作者、内容创作者、法律专家、医疗从业者和企业家等各领域专业人士生成超过50万个个性化数字人,大幅提升了他们的视频制作效率。
但我们的愿景不止于商业应用。我们相信这项变革性技术应该惠及所有人。为实现数字人创作的民主化,我们开源了克隆技术和视频制作框架。我们始终坚持:打破技术壁垒,让尖端工具触手可及。如今,任何拥有电脑的人都能免费创建自己的AI数字人并零成本制作视频——这正是HeyGem的核心精神。
2. 项目介绍
HeyGem是一款专为Windows系统设计的全离线视频合成工具,能够精确克隆您的外貌和声音,实现形象数字化。您可以通过文字和语音驱动虚拟形象来创建视频。全程无需联网,在享受便捷高效数字体验的同时保护隐私安全。
核心功能
-
精准形象与声音克隆:
- 采用先进AI算法高精度捕捉人脸特征,包括五官、轮廓等,构建逼真虚拟模型
- 可精确克隆声音,捕捉并复现人声的细微特征,支持多种语音参数设置,实现高度相似的克隆效果
-
文字与语音驱动虚拟形象:
- 通过自然语言处理技术理解文本内容,将文字转换为自然流畅的语音来驱动虚拟形象
- 也可直接使用语音输入,让虚拟形象根据语音节奏和语调做出相应动作和表情,使表演更自然生动
-
高效视频合成:
- 高度同步数字人视频画面与声音,实现自然流畅的唇形同步
- 智能优化音视频同步效果
-
多语言支持:
- 脚本支持8种语言:英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语
关键优势
-
全离线运行:
- 无需联网,有效保护用户隐私
- 允许用户在安全独立的环境中创作,避免网络传输中潜在的数据泄露风险
-
用户友好:
- 界面简洁直观,即使没有技术背景的初学者也能轻松上手
- 快速掌握软件使用方法,开启数字人创作之旅
-
多模型支持:
- 支持导入多个模型并通过一键启动包管理
- 方便用户根据不同创作需求和应用场景选择合适的模型
技术支持
-
语音克隆技术:
- 采用人工智能等先进技术,根据给定语音样本生成相似或相同的声音
- 覆盖上下文、语调、语速等语音要素
-
自动语音识别:
- 将人类语音词汇内容转换为计算机可读输入(文本格式)的技术
- 使计算机能够"理解"人类语音
-
计算机视觉技术:
- 用于视频合成中的视觉处理,包括面部识别和唇部动作分析
- 确保虚拟形象唇部动作与语音和文本内容匹配
3. 本地运行指南
HeyGem支持基于Docker的快速部署。部署前请确保您的硬件和软件环境符合指定要求。
HeyGem支持两种部署模式:Windows/Ubuntu 22.04安装
依赖项
- Nodejs 18
- Docker镜像
docker pull guiji2025/fun-asr docker pull guiji2025/fish-speech-ziming docker pull guiji2025/heygem.ai
模式一:Windows安装
系统要求:
- 目前支持Windows 10 19042.1526或更高版本
硬件要求:
- 必须有D盘:主要用于存储数字人和项目数据
- 可用空间要求:30GB以上
- C盘:用于存储服务镜像文件
- 可用空间要求:100GB以上
- 如果可用空间不足100GB,安装Docker后可以选择其他剩余空间大于100GB的磁盘文件夹
推荐配置:
- CPU:第13代Intel Core i5-13400F
- 内存:32GB
- 显卡:RTX 4070
- 确保拥有NVIDIA显卡并正确安装驱动
- NVIDIA驱动下载链接:https://www.nvidia.cn/drivers/lookup/
安装Windows Docker
-
使用命令
wsl --list --verbose
检查是否已安装WSL。如果显示如下,则表示已安装,无需再次安装。 -
使用
wsl --update
更新WSL。 -
下载Docker for Windows,根据CPU架构选择合适的安装包。
-
当看到相关界面时,表示安装成功。
-
运行Docker
-
首次运行时接受协议并跳过登录
安装服务器
-
使用Docker和docker-compose进行安装:
- docker-compose.yml文件位于/deploy目录
- 在/deploy目录执行
docker-compose up -d
- 如需使用精简版,执行
docker-compose -f docker-compose-lite.yml up -d
- 耐心等待(约半小时,速度取决于网络),下载将消耗约70GB流量,建议使用WiFi
-
当在Docker中看到三个服务时表示成功(精简版只有一个服务heygem-gen-video)
NVIDIA 50系列显卡服务器部署方案
- 针对50系列显卡(经测试也适用于30/40系列搭配CUDA 12.8)
- 使用PyTorch官方预览版
客户端
- 直接下载官方构建的安装包
- 双击HeyGem-x.x.x-setup.exe进行安装
模式二:Ubuntu 22.04安装
系统要求:
- 我们已在Ubuntu 22.04上完成完整测试。理论上支持桌面版Linux发行版。
硬件要求:
- 推荐配置
- CPU:第13代Intel Core i5-13400F
- 内存:32G或更多(必需)
- 显卡:RTX-4070(确保拥有NVIDIA显卡并正确安装显卡驱动)
- 硬盘:可用空间大于100G
安装Docker:
- 首先使用
docker --version
检查是否已安装Docker。如果已安装,跳过以下步骤。sudo apt update sudo apt install docker.io sudo apt install docker-compose
安装显卡驱动:
- 参考官方文档(https://www.nvidia.cn/drivers/lookup/)安装显卡驱动。
- 安装后执行
nvidia-smi
命令。如果显示显卡信息,则表示安装成功。
安装NVIDIA Container Toolkit:
NVIDIA Container Toolkit是Docker使用NVIDIA GPU的必要工具。安装步骤如下:
-
添加NVIDIA软件包仓库:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
-
更新软件包列表并安装工具包:
sudo apt-get update sudo apt-get install -y nvidia-container-toolkit
-
配置Docker使用NVIDIA运行时:
sudo nvidia-ctk runtime configure --runtime=docker
-
重启Docker服务:
sudo systemctl restart docker
安装服务器
cd /deploy
docker-compose -f docker-compose-linux.yml up -d
安装客户端
- 直接下载Linux版官方构建的安装包。
- 双击HeyGem-x.x.x.AppImage启动。无需安装。
提醒:在Ubuntu系统中,如果以root用户进入桌面,直接双击HeyGem-x.x.x.AppImage可能无法运行。需要在命令行终端执行./HeyGem-x.x.x.AppImage --no-sandbox
,添加--no-sandbox参数即可。
4. 开放API
我们开放了模型训练和视频合成的API。Docker启动后,会在本地暴露几个端口,可通过http://127.0.0.1访问。
具体代码参考:
- src/main/service/model.js
- src/main/service/video.js
- src/main/service/voice.js
模型训练
将视频分离为无声视频+音频
音频存放位置:
D:\\heygem_data\\voice\\data
与guiji2025/fish-speech-ziming服务约定,可在docker-compose中修改
调用接口:
下载地址(包含懒人一键启动包):
这一切,似未曾拥有