HeyGem 开源数字人项目详解

1. 什么是HeyGem

HeyGem是由Duix.com开发的免费开源AI数字人项目。

七年前，一群年轻的技术先驱选择了一条非传统的技术路线——通过真人视频数据训练数字人模型。不同于传统耗资巨大的3D数字人方案，我们利用AI生成技术创造出超写实数字人，将制作成本从数十万美元降至仅1000美元。这项创新已赋能超过10,000家企业，为教育工作者、内容创作者、法律专家、医疗从业者和企业家等各领域专业人士生成超过50万个个性化数字人，大幅提升了他们的视频制作效率。

但我们的愿景不止于商业应用。我们相信这项变革性技术应该惠及所有人。为实现数字人创作的民主化，我们开源了克隆技术和视频制作框架。我们始终坚持：打破技术壁垒，让尖端工具触手可及。如今，任何拥有电脑的人都能免费创建自己的AI数字人并零成本制作视频——这正是HeyGem的核心精神。

2. 项目介绍

HeyGem是一款专为Windows系统设计的全离线视频合成工具，能够精确克隆您的外貌和声音，实现形象数字化。您可以通过文字和语音驱动虚拟形象来创建视频。全程无需联网，在享受便捷高效数字体验的同时保护隐私安全。

核心功能

精准形象与声音克隆：
- 采用先进AI算法高精度捕捉人脸特征，包括五官、轮廓等，构建逼真虚拟模型
- 可精确克隆声音，捕捉并复现人声的细微特征，支持多种语音参数设置，实现高度相似的克隆效果
文字与语音驱动虚拟形象：
- 通过自然语言处理技术理解文本内容，将文字转换为自然流畅的语音来驱动虚拟形象
- 也可直接使用语音输入，让虚拟形象根据语音节奏和语调做出相应动作和表情，使表演更自然生动
高效视频合成：
- 高度同步数字人视频画面与声音，实现自然流畅的唇形同步
- 智能优化音视频同步效果
多语言支持：
- 脚本支持8种语言：英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语

关键优势

全离线运行：
- 无需联网，有效保护用户隐私
- 允许用户在安全独立的环境中创作，避免网络传输中潜在的数据泄露风险
用户友好：
- 界面简洁直观，即使没有技术背景的初学者也能轻松上手
- 快速掌握软件使用方法，开启数字人创作之旅
多模型支持：
- 支持导入多个模型并通过一键启动包管理
- 方便用户根据不同创作需求和应用场景选择合适的模型

技术支持

语音克隆技术：
- 采用人工智能等先进技术，根据给定语音样本生成相似或相同的声音
- 覆盖上下文、语调、语速等语音要素
自动语音识别：
- 将人类语音词汇内容转换为计算机可读输入(文本格式)的技术
- 使计算机能够"理解"人类语音
计算机视觉技术：
- 用于视频合成中的视觉处理，包括面部识别和唇部动作分析
- 确保虚拟形象唇部动作与语音和文本内容匹配

3. 本地运行指南

HeyGem支持基于Docker的快速部署。部署前请确保您的硬件和软件环境符合指定要求。

HeyGem支持两种部署模式：Windows/Ubuntu 22.04安装

依赖项

Nodejs 18

Docker镜像

docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai

模式一：Windows安装

系统要求：

目前支持Windows 10 19042.1526或更高版本

硬件要求：

必须有D盘：主要用于存储数字人和项目数据
- 可用空间要求：30GB以上
C盘：用于存储服务镜像文件
- 可用空间要求：100GB以上
- 如果可用空间不足100GB，安装Docker后可以选择其他剩余空间大于100GB的磁盘文件夹

推荐配置：

CPU：第13代Intel Core i5-13400F
内存：32GB
显卡：RTX 4070
确保拥有NVIDIA显卡并正确安装驱动
- NVIDIA驱动下载链接：https://www.nvidia.cn/drivers/lookup/

安装Windows Docker

使用命令wsl --list --verbose检查是否已安装WSL。如果显示如下，则表示已安装，无需再次安装。
使用wsl --update更新WSL。
下载Docker for Windows，根据CPU架构选择合适的安装包。
当看到相关界面时，表示安装成功。
运行Docker
首次运行时接受协议并跳过登录

安装服务器

使用Docker和docker-compose进行安装：
- docker-compose.yml文件位于/deploy目录
- 在/deploy目录执行docker-compose up -d
- 如需使用精简版，执行docker-compose -f docker-compose-lite.yml up -d
- 耐心等待(约半小时，速度取决于网络)，下载将消耗约70GB流量，建议使用WiFi
当在Docker中看到三个服务时表示成功(精简版只有一个服务heygem-gen-video)

NVIDIA 50系列显卡服务器部署方案

针对50系列显卡(经测试也适用于30/40系列搭配CUDA 12.8)
使用PyTorch官方预览版

客户端

直接下载官方构建的安装包
双击HeyGem-x.x.x-setup.exe进行安装

模式二：Ubuntu 22.04安装

系统要求：

我们已在Ubuntu 22.04上完成完整测试。理论上支持桌面版Linux发行版。

硬件要求：

推荐配置
- CPU：第13代Intel Core i5-13400F
- 内存：32G或更多(必需)
- 显卡：RTX-4070(确保拥有NVIDIA显卡并正确安装显卡驱动)
- 硬盘：可用空间大于100G

安装Docker：

首先使用docker --version检查是否已安装Docker。如果已安装，跳过以下步骤。
```
sudo apt update
sudo apt install docker.io
sudo apt install docker-compose
```

安装显卡驱动：

参考官方文档(https://www.nvidia.cn/drivers/lookup/)安装显卡驱动。
安装后执行nvidia-smi命令。如果显示显卡信息，则表示安装成功。

安装NVIDIA Container Toolkit：
NVIDIA Container Toolkit是Docker使用NVIDIA GPU的必要工具。安装步骤如下：

添加NVIDIA软件包仓库：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
 && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
 && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新软件包列表并安装工具包：

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

配置Docker使用NVIDIA运行时：

sudo nvidia-ctk runtime configure --runtime=docker

重启Docker服务：
```
sudo systemctl restart docker
```

安装服务器

cd /deploy
docker-compose -f docker-compose-linux.yml up -d

安装客户端

直接下载Linux版官方构建的安装包。
双击HeyGem-x.x.x.AppImage启动。无需安装。

提醒：在Ubuntu系统中，如果以root用户进入桌面，直接双击HeyGem-x.x.x.AppImage可能无法运行。需要在命令行终端执行./HeyGem-x.x.x.AppImage --no-sandbox，添加--no-sandbox参数即可。

4. 开放API

我们开放了模型训练和视频合成的API。Docker启动后，会在本地暴露几个端口，可通过http://127.0.0.1访问。

具体代码参考：

src/main/service/model.js
src/main/service/video.js
src/main/service/voice.js

模型训练

将视频分离为无声视频+音频

音频存放位置：

D:\\heygem_data\\voice\\data

与guiji2025/fish-speech-ziming服务约定，可在docker-compose中修改

调用接口：

http://127.0.0.1



下载地址(包含懒人一键启动包)：

此处内容已隐藏，请评论后刷新页面查看

推荐阅读