游客

惊爆!完全免费的AI开源数字人项目,究竟有多炸裂?

一言准备中...

HeyGem 开源数字人项目详解

1. 什么是HeyGem

HeyGem是由Duix.com开发的免费开源AI数字人项目。

七年前,一群年轻的技术先驱选择了一条非传统的技术路线——通过真人视频数据训练数字人模型。不同于传统耗资巨大的3D数字人方案,我们利用AI生成技术创造出超写实数字人,将制作成本从数十万美元降至仅1000美元。这项创新已赋能超过10,000家企业,为教育工作者、内容创作者、法律专家、医疗从业者和企业家等各领域专业人士生成超过50万个个性化数字人,大幅提升了他们的视频制作效率。

但我们的愿景不止于商业应用。我们相信这项变革性技术应该惠及所有人。为实现数字人创作的民主化,我们开源了克隆技术和视频制作框架。我们始终坚持:打破技术壁垒,让尖端工具触手可及。如今,任何拥有电脑的人都能免费创建自己的AI数字人并零成本制作视频——这正是HeyGem的核心精神。

2. 项目介绍

HeyGem是一款专为Windows系统设计的全离线视频合成工具,能够精确克隆您的外貌和声音,实现形象数字化。您可以通过文字和语音驱动虚拟形象来创建视频。全程无需联网,在享受便捷高效数字体验的同时保护隐私安全。

核心功能

  • 精准形象与声音克隆

    • 采用先进AI算法高精度捕捉人脸特征,包括五官、轮廓等,构建逼真虚拟模型
    • 可精确克隆声音,捕捉并复现人声的细微特征,支持多种语音参数设置,实现高度相似的克隆效果
  • 文字与语音驱动虚拟形象

    • 通过自然语言处理技术理解文本内容,将文字转换为自然流畅的语音来驱动虚拟形象
    • 也可直接使用语音输入,让虚拟形象根据语音节奏和语调做出相应动作和表情,使表演更自然生动
  • 高效视频合成

    • 高度同步数字人视频画面与声音,实现自然流畅的唇形同步
    • 智能优化音视频同步效果
  • 多语言支持

    • 脚本支持8种语言:英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语

关键优势

  • 全离线运行

    • 无需联网,有效保护用户隐私
    • 允许用户在安全独立的环境中创作,避免网络传输中潜在的数据泄露风险
  • 用户友好

    • 界面简洁直观,即使没有技术背景的初学者也能轻松上手
    • 快速掌握软件使用方法,开启数字人创作之旅
  • 多模型支持

    • 支持导入多个模型并通过一键启动包管理
    • 方便用户根据不同创作需求和应用场景选择合适的模型

技术支持

  • 语音克隆技术

    • 采用人工智能等先进技术,根据给定语音样本生成相似或相同的声音
    • 覆盖上下文、语调、语速等语音要素
  • 自动语音识别

    • 将人类语音词汇内容转换为计算机可读输入(文本格式)的技术
    • 使计算机能够"理解"人类语音
  • 计算机视觉技术

    • 用于视频合成中的视觉处理,包括面部识别和唇部动作分析
    • 确保虚拟形象唇部动作与语音和文本内容匹配

3. 本地运行指南

HeyGem支持基于Docker的快速部署。部署前请确保您的硬件和软件环境符合指定要求。

HeyGem支持两种部署模式:Windows/Ubuntu 22.04安装

依赖项

  • Nodejs 18
  • Docker镜像
    docker pull guiji2025/fun-asr
    docker pull guiji2025/fish-speech-ziming
    docker pull guiji2025/heygem.ai

模式一:Windows安装

系统要求

  • 目前支持Windows 10 19042.1526或更高版本

硬件要求

  • 必须有D盘:主要用于存储数字人和项目数据
    • 可用空间要求:30GB以上
  • C盘:用于存储服务镜像文件
    • 可用空间要求:100GB以上
    • 如果可用空间不足100GB,安装Docker后可以选择其他剩余空间大于100GB的磁盘文件夹

推荐配置

安装Windows Docker

  1. 使用命令wsl --list --verbose检查是否已安装WSL。如果显示如下,则表示已安装,无需再次安装。

  2. 使用wsl --update更新WSL。

  3. 下载Docker for Windows,根据CPU架构选择合适的安装包。

  4. 当看到相关界面时,表示安装成功。

  5. 运行Docker

  6. 首次运行时接受协议并跳过登录

安装服务器

  1. 使用Docker和docker-compose进行安装:

    • docker-compose.yml文件位于/deploy目录
    • 在/deploy目录执行docker-compose up -d
    • 如需使用精简版,执行docker-compose -f docker-compose-lite.yml up -d
    • 耐心等待(约半小时,速度取决于网络),下载将消耗约70GB流量,建议使用WiFi
  2. 当在Docker中看到三个服务时表示成功(精简版只有一个服务heygem-gen-video)

NVIDIA 50系列显卡服务器部署方案

  • 针对50系列显卡(经测试也适用于30/40系列搭配CUDA 12.8)
  • 使用PyTorch官方预览版

客户端

  1. 直接下载官方构建的安装包
  2. 双击HeyGem-x.x.x-setup.exe进行安装

模式二:Ubuntu 22.04安装

系统要求

  • 我们已在Ubuntu 22.04上完成完整测试。理论上支持桌面版Linux发行版。

硬件要求

  • 推荐配置
    • CPU:第13代Intel Core i5-13400F
    • 内存:32G或更多(必需)
    • 显卡:RTX-4070(确保拥有NVIDIA显卡并正确安装显卡驱动)
    • 硬盘:可用空间大于100G

安装Docker

  1. 首先使用docker --version检查是否已安装Docker。如果已安装,跳过以下步骤。
    sudo apt update
    sudo apt install docker.io
    sudo apt install docker-compose

安装显卡驱动

  1. 参考官方文档(https://www.nvidia.cn/drivers/lookup/)安装显卡驱动
  2. 安装后执行nvidia-smi命令。如果显示显卡信息,则表示安装成功。

安装NVIDIA Container Toolkit
NVIDIA Container Toolkit是Docker使用NVIDIA GPU的必要工具。安装步骤如下:

  1. 添加NVIDIA软件包仓库:

    distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
     && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
     && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  2. 更新软件包列表并安装工具包:

    sudo apt-get update
    sudo apt-get install -y nvidia-container-toolkit
  3. 配置Docker使用NVIDIA运行时:

    sudo nvidia-ctk runtime configure --runtime=docker
  4. 重启Docker服务:

    sudo systemctl restart docker

安装服务器

cd /deploy
docker-compose -f docker-compose-linux.yml up -d

安装客户端

  1. 直接下载Linux版官方构建的安装包。
  2. 双击HeyGem-x.x.x.AppImage启动。无需安装。

提醒:在Ubuntu系统中,如果以root用户进入桌面,直接双击HeyGem-x.x.x.AppImage可能无法运行。需要在命令行终端执行./HeyGem-x.x.x.AppImage --no-sandbox,添加--no-sandbox参数即可。

4. 开放API

我们开放了模型训练和视频合成的API。Docker启动后,会在本地暴露几个端口,可通过http://127.0.0.1访问。

具体代码参考:

  • src/main/service/model.js
  • src/main/service/video.js
  • src/main/service/voice.js

模型训练

将视频分离为无声视频+音频

音频存放位置:

D:\\heygem_data\\voice\\data

与guiji2025/fish-speech-ziming服务约定,可在docker-compose中修改

调用接口:

http://127.0.0.1



下载地址(包含懒人一键启动包):
  • 本文作者:莫潇羽
  • 本文链接: https://bbs.fuyuan7.com/post/570
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本作品著作权归原作者所有。本平台免费提供分享服务,不涉及商用授权。如需商用,请通过正规渠道购买正版授权
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
0
关于作者
605
0
0
0
俯仰不愧天地 褒贬自有春秋

短剧新赛道---动漫短剧玩法,目前红利期

上一篇

抖音全域电商实战,千川投放技巧,赛道选择、经营策略制定以及各类投放细节要点

下一篇
评论区
内容为空

这一切,似未曾拥有

  • 复制图片
按住ctrl可打开默认菜单