项目简介
OpenAvatarChat是由HumanAIGC-Engineering开发的模块化交互数字人对话开源项目,核心实现单台PC上的数字人实时对话能力,支持多模态交互与灵活的组件替换,当前最新版本为0.5.0,已实现前后端分离架构。
核心亮点
- 低延迟实时对话:平均回答延迟约2.2秒,延迟包含RTC传输、VAD检测及全流程计算时间;
- 多模态语言模型:支持文本、音频、视频等多模态输入,适配MiniCPM-o等多模态大模型;
- 模块化设计:各功能模块解耦,可灵活替换ASR、LLM、TTS、数字人渲染等组件;
- 多数字人适配:支持LiteAvatar(2D)、LAM(超写实3D)、MuseTalk(2D)等多种数字人类型;
- 轻量化部署:支持云端API替代本地大模型,大幅降低硬件配置要求,也支持CPU/GPU推理。
核心能力
- 支持ASR+LLM+TTS全流程链路,适配本地推理/云端API两种部署方式;
- 预置6种配置方案,覆盖不同硬件环境与数字人类型需求;
- 集成SenseVoice、CosyVoice、Edge TTS等主流语音处理工具;
- 支持Dify Chatflow调用,拓展对话流程定制能力;
- 提供Docker容器化部署与本地环境部署两种方式,适配Windows、Linux系统。
系统需求
- Python版本:≥3.11.7,<3.12;
- 硬件要求:支持CUDA的GPU(未量化MiniCPM-o需20GB以上显存,int4量化版本需10GB以下显存),数字人推理支持CPU/GPU;
- 依赖环境:CUDA≥12.4,推荐使用uv进行Python包管理。
在线体验
项目在ModelScope与HuggingFace部署了在线体验服务,可切换LiteAvatar与LAM数字人能力,音频链路基于SenseVoice + Qwen-VL + CosyVoice实现。
加载中...