OpenAvatarChat - 实时数字人

https://github.com/HumanAIGC-Engineering/OpenAvatarChat

-s后自动跳转...

网站介绍

项目简介

OpenAvatarChat是由HumanAIGC-Engineering开发的模块化交互数字人对话开源项目，核心实现单台PC上的数字人实时对话能力，支持多模态交互与灵活的组件替换，当前最新版本为0.5.0，已实现前后端分离架构。

核心亮点

低延迟实时对话：平均回答延迟约2.2秒，延迟包含RTC传输、VAD检测及全流程计算时间；
多模态语言模型：支持文本、音频、视频等多模态输入，适配MiniCPM-o等多模态大模型；
模块化设计：各功能模块解耦，可灵活替换ASR、LLM、TTS、数字人渲染等组件；
多数字人适配：支持LiteAvatar（2D）、LAM（超写实3D）、MuseTalk（2D）等多种数字人类型；
轻量化部署：支持云端API替代本地大模型，大幅降低硬件配置要求，也支持CPU/GPU推理。

核心能力

支持ASR+LLM+TTS全流程链路，适配本地推理/云端API两种部署方式；
预置6种配置方案，覆盖不同硬件环境与数字人类型需求；
集成SenseVoice、CosyVoice、Edge TTS等主流语音处理工具；
支持Dify Chatflow调用，拓展对话流程定制能力；
提供Docker容器化部署与本地环境部署两种方式，适配Windows、Linux系统。

系统需求

Python版本：≥3.11.7，<3.12；
硬件要求：支持CUDA的GPU（未量化MiniCPM-o需20GB以上显存，int4量化版本需10GB以下显存），数字人推理支持CPU/GPU；
依赖环境：CUDA≥12.4，推荐使用uv进行Python包管理。

在线体验

项目在ModelScope与HuggingFace部署了在线体验服务，可切换LiteAvatar与LAM数字人能力，音频链路基于SenseVoice + Qwen-VL + CosyVoice实现。

评论区

加载中...