OpenAvatarChat - 實時數字人

https://github.com/HumanAIGC-Engineering/OpenAvatarChat

-s後自動跳轉...

網站介紹

項目簡介

OpenAvatarChat是由HumanAIGC-Engineering開發的模塊化交互數字人對話開源項目，核心實現單臺PC上的數字人實時對話能力，支持多模態交互與靈活的組件替換，當前最新版本爲0.5.0，已實現前後端分離架構。

核心亮點

低延遲實時對話：平均回答延遲約2.2秒，延遲包含RTC傳輸、VAD檢測及全流程計算時間；
多模態語言模型：支持文本、音頻、視頻等多模態輸入，適配MiniCPM-o等多模態大模型；
模塊化設計：各功能模塊解耦，可靈活替換ASR、LLM、TTS、數字人渲染等組件；
多數字人適配：支持LiteAvatar（2D）、LAM（超寫實3D）、MuseTalk（2D）等多種數字人類型；
輕量化部署：支持雲端API替代本地大模型，大幅降低硬件配置要求，也支持CPU/GPU推理。

核心能力

支持ASR+LLM+TTS全流程鏈路，適配本地推理/雲端API兩種部署方式；
預置6種配置方案，覆蓋不同硬件環境與數字人類型需求；
集成SenseVoice、CosyVoice、Edge TTS等主流語音處理工具；
支持Dify Chatflow調用，拓展對話流程定製能力；
提供Docker容器化部署與本地環境部署兩種方式，適配Windows、Linux系統。

系統需求

Python版本：≥3.11.7，<3.12；
硬件要求：支持CUDA的GPU（未量化MiniCPM-o需20GB以上顯存，int4量化版本需10GB以下顯存），數字人推理支持CPU/GPU；
依賴環境：CUDA≥12.4，推薦使用uv進行Python包管理。

在線體驗

項目在ModelScope與HuggingFace部署了在線體驗服務，可切換LiteAvatar與LAM數字人能力，音頻鏈路基於SenseVoice + Qwen-VL + CosyVoice實現。

評論區

加載中...