土薯工具 Toolshu.com 登錄 用戶注冊

OpenAvatarChat - 實時數字人 ICON

OpenAvatarChat - 實時數字人

網站介紹

項目簡介

OpenAvatarChat是由HumanAIGC-Engineering開發的模塊化交互數字人對話開源項目,核心實現單臺PC上的數字人實時對話能力,支持多模態交互與靈活的組件替換,當前最新版本爲0.5.0,已實現前後端分離架構。

核心亮點

  • 低延遲實時對話:平均回答延遲約2.2秒,延遲包含RTC傳輸、VAD檢測及全流程計算時間;
  • 多模態語言模型:支持文本、音頻、視頻等多模態輸入,適配MiniCPM-o等多模態大模型;
  • 模塊化設計:各功能模塊解耦,可靈活替換ASR、LLM、TTS、數字人渲染等組件;
  • 多數字人適配:支持LiteAvatar(2D)、LAM(超寫實3D)、MuseTalk(2D)等多種數字人類型;
  • 輕量化部署:支持雲端API替代本地大模型,大幅降低硬件配置要求,也支持CPU/GPU推理。

核心能力

  • 支持ASR+LLM+TTS全流程鏈路,適配本地推理/雲端API兩種部署方式;
  • 預置6種配置方案,覆蓋不同硬件環境與數字人類型需求;
  • 集成SenseVoice、CosyVoice、Edge TTS等主流語音處理工具;
  • 支持Dify Chatflow調用,拓展對話流程定製能力;
  • 提供Docker容器化部署與本地環境部署兩種方式,適配Windows、Linux系統。

系統需求

  • Python版本:≥3.11.7,<3.12;
  • 硬件要求:支持CUDA的GPU(未量化MiniCPM-o需20GB以上顯存,int4量化版本需10GB以下顯存),數字人推理支持CPU/GPU;
  • 依賴環境:CUDA≥12.4,推薦使用uv進行Python包管理。

在線體驗

項目在ModelScope與HuggingFace部署了在線體驗服務,可切換LiteAvatar與LAM數字人能力,音頻鏈路基於SenseVoice + Qwen-VL + CosyVoice實現。

发现周边 发现周边
評論區

加載中...