Seed-VC:零樣本、實時的語音與歌聲轉換工具 🎙️🎶
Seed-VC 是一個先進的 語音轉換(VC)與歌聲轉換(SVC)項目。它最大的特點是支持零樣本學習(Zero-shot)與實時處理,無需任何訓練,僅憑1到30秒的參考音頻即可克隆目標聲音。
✨ 核心功能
- 零樣本語音轉換: 上傳源音頻和目標參考音頻,直接轉換聲音。
- 零樣本實時語音轉換: 支持約300ms算法延遲 + 100ms設備延遲,適用於在線會議、遊戲和直播。
- 零樣本歌聲轉換: 專門優化,支持更高採樣率(44.1kHz)和高音質量。
- 微調支持: 可在自定義數據上進行快速微調(每個說話人最低僅需1句話,最少100步訓練即可見效)。
🤖 模型版本
項目提供了四種預訓練模型以適應不同場景:
- v1.0 tiny版 (seed-uvit-tat-xlsr-tiny): 25M參數,22050Hz採樣率,最適合實時語音轉換。
- v1.0 small版 (seed-uvit-whisper-small-wavenet): 98M參數,22050Hz,適合離線高質量語音轉換。
- v1.0 base版 (seed-uvit-whisper-base): 200M參數,44100Hz,專爲歌聲轉換 (SVC) 設計,零樣本性能強大。
- v2.0版 (hubert-bsqvae-small): 67M+90M參數,最佳抑制源說話人特徵,支持語音和口音轉換。
🛠️ 使用方式
項目提供了多種使用接口:
- 命令行推理: 通過
inference.py 或 inference_v2.py 快速轉換文件。 - Web UI: 運行
app_vc.py (語音)、app_svc.py (歌聲) 或集成界面 app.py,在瀏覽器中操作。 - 實時轉換GUI: 運行
real-time-gui.py,獲得帶參數調節的圖形界面,可用於虛擬麥克風路由。
💻 安裝與要求
建議使用 Python 3.10 環境,支持 Windows、Linux 和 Mac M系列芯片。通過 pip 安裝依賴即可開始使用。
📈 項目狀態
該項目在 GitHub 上已獲得 3.8k Stars 和 492 Forks,主要使用 Python (97.4%) 開發,社區活躍,持續更新中。
加載中...