Seed-VC:零样本、实时的语音与歌声转换工具 🎙️🎶
Seed-VC 是一个先进的 语音转换(VC)与歌声转换(SVC)项目。它最大的特点是支持零样本学习(Zero-shot)与实时处理,无需任何训练,仅凭1到30秒的参考音频即可克隆目标声音。
✨ 核心功能
- 零样本语音转换: 上传源音频和目标参考音频,直接转换声音。
- 零样本实时语音转换: 支持约300ms算法延迟 + 100ms设备延迟,适用于在线会议、游戏和直播。
- 零样本歌声转换: 专门优化,支持更高采样率(44.1kHz)和高音质量。
- 微调支持: 可在自定义数据上进行快速微调(每个说话人最低仅需1句话,最少100步训练即可见效)。
🤖 模型版本
项目提供了四种预训练模型以适应不同场景:
- v1.0 tiny版 (seed-uvit-tat-xlsr-tiny): 25M参数,22050Hz采样率,最适合实时语音转换。
- v1.0 small版 (seed-uvit-whisper-small-wavenet): 98M参数,22050Hz,适合离线高质量语音转换。
- v1.0 base版 (seed-uvit-whisper-base): 200M参数,44100Hz,专为歌声转换 (SVC) 设计,零样本性能强大。
- v2.0版 (hubert-bsqvae-small): 67M+90M参数,最佳抑制源说话人特征,支持语音和口音转换。
🛠️ 使用方式
项目提供了多种使用接口:
- 命令行推理: 通过
inference.py 或 inference_v2.py 快速转换文件。 - Web UI: 运行
app_vc.py (语音)、app_svc.py (歌声) 或集成界面 app.py,在浏览器中操作。 - 实时转换GUI: 运行
real-time-gui.py,获得带参数调节的图形界面,可用于虚拟麦克风路由。
💻 安装与要求
建议使用 Python 3.10 环境,支持 Windows、Linux 和 Mac M系列芯片。通过 pip 安装依赖即可开始使用。
📈 项目状态
该项目在 GitHub 上已获得 3.8k Stars 和 492 Forks,主要使用 Python (97.4%) 开发,社区活跃,持续更新中。
加载中...