CosyVoice
项目核心内容总结:
CosyVoice 是一个支持多语言(中、英、日、粤语、韩语)的零样本文本到语音合成系统,具备跨语言合成、语音转换、流式语音生成等功能。CosyVoice 2 引入大语言模型实现流式合成,CosyVoice 3 通过扩展训练和后训练优化语音自然度。
使用方法:
- 快速体验:通过 Web 演示界面(
webui.py)直接测试语音合成。 - 部署服务:支持 Docker 部署,提供 gRPC 和 FastAPI 接口,适配不同推理模式(零样本、跨语言、指令控制等)。
- 加速部署:使用 Nvidia TensorRT-LLM 加速推理,相比传统方案提升 4 倍效率。
主要特性:
- 支持零样本合成(无需预训练语音数据);
- 跨语言合成(支持中、英、日等语言切换);
- 语音转换(通过参考语音调整目标语音风格);
- 流式处理(实时生成语音);
- 可扩展部署(兼容 Docker、TensorRT-LLM)。