CosyVoice FunAudioLLM

FunAudioLLM CosyVoice ¶

CosyVoice 是基于大语言模型（LLM）的文本转语音（TTS）系统，包含 Fun-CosyVoice 3.0、2.0 及 1.0 等多个版本。核心功能支持 9 种常见语言及 18 种以上中文方言/口音的零样本语音合成与跨语言语音克隆，在内容一致性、说话人相似度和韵律自然度上表现优异。系统提供发音修复（Pinyin/CMU phonemes）、无需传统前端的文本归一化处理，以及低至 150ms 延迟的双向流式传输（文本输入与音频输出）。此外，项目支持通过指令控制语言、方言、情绪、语速和音量，并提供本地推理、Web 演示、Docker 容器化部署及 vLLM/TensorRT-LLM 加速优化等多种使用方案。