跳转至

CosyVoice FunAudioLLM

FunAudioLLM CosyVoice GitHub Repo stars

CosyVoice 是基于大语言模型(LLM)的文本转语音(TTS)系统,包含 Fun-CosyVoice 3.0、2.0 及 1.0 等多个版本。核心功能支持 9 种常见语言及 18 种以上中文方言/口音的零样本语音合成与跨语言语音克隆,在内容一致性、说话人相似度和韵律自然度上表现优异。系统提供发音修复(Pinyin/CMU phonemes)、无需传统前端的文本归一化处理,以及低至 150ms 延迟的双向流式传输(文本输入与音频输出)。此外,项目支持通过指令控制语言、方言、情绪、语速和音量,并提供本地推理、Web 演示、Docker 容器化部署及 vLLM/TensorRT-LLM 加速优化等多种使用方案。