Skip to content

VibeVoice

microsoft VibeVoice

项目核心内容总结：

VibeVoice 是微软开源的语音生成框架，支持从文本生成多说话人、长篇幅（最长90分钟）的自然对话音频（如播客），并提供实时流式TTS模型（首句延迟约300ms）。其核心创新包括：

使用7.5Hz超低帧率的连续语音分词器（语义与声学），兼顾音质与计算效率；
基于LLM+扩散框架，理解上下文并生成高保真语音。

使用方法：

通过 Colab 示例（链接）体验实时TTS；
通过 WebSocket 示例启动本地演示（见文档 Usage）；
从 Hugging Face 获取模型集合（链接）。

主要限制与风险：

仅支持中英文，其他语言可能生成异常音频；
不处理背景音、音乐或重叠语音；
高质量合成语音可能被用于深度伪造或虚假信息，需确保文本可靠性并合法使用；
项目曾因滥用风险暂停，当前仅限研究用途，不推荐直接用于商业场景。