VibeVoice
项目核心内容总结:
VibeVoice 是微软开源的语音生成框架,支持从文本生成多说话人、长篇幅(最长90分钟)的自然对话音频(如播客),并提供实时流式TTS模型(首句延迟约300ms)。其核心创新包括:
- 使用7.5Hz超低帧率的连续语音分词器(语义与声学),兼顾音质与计算效率;
- 基于LLM+扩散框架,理解上下文并生成高保真语音。
使用方法:
主要限制与风险:
- 仅支持中英文,其他语言可能生成异常音频;
- 不处理背景音、音乐或重叠语音;
- 高质量合成语音可能被用于深度伪造或虚假信息,需确保文本可靠性并合法使用;
- 项目曾因滥用风险暂停,当前仅限研究用途,不推荐直接用于商业场景。