VibeVoice microsoft

microsoft VibeVoice ¶

VibeVoice 是一个开源的尖端语音 AI 框架，提供文本转语音（TTS）和自动语音识别（ASR）模型。核心技术采用超低帧率连续语音 Tokenizer 与大语言模型扩散框架，以高效处理长序列音频。

主要功能包括： 1. VibeVoice-ASR：支持单次处理长达 60 分钟的音频，生成包含说话人、时间戳和内容的结构化转录，支持 50 多种语言及自定义热词。 2. VibeVoice-TTS：支持单次生成长达 90 分钟的语音，兼容 4 位不同说话人，具备自然表达和多语言合成能力。 3. VibeVoice-Realtime-0.5B：轻量级实时 TTS 模型，支持流式文本输入与低延迟输出，适合实时场景。

项目主要用于研究与开发，需负责任地使用以避免滥用风险。