跳转至

VibeVoice microsoft

microsoft VibeVoice GitHub Repo stars

VibeVoice 是一个开源的尖端语音 AI 框架,提供文本转语音(TTS)和自动语音识别(ASR)模型。核心技术采用超低帧率连续语音 Tokenizer 与大语言模型扩散框架,以高效处理长序列音频。

主要功能包括: 1. VibeVoice-ASR:支持单次处理长达 60 分钟的音频,生成包含说话人、时间戳和内容的结构化转录,支持 50 多种语言及自定义热词。 2. VibeVoice-TTS:支持单次生成长达 90 分钟的语音,兼容 4 位不同说话人,具备自然表达和多语言合成能力。 3. VibeVoice-Realtime-0.5B:轻量级实时 TTS 模型,支持流式文本输入与低延迟输出,适合实时场景。

项目主要用于研究与开发,需负责任地使用以避免滥用风险。