Skip to content

SoulX-Podcast

Soul-AILab SoulX-Podcast

项目核心内容总结：

项目功能：
SoulX-Podcast 是一个支持多说话人、多轮对话生成的语音合成模型，可生成播客风格的对话内容，同时支持单人语音合成（TTS）。模型具备跨方言的零样本语音克隆能力，可生成包含笑声、叹息等副语言元素的语音。

主要特性：

支持多说话人、多轮对话的自然语音生成。
支持中文方言（如粤语、四川话等）的语音合成。
可通过副语言控制（如笑声、叹息）增强语音表现力。
提供零样本语音克隆功能，无需训练即可生成目标人声。
集成 WebUI 界面，支持可视化操作与实时交互。

使用方法：

安装依赖：克隆仓库、创建 Conda 环境、安装 Python 依赖。
下载模型权重（支持多种方式，如 HuggingFace CLI、Python 脚本或 Git 克隆）。
运行示例脚本生成语音，或通过 WebUI 界面进行交互式生成（需指定模型路径）。

其他信息：

项目采用 Apache 2.0 协议开源，可用于学术研究、教育及合法场景。
严禁用于非法活动（如伪造声音、诈骗等），需遵守当地法律法规。