SoulX-Podcast
项目核心内容总结:
项目功能:
SoulX-Podcast 是一个支持多说话人、多轮对话生成的语音合成模型,可生成播客风格的对话内容,同时支持单人语音合成(TTS)。模型具备跨方言的零样本语音克隆能力,可生成包含笑声、叹息等副语言元素的语音。
主要特性:
- 支持多说话人、多轮对话的自然语音生成。
- 支持中文方言(如粤语、四川话等)的语音合成。
- 可通过副语言控制(如笑声、叹息)增强语音表现力。
- 提供零样本语音克隆功能,无需训练即可生成目标人声。
- 集成 WebUI 界面,支持可视化操作与实时交互。
使用方法:
- 安装依赖:克隆仓库、创建 Conda 环境、安装 Python 依赖。
- 下载模型权重(支持多种方式,如 HuggingFace CLI、Python 脚本或 Git 克隆)。
- 运行示例脚本生成语音,或通过 WebUI 界面进行交互式生成(需指定模型路径)。
其他信息:
- 项目采用 Apache 2.0 协议开源,可用于学术研究、教育及合法场景。
- 严禁用于非法活动(如伪造声音、诈骗等),需遵守当地法律法规。