Skip to content

VoxCPM

OpenBMB VoxCPM

项目核心内容总结：

功能
VoxCPM 是一个无需分词的文本到语音（TTS）模型，支持上下文感知的语音生成和高真实感的语音克隆，可进行个性化微调。

使用方法

命令行工具：支持语音克隆、批量处理、参数调整（如音质/速度控制）、本地或Hugging Face模型加载。
Web界面：通过 python app.py 启动UI，实现语音克隆与生成。
微调：支持全量微调（SFT）和LoRA微调，适配个性化数据训练。

主要特性

采样率高达44.1kHz，音质清晰。
支持中英文，其他语言性能未保证。
社区扩展：ComfyUI插件、ONNX导出、Apple Neural Engine后端等。
风险控制：明确禁止非法用途，要求AI生成内容标注。

限制与风险

语音克隆可能被用于伪造，需遵守法律伦理。
长文本或复杂指令可能不稳定，控制力有限（如情感/语调调节不直接支持）。
仅限研究开发，商用需测试验证。