Skip to content

neutts

neuphonic neutts

项目核心内容总结

项目功能
NeuTTS 是一套开源的语音合成（TTS）模型，支持本地设备部署，具备实时语音克隆能力。通过结合轻量级语言模型和高效音频编码器（NeuCodec），可生成自然语音，并支持多设备运行（手机、嵌入式设备等）。

主要特性

支持英语语音合成，提供两种模型（NeuTTS-Air 和 NeuTTS-Nano），参数量分别为 ~360M 和 ~120M，支持语音克隆功能。
使用 GGML 格式优化本地推理，兼容 GGUF 量化版本（Q4/Q8），可在 CPU 或 GPU 上运行。
集成水印技术，确保生成音频的可追溯性。
推理速度：在中端设备上实现实时生成，RTX 4090 显卡下可达 1.9 万 tokens/s（Nano 模型）。

使用方法

安装依赖：克隆仓库，安装 espeak-ng（语音相关依赖），Python 依赖（PyTorch、llama-cpp-python、onnxruntime 等）。
运行示例：通过命令行或 Python 脚本调用模型，需提供输入文本、参考音频及文本（用于语音克隆）。
流式生成：支持分块生成音频，需安装 pyaudio。
模型选择：可指定不同模型版本（如 neutts-nano-q4-gguf）及编码器（NeuCodec）。

注意事项

项目由 Neuphonic 官方维护，警惕非官方网站（如 neutts.com）。
生成音频包含水印，避免用于非法用途。
Python 环境需 3.11-3.13 版本，依赖 PyTorch 兼容性。