众力资讯网

传统TTS合成常常需要分别处理多语言支持、声音克隆和风格控制,工具分散、效果不自

传统TTS合成常常需要分别处理多语言支持、声音克隆和风格控制,工具分散、效果不自然,开发者来回切换颇为麻烦。

VoxCPM2 把先进的TTS功能全部整合到一起,提供了无令牌化、多语言语音生成的完整解决方案。

2B参数模型,训练超200万小时多语种数据,支持30种语言、Voice Design创意配音、真实克隆,以及48kHz录音棚级音频输出。

GitHub:github.com/OpenBMB/VoxCPM

主要功能:

- 30语言多语种支持,直接输入文本合成,无需语言标签;- Voice Design,用自然语言描述(性别、年龄、语气、情感)创建全新声音,无需参考音频;- 可控声音克隆,提供短参考音频,精确控制情感、语速、表达;- 终极克隆,提供参考音频+转录,完美复现音色、节奏、情感细节;- 48kHz高质量音频输出,内置超分辨率,支持实时流式生成(RTX 4090 RTF低至0.13);- Python API、CLI命令行、Web Demo,pip安装即用,支持LoRA微调。

支持 Python ≥3.10 + PyTorch + CUDA多平台部署,Apache-2.0许可,商用友好,适合开发者、内容创作者和语音应用。

Demo: voxcpm.modelbest.cn

AI文本转语音TTS语音克隆VoxCPM