传统TTS合成常常需要分别处理多语言支持、声音克隆和风格控制，工具分散、效果不自

传统TTS合成常常需要分别处理多语言支持、声音克隆和风格控制，工具分散、效果不自然，开发者来回切换颇为麻烦。

VoxCPM2 把先进的TTS功能全部整合到一起，提供了无令牌化、多语言语音生成的完整解决方案。

2B参数模型，训练超200万小时多语种数据，支持30种语言、Voice Design创意配音、真实克隆，以及48kHz录音棚级音频输出。

GitHub：github.com/OpenBMB/VoxCPM

主要功能：

- 30语言多语种支持，直接输入文本合成，无需语言标签；- Voice Design，用自然语言描述（性别、年龄、语气、情感）创建全新声音，无需参考音频；- 可控声音克隆，提供短参考音频，精确控制情感、语速、表达；- 终极克隆，提供参考音频+转录，完美复现音色、节奏、情感细节；- 48kHz高质量音频输出，内置超分辨率，支持实时流式生成（RTX 4090 RTF低至0.13）；- Python API、CLI命令行、Web Demo，pip安装即用，支持LoRA微调。

支持 Python ≥3.10 + PyTorch + CUDA多平台部署，Apache-2.0许可，商用友好，适合开发者、内容创作者和语音应用。

Demo: voxcpm.modelbest.cn

AI文本转语音TTS语音克隆VoxCPM

众力资讯网

传统TTS合成常常需要分别处理多语言支持、声音克隆和风格控制，工具分散、效果不自

热门分类