全开源端到端共情语言大模型低成本构建共情语音系统
GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。
现在,紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。
OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。
它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。
最为重要的是,团队开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集、数据构建代码、模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。
详情请查看文章👇