最新全模态大模型问世,语音合成达人类水平! 没想到,国内的大模型发展速度这么快,就在刚刚,阿里正式发布了Qwen2.5-Omni-7B这一全球性能最强的端到端全模态大模型。该模型不仅能够处理文本、图像、音频和视频等多种输入形式,还能实时输出文本与自然语音。而在OmniBench等多模态融合任务评测中,它还刷新了业界纪录,其语音合成能力甚至在seed-tts-eval语音生成基准测试中达到了人类水平。 更令人惊讶的是,这个大模型的应用前景也十分广阔。与OpenAI的GPT-4o相比,Qwen2.5-Omni-7B的体积要小得多,使得全模态大模型得以在产业上得到更为广泛的应用。现在,用户只需使用消费级显卡就能下载并部署这个模型。 值得一提的是,这并不是阿里第一次在AI领域做出贡献。截至目前,阿里通义团队已经开源了超过200款模型,其中包括大语言模型千问Qwen以及视觉生成模型万相Wan等多个基础模型系列。这些模型覆盖了从文本生成到视觉和语音的理解与生成等多个方面,而且支持包括中文、英文在内的29种不同语言。 回过头来看,不得不佩服马云的前瞻性。他当初在09年的时候就投资成立阿里云,如今15年过去了才有今天的阿里云。而阿里在AI领域的布局也是早在几年前就已经开始,当时通义千问的前身还是M6大模型。通过4,5年的沉淀积累,如今才有了今天这样开源模型的实力。而吴泳铭现在接棒又继续点燃了这把火,通过3800亿的投资把阿里的AI基础设施建设给做的更扎实,把基础打牢。 这些无疑是非常独到且具有前瞻性的。相信在未来,阿里将继续引领中国乃至全球的科技创新潮流,为推动社会经济的发展作出更大的贡献。
最新全模态大模型问世,语音合成达人类水平! 没想到,国内的大模型发展速度这么快
俊誉聊商业
2025-03-27 11:45:53
0
阅读:0