11 月 13 日 2025 百度世界大会上,百度正式推出原生全模态大模型文心 5.0,2.4 万亿参数量搭配统一建模技术,直接将国内大模型竞争拉至全球顶尖水准,这波技术迭代不止是参数升级,更是对 AI 使用场景的全面拓宽。

不同于多数模型的 “后期融合” 套路,文心 5.0 从训练之初就打通文本、图像、音频、视频等多模态数据,用统一自回归架构实现 “理解与生成一体化”。这意味着它不用在不同模态间 “切换适配”,处理图文结合的创意写作、音视频内容解析时,流畅度和精准度远超传统模型,比如生成短视频脚本时能同步匹配画面描述,解析会议录音时可自动提取图文关键信息。
硬实力有权威评测背书:在 40 余项全球基准测试中,其语言与多模态理解能力看齐 Gemini-2.5-Pro、GPT-5-High,图像与视频生成能力比肩垂直专精模型;此前 LMArena 排名中,它还拿下文本任务中国第一、全球并列第二的成绩,创意写作和复杂问题理解尤为突出。
更难得的是 “强能力 + 高效率” 兼顾,采用超稀疏混合专家架构,激活参数占比低于 3%,既保证了 2.4 万亿参数的算力支撑,又提升了推理速度,避免了 “大而笨重” 的痛点。同时通过强化学习训练,智能体规划和工具调用能力显著提升,不管是普通用户日常交互,还是企业级复杂任务处理,都能高效适配。
目前文心 5.0 Preview 已上线文心 App,开发者和企业可通过百度千帆平台调用 API,普通人能直接体验全模态生成、创意写作等功能,企业则可基于其搭建专属应用。
在我看来,文心 5.0 的核心突破不是参数数字,而是 “原生全模态” 带来的场景革命 ——AI 终于能像人类一样 “综合解读多元信息”,这让它从 “专业工具” 变成 “全民助手”。对创意从业者来说,图文音视频一体化生成能节省大量时间;对企业而言,全模态理解能力可赋能客服、营销、研发等多个环节。随着这类原生全模态模型落地,AI 与日常工作生活的融合会更自然,真正走进 “万物皆可智能” 的新阶段。