2025年11月13日,Google DeepMind在著名社交媒体平台“X”的官方账号上发推文宣布正式上线了多模态智能体SIMA 2的预览版。这一新版本依托Gemini 2.5 Flash - lite模型,任务成功率相较于SIMA 1大幅提高,差不多翻了一倍呢!它能在从未见过的新环境里完成复杂指令,还具备自我改进能力,这难道不让人惊叹吗?和只能处理简单任务的旧版本相比,SIMA 2简直强太多了。

SIMA 2依旧以数百小时的游戏视频作为预训练素材,不过它首次引入了自生成数据循环这一创新机制。当进入新场景后,系统会调用独立的Gemini模型批量生成任务,接着由内部奖励模型打分,筛选出高质量的轨迹用于持续微调。这样一来,无需额外的人工标注,智能体的表现就能不断提升。
研究团队透露,在《No Man’s Sky》等测试环境中,SIMA 2展现出了强大的能力。它可以通过阅读环境文本、识别颜色和符号,自主执行“前往红色房屋”或者“砍伐树木”等指令,甚至还能理解emoji组合命令。想象一下,一个智能体就像一个聪明的小助手,能读懂各种提示并完成任务,是不是很厉害?
Sorry, your browser doesn't support embedded videos. 抱歉,浏览器不支持 video 视频
结合生成式模型:虚拟场景交互更逼真DeepMind在演示中结合了生成式世界模型Genie,为SIMA 2即时生成了逼真的户外场景。在这个虚拟场景里,智能体能够准确识别长椅、树木、蝴蝶等对象,并且还能和它们进行交互。高级研究科学家Jane Wang表示,“看懂场景→推断目标→规划动作”这个闭环,正是把虚拟环境中的能力迁移到真实机器人身上所必需的高层行为模块。这就好比给机器人装上了一个聪明的“大脑”,让它能在不同的环境中做出正确的反应。
聚焦高层决策,融合路线待探索不过,SIMA 2目前主要聚焦于高层决策方面,并不涉及机械关节、轮子等底层控制。DeepMind同期训练的机器人基础模型采用了不同的技术路线,至于这两者如何融合,目前还没有确定。团队拒绝透露正式版的发布时间,只是表示希望通过预览版吸引外部合作,共同探索虚拟智能体向实体机器人迁移的可行路径。
值得一提的是,AI技术在机器人领域的应用越来越广泛,像这样不断升级的智能体,未来或许会给我们的生活带来更多便利。说不定在不久的将来,我们身边就会有很多能自主完成各种任务的智能机器人呢。
Google DeepMind的SIMA 2预览版为我们展示了通用机器人和AGI的更多可能性。虽然目前还有一些问题需要解决,但它的出现无疑是一个重要的进步。让我们一起期待未来它能带来更多的惊喜吧!