众力资讯网

世界模型有了开源基座世界模型赛道新玩家最新最强的开源原生多模态世界模型——北京智

世界模型有了开源基座世界模型赛道新玩家

最新最强的开源原生多模态世界模型——

北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。

图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。

先感受一下它的高精度操作:一句话消除手写痕迹。【图1】

第一视角漫游动态3D世界:【图2】

要知道,现在AI迭代的速度,正在刷新所有人的认知。

尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。

肉眼可见,AI视频一个比一个真,一个比一个长。

but,先别急着鼓掌,真正的赛点,早已不是"像不像",而是"懂不懂"。

它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是"高级的GIF"。

现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。

从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI模拟动态物理世界的能力又双叒增强了。

它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。

由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑:【图3】

还能像拍电影一样,生成图文并茂的视觉故事:【图4】

从测评成绩来看,悟界·Emu3.5的表现也极其亮眼——在多项权威基准上,性能媲美甚至超越了Gemini-2.5-Flash-Image,没错,就是那个Nano Banana,在文本渲染和多模态交错生成任务上优势尤其显著。【图5】

Emu3.5的命名,就揭示了它的定位:世界模型基座。

顾名思义,它要做的是世界模型的基础模型,这等于是在AI领域开辟了一条全新的赛道。

那么,这样一个被寄予厚望的模型究竟有多强?来看更多案例: