众力资讯网

从语言到世界:空间智能与视频孪生开启AI新征程

11月10日,斯坦福大学教授、World Labs联合创始人李飞飞发表长文《From Words to Worlds:

11月10日,斯坦福大学教授、World Labs联合创始人李飞飞发表长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》(从语言到世界:空间智能是AI的下一个前沿)。李飞飞认为,当前以大型语言模型为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解。而空间智能——即人类用以理解、导航并与三维世界交互的底层能力,辅以视频孪生技术的具象化支撑,将是实现机器真正智能的关键突破。

空间智能是指AI系统通过对三维空间和时间的理解,实现感知、推理和行动的能力,而智汇云舟研发并首倡的视频孪生技术不仅是连接现实世界视觉信息与数字空间的“高速通路”,更被视为AI空间智能最丰富、最实时的数据入口之一。技术流程上,首先通过AI识别,精准捕捉视频图像中的静态环境与动态目标,完成“感知”阶段;进而,通过匹配经纬度、海拔等坐标信息,将二维像素坐标转化为精准的三维空间坐标,实现从“感知”到深度“理解”的关键跨越,为孪生体数据的高效管理与智慧“决策”奠定基础。

更为重要的是,视频孪生技术为全场景业务要素赋予了统一的时空属性,彻底打破数据孤岛,支持在“时间+空间”双维度下跨镜头、跨系统、跨场景的关联检索与深度分析。这使得对场景内的人、车、地、物、事件的时空理解、动态仿真与未来预测成为可能。叠加具身智能硬件后,更能构建起“感知—理解—决策—处置”的完整智能化管理闭环,不仅彰显视频孪生作为核心数据入口的价值,也完美契合了空间智能的技术发展逻辑。

李飞飞解释道,空间智能是人类认知的“脚手架”,它不仅是我们在日常生活中停车、接物等无缝操作的基础,更是科学发现、建筑设计和个人叙事的核心。而视频孪生正是将这种认知脚手架数字化、可计算化的关键工具,它让AI得以在虚拟空间中复现物理世界的规律,进而形成与人类相似的空间认知逻辑。

她指出,人类对世界的理解是整体性的——不仅关乎我们“看见了什么”,还包括事物在空间上的关系、它们的意义以及彼此的关联。通过想象、推理、创造与互动来理解世界,而非仅仅依赖语言描述,这正是空间智能的力量,而视频孪生则为AI提供了践行这种力量的“虚拟训练场”,让机器能够在数字镜像中反复演练对空间关系的感知与推理。

为了赋予机器这种能力,我们需要构建一种全新的“世界模型”。这种模型必须具备三种核心能力,而视频孪生技术在其中扮演着不可或缺的角色:首先是生成性,能够创造出在几何、物理和语义上都保持一致性的虚拟世界,这正是视频孪生的核心优势;其次是多模态性,能理解和整合文本、图像、动作等多种指令,视频孪生可作为多模态数据的融合载体,实现跨维度信息的统一呈现;最后是交互性,能根据动作输入预测世界的下一步变化,视频孪生的实时反馈特性恰好满足这一需求,让AI的每一次交互都能得到精准的空间响应。

实现这一愿景面临诸多挑战,包括为视频孪生场景寻找新的训练方法、处理孪生模型所需的海量复杂空间数据,以及开发能支撑高保真孪生系统的新型模型架构。这些挑战的突破,将直接推动空间智能从理论走向实践。

空间智能与视频孪生结合的应用前景极为广阔。在短期内,二者将共同赋能创造力,为电影、游戏和建筑领域的创作者提供强大工具——例如李飞飞团队正在开发的Marble平台,便能基于视频孪生技术快速生成可探索的3D环境,让创作者在虚拟空间中直观调整设计方案;中期来看,它们将推动具身智能机器人的发展,通过视频孪生构建的高仿真训练环境,让机器人在进入真实场景前完成充分学习,成为人类在家庭、实验室中的可靠协作伙伴;长远看,空间智能与视频孪生有望在科学、医疗和教育领域引发革命,通过构建精准的科学实验孪生系统、人体器官孪生模型和沉浸式教学孪生场景,极大增强人类在各自专业领域的能力。

李飞飞强调,她致力于开发人工智能的初心始终是增强人类能力,而非取代人类。构建具备空间智能的机器,推动视频孪生技术与AI的深度融合,最终目标是让AI成为人类应对重大挑战的得力伙伴,共同创造一个更美好、人类潜能得以更大发挥的未来。

近期,李飞飞多次在公开场合强调空间智能及相关技术的重要性。此前,她与黄仁勋、约书亚·本吉奥、杰弗里·辛顿、扬·勒昆以及比尔·达利齐聚伦敦,在《金融时报》(FT)主办的“未来人工智能峰会”(FT Future of AI Summit)上提出,当前大语言模型与智能体仍主要基于语言维度,但若深入反思人类智能的本质,就会发现智能的范畴远超越语言层面。而空间智能,辅以视频孪生等具象化技术,正是感知与行动之间的关键纽带——人类与动物拥有远超语言范畴的非凡能力,能够感知、推理、交互并创造立体世界,AI要实现这一点,就必须突破语言的局限,在空间认知与孪生镜像中寻找答案。

“即便当今最强大的语言模型,在基础空间智能测试中仍然表现不佳,更难以构建精准的视频孪生系统。从这个维度来看,作为一门科学与学科,人工智能仍有太多有待攻克和开拓的疆域,而这必将催生更广阔的应用场景。”李飞飞说。

在她和杨立昆(Yann LeCun)、谢赛宁等AI领域领军学者联合发表的论文《Cambrian-S: 迈向视频中的空间超感知》中,更是明确提出实现AGI(通用人工智能)需先突破“超感知”能力,而视频孪生正是衡量这种超感知能力的重要标尺。研究指出,当前以大语言模型为核心的AI系统缺乏对现实世界的真实感知能力,无法像人类一样理解视频中的空间关系与动态变化,而视频孪生正是实现空间超感知、构建与世界深度交互的AI系统的关键技术之一。