众力资讯网

李飞飞:空间智能是AI下一个前沿

最近,斯坦福大学教授、AI领域重量级人物李飞飞在多个场合反复提到一个词——“空间智能”。这个词听起来有点学术,但其实它讲

最近,斯坦福大学教授、AI领域重量级人物李飞飞在多个场合反复提到一个词——“空间智能”。

这个词听起来有点学术,但其实它讲的是一件特别接地气的事:让机器像人一样,真正看懂我们生活的这个三维世界。

过去几年,大家被大语言模型刷屏了。

ChatGPT能写诗、能编程、还能帮你列购物清单,看起来无所不能。

但如果你让它判断“这张桌子离墙有多远”或者“从A点走到B点会不会撞到椅子”,它大概率会犯迷糊。

原因很简单:这些模型本质上是在处理文字,而不是理解物理世界。

李飞飞说得很直白:“现在的AI就像一个在黑暗中写字的人,字写得漂亮,但根本看不见周围。”

这句话点出了当前AI的一个关键短板:

缺乏对空间的感知和推理能力。

那什么是空间智能?

用最通俗的话说,就是机器能不能“看懂”三维环境,能不能知道物体在哪里、怎么动、彼此之间有什么关系,甚至能不能预测接下来会发生什么。

比如你伸手去接一个抛过来的球,大脑会瞬间计算它的轨迹、速度、落点,然后指挥手准确接住。这种能力,就是空间智能。

人类从小就在发展这种能力。

婴儿爬行、学步、搭积木,都是在建立对空间的理解。

消防员冲进浓烟弥漫的房间救人,靠的不是语言描述,而是对空间结构的快速判断。

建筑师画图纸、科学家建模DNA双螺旋结构,背后都离不开强大的空间思维。

但今天的AI,哪怕是最先进的大模型,在这些基础任务上依然表现不佳。

它们可以生成一张看起来很真实的客厅照片,但如果让你从不同角度看这个房间,或者在里面加一把椅子,系统往往就乱了套。

因为模型并不真懂“椅子应该放在地板上”“沙发和茶几之间要有合理距离”这些常识。

所以,李飞飞提出,AI要想更进一步,必须补上这一课。

她和团队创立的World Labs公司,正在做一件很有意思的事:

构建一种叫“世界模型”的新系统。

这个模型不是用来聊天或写文章的,而是专门用来理解和生成三维世界的。

举个例子,你给它一张普通照片,比如一张街景图,它就能自动“脑补”出整个街道的3D结构:

哪栋楼高、哪条路宽、行人可能从哪里穿行。

而且这个3D世界不是静态的,你可以用键盘控制视角在里面走动,就像玩游戏一样。

更重要的是,这个世界遵守基本的物理规则:

东西不会凭空漂浮,碰撞会有反应,光影符合现实逻辑。

这项技术已经在2025年9月以“Marble”模型的形式对外测试。

虽然还处于早期阶段,但它展示了一个清晰的方向:

AI不再只是处理信息,而是开始理解环境。

为什么这件事重要?

因为它直接关系到很多实际应用能不能落地。

先说机器人。

现在的家用机器人,比如扫地机,基本靠预设地图和简单避障。

一旦家里布局变了,它就容易“迷路”。

而具备空间智能的机器人,能实时理解房间结构,知道沙发挪了位置、地毯卷起来了,甚至能根据你的手势指令把遥控器递过来。

这需要的不只是识别物体,而是理解整个空间的关系网络。

再看自动驾驶。

现在的智驾系统主要依赖激光雷达、摄像头和高精地图,但面对突发情况,比如一个孩子突然从车后跑出来,系统往往反应迟缓。

如果车辆内部有一个高保真的“世界模型”,它就能提前模拟多种可能的轨迹,预判风险,并做出更安全的决策。

这种能力,光靠语言模型是做不到的。

还有创意行业。

电影、游戏、建筑设计,长期依赖专业软件和大量人力搭建3D场景。

现在,设计师只要上传一张概念图,AI就能自动生成可探索的3D环境,还能调整光照、材质、视角。

这不仅节省时间,更打开了创作的可能性。

比如导演想拍一个“希区柯克变焦”镜头,背景压缩、人物不变,传统做法要精密轨道和复杂调度,而有了空间智能工具,几分钟就能在虚拟场景里试效果。

医疗也是潜力巨大的领域。

医生看CT或MRI影像,本质上是在二维切片中重建三维器官结构。

如果AI能自动完成这个过程,并标注出病灶的空间位置、与血管的距离,手术规划就会更精准。

教育同样受益:

学生可以在虚拟化学实验室里亲手“倒”试剂,观察反应,而不必担心爆炸或污染。

当然,这条路并不轻松。

空间智能面临几个实实在在的难题。

首先是数据问题。

训练语言模型可以用海量文本,但高质量的3D空间数据非常稀缺。

一张图片背后有无数种可能的3D解释,如何让AI选对那个?

这就需要多模态输入:

结合图像、视频、深度传感器、甚至用户交互行为,才能逐步逼近真实。

其次是计算成本。

生成一个物理一致的3D世界,远比生成一段文字耗资源。

目前这类模型只能在高端GPU集群上运行,离手机端或普通电脑还有距离。

第三是评价标准缺失。

语言模型好不好,看回答是否通顺、准确就行。

但空间智能怎么衡量?

是看建模精度?

交互流畅度?

还是任务完成率?

学界和工业界还在摸索统一的测试基准。

尽管如此,全球已经有不少力量在推进这件事。

除了李飞飞的World Labs,中国公司如考拉悠然、华为云也在布局空间智能相关技术。

DARPA(美国国防高级研究计划局)早在2024年就将其用于空战模拟,日本则在推进东京全域的3D数字孪生,精度达到10厘米级别。

这些动作说明,空间智能不只是学术设想,而是正在进入工程化阶段。

有意思的是,这项技术还可能改变我们和数字世界互动的方式。

今天,我们用鼠标点击、用语音命令、用触屏滑动,但这些都还是“间接操作”。

未来,如果你戴上轻量级AR眼镜,走进一个由AI实时构建的混合现实空间,你可能会直接用手“抓”起一个虚拟文件,把它“放”到桌面上,而系统能准确理解你的动作意图,因为背后有强大的空间智能在支撑。

这听起来像科幻,但技术路径已经清晰。

关键不在于硬件多炫酷,而在于AI是否真能理解“空间”这件事。

正如李飞飞所说,她的初心从来不是让AI取代人,而是增强人的能力。

空间智能的意义,正是帮人类更好地感知、创造和协作。

回到开头的问题:为什么现在大家都在谈空间智能?

因为AI已经走过了“能说会道”的阶段,下一步必须学会“眼观六路、手脚协调”。

语言是抽象的,但生活是具体的。

我们吃饭、开车、装修房子、照顾老人,所有这些事都发生在三维空间里。

如果AI想真正融入日常生活,就必须跨过这道门槛。

李飞飞不是第一个提出这个方向的人,但她用清晰的框架和扎实的工程实践,把“空间智能”从一个模糊概念变成了可触摸的技术路线。

这或许就是为什么,越来越多的研究者、工程师和投资人开始认真对待这件事。

最后说一句大实话:

空间智能不会一夜之间改变世界,但它很可能悄悄渗透进我们未来的每一天。

也许五年后,当你用手机拍一张房间照片,AI就能自动生成装修方案;

当你带孩子逛博物馆,AR眼镜会实时叠加文物的历史故事;

当工厂设备出现异常,巡检机器人能自主定位故障点并上报:

这些场景的背后,都是空间智能在默默工作。

技术真正的价值,不在于听起来多高深,而在于能不能让人活得更轻松、更聪明、更有创造力。

从这个角度看,空间智能值得我们持续关注。