李飞飞：空间智能是AI下一个前沿

最近，斯坦福大学教授、AI领域重量级人物李飞飞在多个场合反复提到一个词——“空间智能”。

这个词听起来有点学术，但其实它讲的是一件特别接地气的事：让机器像人一样，真正看懂我们生活的这个三维世界。

过去几年，大家被大语言模型刷屏了。

ChatGPT能写诗、能编程、还能帮你列购物清单，看起来无所不能。

但如果你让它判断“这张桌子离墙有多远”或者“从A点走到B点会不会撞到椅子”，它大概率会犯迷糊。

原因很简单：这些模型本质上是在处理文字，而不是理解物理世界。

李飞飞说得很直白：“现在的AI就像一个在黑暗中写字的人，字写得漂亮，但根本看不见周围。”

这句话点出了当前AI的一个关键短板：

缺乏对空间的感知和推理能力。

那什么是空间智能？

用最通俗的话说，就是机器能不能“看懂”三维环境，能不能知道物体在哪里、怎么动、彼此之间有什么关系，甚至能不能预测接下来会发生什么。

比如你伸手去接一个抛过来的球，大脑会瞬间计算它的轨迹、速度、落点，然后指挥手准确接住。这种能力，就是空间智能。

人类从小就在发展这种能力。

婴儿爬行、学步、搭积木，都是在建立对空间的理解。

消防员冲进浓烟弥漫的房间救人，靠的不是语言描述，而是对空间结构的快速判断。

建筑师画图纸、科学家建模DNA双螺旋结构，背后都离不开强大的空间思维。

但今天的AI，哪怕是最先进的大模型，在这些基础任务上依然表现不佳。

它们可以生成一张看起来很真实的客厅照片，但如果让你从不同角度看这个房间，或者在里面加一把椅子，系统往往就乱了套。

因为模型并不真懂“椅子应该放在地板上”“沙发和茶几之间要有合理距离”这些常识。

所以，李飞飞提出，AI要想更进一步，必须补上这一课。

她和团队创立的World Labs公司，正在做一件很有意思的事：

构建一种叫“世界模型”的新系统。

这个模型不是用来聊天或写文章的，而是专门用来理解和生成三维世界的。

举个例子，你给它一张普通照片，比如一张街景图，它就能自动“脑补”出整个街道的3D结构：

哪栋楼高、哪条路宽、行人可能从哪里穿行。

而且这个3D世界不是静态的，你可以用键盘控制视角在里面走动，就像玩游戏一样。

更重要的是，这个世界遵守基本的物理规则：

东西不会凭空漂浮，碰撞会有反应，光影符合现实逻辑。

这项技术已经在2025年9月以“Marble”模型的形式对外测试。

虽然还处于早期阶段，但它展示了一个清晰的方向：

AI不再只是处理信息，而是开始理解环境。

为什么这件事重要？

因为它直接关系到很多实际应用能不能落地。

先说机器人。

现在的家用机器人，比如扫地机，基本靠预设地图和简单避障。

一旦家里布局变了，它就容易“迷路”。

而具备空间智能的机器人，能实时理解房间结构，知道沙发挪了位置、地毯卷起来了，甚至能根据你的手势指令把遥控器递过来。

这需要的不只是识别物体，而是理解整个空间的关系网络。

再看自动驾驶。

现在的智驾系统主要依赖激光雷达、摄像头和高精地图，但面对突发情况，比如一个孩子突然从车后跑出来，系统往往反应迟缓。

如果车辆内部有一个高保真的“世界模型”，它就能提前模拟多种可能的轨迹，预判风险，并做出更安全的决策。

这种能力，光靠语言模型是做不到的。

还有创意行业。

电影、游戏、建筑设计，长期依赖专业软件和大量人力搭建3D场景。

现在，设计师只要上传一张概念图，AI就能自动生成可探索的3D环境，还能调整光照、材质、视角。

这不仅节省时间，更打开了创作的可能性。

比如导演想拍一个“希区柯克变焦”镜头，背景压缩、人物不变，传统做法要精密轨道和复杂调度，而有了空间智能工具，几分钟就能在虚拟场景里试效果。

医疗也是潜力巨大的领域。

医生看CT或MRI影像，本质上是在二维切片中重建三维器官结构。

如果AI能自动完成这个过程，并标注出病灶的空间位置、与血管的距离，手术规划就会更精准。

教育同样受益：

学生可以在虚拟化学实验室里亲手“倒”试剂，观察反应，而不必担心爆炸或污染。

当然，这条路并不轻松。

空间智能面临几个实实在在的难题。

首先是数据问题。

训练语言模型可以用海量文本，但高质量的3D空间数据非常稀缺。

一张图片背后有无数种可能的3D解释，如何让AI选对那个？

这就需要多模态输入：

结合图像、视频、深度传感器、甚至用户交互行为，才能逐步逼近真实。

其次是计算成本。

生成一个物理一致的3D世界，远比生成一段文字耗资源。

目前这类模型只能在高端GPU集群上运行，离手机端或普通电脑还有距离。

第三是评价标准缺失。

语言模型好不好，看回答是否通顺、准确就行。

但空间智能怎么衡量？

是看建模精度？

交互流畅度？

还是任务完成率？

学界和工业界还在摸索统一的测试基准。

尽管如此，全球已经有不少力量在推进这件事。

除了李飞飞的World Labs，中国公司如考拉悠然、华为云也在布局空间智能相关技术。

DARPA（美国国防高级研究计划局）早在2024年就将其用于空战模拟，日本则在推进东京全域的3D数字孪生，精度达到10厘米级别。

这些动作说明，空间智能不只是学术设想，而是正在进入工程化阶段。

有意思的是，这项技术还可能改变我们和数字世界互动的方式。

今天，我们用鼠标点击、用语音命令、用触屏滑动，但这些都还是“间接操作”。

未来，如果你戴上轻量级AR眼镜，走进一个由AI实时构建的混合现实空间，你可能会直接用手“抓”起一个虚拟文件，把它“放”到桌面上，而系统能准确理解你的动作意图，因为背后有强大的空间智能在支撑。

这听起来像科幻，但技术路径已经清晰。

关键不在于硬件多炫酷，而在于AI是否真能理解“空间”这件事。

正如李飞飞所说，她的初心从来不是让AI取代人，而是增强人的能力。

空间智能的意义，正是帮人类更好地感知、创造和协作。

回到开头的问题：为什么现在大家都在谈空间智能？

因为AI已经走过了“能说会道”的阶段，下一步必须学会“眼观六路、手脚协调”。

语言是抽象的，但生活是具体的。

我们吃饭、开车、装修房子、照顾老人，所有这些事都发生在三维空间里。

如果AI想真正融入日常生活，就必须跨过这道门槛。

李飞飞不是第一个提出这个方向的人，但她用清晰的框架和扎实的工程实践，把“空间智能”从一个模糊概念变成了可触摸的技术路线。

这或许就是为什么，越来越多的研究者、工程师和投资人开始认真对待这件事。

最后说一句大实话：

空间智能不会一夜之间改变世界，但它很可能悄悄渗透进我们未来的每一天。

也许五年后，当你用手机拍一张房间照片，AI就能自动生成装修方案；

当你带孩子逛博物馆，AR眼镜会实时叠加文物的历史故事；

当工厂设备出现异常，巡检机器人能自主定位故障点并上报：

这些场景的背后，都是空间智能在默默工作。

技术真正的价值，不在于听起来多高深，而在于能不能让人活得更轻松、更聪明、更有创造力。

从这个角度看，空间智能值得我们持续关注。

众力资讯网

李飞飞：空间智能是AI下一个前沿

热门分类