新加坡国立大学发现：AI视觉模型在基础物体识别中落后人类婴儿

这项由新加坡国立大学研究团队完成的研究发表于2026年3月的arXiv预印本平台，编号为arXiv:2603.08436v1。研究团队深入探索了一个看似简单却极其重要的问题：当前最先进的视觉语言模型能否像人类一样追踪移动物体的位置？

还记得小时候玩过的"找球游戏"吗？就是那种把一个小球放在三个杯子中的一个下面，然后快速移动杯子，最后让你猜球在哪里的游戏。这个游戏对人类来说轻而易举，甚至连一些动物都能轻松应对。然而，研究团队发现了一个令人震惊的事实：目前最先进的AI视觉模型在这个简单游戏面前几乎完全败下阵来，表现得就像在瞎猜一样。

这个发现之所以重要，是因为它揭示了当前AI技术的一个根本性缺陷。在我们日常生活中，追踪移动物体是一项基本能力——开车时追踪其他车辆、看球赛时跟随球的运动轨迹、甚至仅仅是观察一只飞过的鸟。如果AI连这种基础的视觉能力都无法掌握，那么它们在需要理解动态场景的应用中就会遇到严重障碍，比如自动驾驶汽车、智能监控系统，或者各种需要实时理解环境变化的机器人系统。

研究团队首先对现有的视频理解测试进行了细致的审查。就像侦探查案一样，他们发现许多看似困难的测试实际上存在"作弊通道"。在著名的感知测试数据集中，研究人员发现许多"找球游戏"的视频实际上有明显的视觉线索——有些杯子是透明的，可以直接看到球；有些杯子有不同的花纹或颜色，让AI可以通过外观而非真正的追踪来找到答案；还有一些视频甚至在结尾直接展示了答案。这就好比在考试中给学生提供了标准答案，自然会让测试结果看起来很好。

为了真正测试AI的视觉追踪能力，研究团队创建了一个全新的测试平台，叫做VET-Bench。这个测试就像一个纯净的实验室，完全排除了所有可能的"作弊"途径。在这个测试中，所有的杯子都完全相同，没有任何外观差异，球也完全隐藏，AI只能通过观察杯子的移动轨迹来判断球的最终位置。这就像是在完全黑暗的房间里，只能通过听脚步声来判断人的位置一样困难。

当研究团队用这个纯净的测试来评估当前最先进的AI模型时，结果令人震惊。包括谷歌的Gemini-3-Pro、阿里的Qwen系列、字节跳动的Doubao等在内的所有主流AI模型，在这个测试中的表现都接近随机猜测的水平。换句话说，这些价值数百万美元、拥有数千亿参数的AI模型，在追踪一个简单移动球体的任务上，表现得就像闭着眼睛瞎猜一样。

研究团队进一步分析了这些AI模型的失败原因。他们发现，大多数模型在面对这个任务时会出现三种典型的错误模式。第一种是"直接猜答案"——模型完全不进行任何分析，就像学生不看题目直接填答案一样。第二种是"粗糙描述"——模型能识别出这是一个找球游戏，能描述"杯子在移动"，但完全无法捕捉到具体的移动细节，就像一个人只能说"刚才有车经过"但完全记不住是什么颜色、什么型号的车一样。第三种是"幻觉式推理"——这是最有趣也最令人担忧的现象，一些高级模型会产生看起来很有逻辑的推理过程，比如"第一次交换，球从左边移到中间；第二次交换，球从中间移到右边"，但这些推理完全建立在错误的视觉观察基础上，就像一个人自信满满地描述了一场根本没有发生的事件。

为了理解这个问题的根本原因，研究团队从理论角度进行了深入分析。他们将视觉追踪问题与计算复杂性理论联系起来，证明了这类追踪任务在计算理论上属于NC?-完全问题。简单来说，这意味着如果不允许"中间步骤"的推理过程，仅仅依靠固定深度的计算结构（就像当前的Transformer模型那样），从理论上就无法有效解决这类问题。这就好比要求一个人不经过任何思考过程，仅仅看一眼复杂的数学题就直接给出答案——这在理论上就是不可能的。

基于这个理论洞察，研究团队提出了一个创新的解决方案，叫做"时空定位思维链"（SGCoT）。这个方法的核心思想是让AI模型像人类一样，在给出最终答案之前，先明确地描述出每个时间点每个物体的精确位置。这就像是要求学生在考试时不仅要写答案，还要写出详细的解题步骤一样。

研究团队选择了Molmo2模型作为实验对象，因为这个模型本身就具有很强的物体定位能力。通过巧妙的训练策略，他们让Molmo2学会了在回答问题之前先生成详细的物体运动轨迹。这个轨迹就像GPS导航一样，精确记录了每个时间点物体的坐标位置。比如，模型会输出类似"0秒时球在坐标(745,512)，0.5秒时在(745,500)，1秒时在(742,425)"这样的详细轨迹信息。

令人惊喜的是，采用这种"时空定位思维链"方法的Molmo2模型在VET-Bench测试中取得了超过90%的准确率，这与其他模型接近随机猜测（33%左右）的表现形成了鲜明对比。这个结果证明了AI模型确实具备解决视觉追踪问题的潜力，关键在于要采用正确的方法来激发这种能力。

研究团队还发现了一个有趣的现象：那些表面上看起来很聪明、能够生成流畅推理过程的模型，往往在视觉感知的基础环节就出了问题。它们就像是一个逻辑思维能力很强但视力很差的人，虽然推理步骤看起来很合理，但基础的观察就是错误的，因此最终结果必然不正确。这个发现提醒我们，在AI系统中，基础的感知能力和高级的推理能力必须同步发展，仅仅提升其中一个方面是不够的。

这项研究的意义远不止于一个简单的找球游戏。视觉追踪能力是许多高级AI应用的基础。在自动驾驶领域，车辆需要准确追踪行人、其他车辆和各种道路对象的运动轨迹；在体育分析中，AI需要追踪球员和球的位置变化；在安防监控中，系统需要追踪可疑人员的移动路径；在医疗影像分析中，医生需要AI协助追踪器官的运动变化。如果AI在这个基础能力上存在缺陷，那么这些高级应用的可靠性都会受到质疑。

研究团队的工作也揭示了当前AI评测体系中存在的问题。许多看似高难度的测试实际上可能存在各种"捷径"，让AI能够在不真正掌握核心能力的情况下取得好成绩。这就像是考试中的题目有标准答案泄露，学生可能背答案得高分，但实际上并没有掌握知识。这个问题在AI领域可能比我们想象的更普遍，需要研究者在设计评测标准时更加谨慎。

从技术发展的角度来看，这项研究指出了一个明确的发展方向：未来的AI系统需要更好地整合视觉感知和逻辑推理能力。仅仅提升模型的规模和参数数量是不够的，更重要的是要改进模型的架构和训练方式，让AI能够像人类一样进行分步骤、有逻辑的视觉分析。

研究团队提出的"时空定位思维链"方法提供了一个很有希望的解决方案。这个方法的优雅之处在于它不需要外部工具或复杂的系统架构，而是通过改进模型的推理过程来提升性能。更重要的是，这种方法是通用的，可以应用到其他类似的视觉追踪任务中。

当然，这项研究也存在一些局限性。当前的实验主要集中在相对简单的场景中，现实世界的视觉追踪任务往往更加复杂，涉及物体遮挡、模糊、光线变化等各种干扰因素。此外，研究中使用的测试场景都是合成生成的，与真实世界的复杂性还有差距。不过，这些局限性并不影响研究的核心价值，反而为未来的研究指出了明确的方向。

这项研究还带来了一个更深层的思考：AI的智能到底是什么？表面上看起来很智能的AI系统，可能在一些看似简单的基础任务上存在严重缺陷。这提醒我们，在追求AI的高级能力时，不能忽视对基础能力的培养和测试。就像建造摩天大楼需要牢固的地基一样，构建真正智能的AI系统也需要在基础感知和推理能力上打下坚实的基础。

从更广泛的角度来看，这项研究也反映了当前AI发展中的一个普遍现象：我们往往被AI在某些特定任务上的出色表现所迷惑，而忽视了它们在其他基础能力上的不足。这种不平衡的发展模式可能会在AI技术的实际应用中造成意想不到的问题。因此，更全面、更严格的测试和评估体系对于AI技术的健康发展至关重要。

最终，这项研究为我们展示了AI技术发展中的一个重要里程碑：从简单的模式识别向真正的视觉理解能力的转变。虽然当前的AI模型在视觉追踪方面还存在明显的不足，但研究团队提出的解决方案为这个问题的解决指出了可行的道路。随着更多研究者的关注和技术的不断改进，我们有理由相信，未来的AI系统将能够在视觉理解和动态追踪方面达到甚至超越人类的水平。

说到底，这项研究让我们看到了AI技术发展的复杂性和挑战性。它告诉我们，真正的人工智能不仅需要在高难度任务上表现出色，更需要在基础能力上建立坚实的基础。正如研究团队所证明的，通过合适的方法和技术创新，我们可以逐步解决这些看似简单实则复杂的问题，为构建更加完善和可靠的AI系统奠定基础。对于那些对这项研究感兴趣的读者，可以通过arXiv平台搜索论文编号arXiv:2603.08436v1来查阅完整的研究报告。

Q&A

Q1：VET-Bench测试平台和普通的AI视频测试有什么不同？

A：VET-Bench就像一个纯净的考试环境，完全排除了"作弊"可能。普通测试中的杯子可能有不同颜色、透明材质或其他视觉线索，让AI可以通过外观识别找到答案。而VET-Bench中所有杯子都完全相同，球也完全隐藏，AI只能通过观察移动轨迹来判断，这才能真正测试视觉追踪能力。

Q2：为什么最先进的AI模型在简单的找球游戏上表现这么差？

A：这是因为当前AI模型主要依靠静态图像特征来理解视频，就像只看照片来理解电影情节一样。它们缺乏真正的动态追踪能力，无法像人类那样通过连续观察物体运动来维持对物体位置的记忆。加上模型架构的限制，它们在没有中间推理步骤的情况下很难解决这类时序追踪问题。

Q3：时空定位思维链方法是如何让AI模型表现提升的？

A：这个方法让AI像人类解数学题一样，不仅要给出答案，还要写出详细的解题步骤。具体来说，模型需要先生成每个时间点物体的精确坐标位置，比如"0秒时球在(745,512)，1秒时在(742,425)"，然后基于这些详细轨迹信息给出最终答案。通过这种明确的中间推理过程，准确率从随机猜测的33%提升到了90%以上。