
这项由新加坡国立大学研究团队完成的研究发表于2026年3月的arXiv预印本平台,编号为arXiv:2603.08436v1。研究团队深入探索了一个看似简单却极其重要的问题:当前最先进的视觉语言模型能否像人类一样追踪移动物体的位置?
还记得小时候玩过的"找球游戏"吗?就是那种把一个小球放在三个杯子中的一个下面,然后快速移动杯子,最后让你猜球在哪里的游戏。这个游戏对人类来说轻而易举,甚至连一些动物都能轻松应对。然而,研究团队发现了一个令人震惊的事实:目前最先进的AI视觉模型在这个简单游戏面前几乎完全败下阵来,表现得就像在瞎猜一样。
这个发现之所以重要,是因为它揭示了当前AI技术的一个根本性缺陷。在我们日常生活中,追踪移动物体是一项基本能力——开车时追踪其他车辆、看球赛时跟随球的运动轨迹、甚至仅仅是观察一只飞过的鸟。如果AI连这种基础的视觉能力都无法掌握,那么它们在需要理解动态场景的应用中就会遇到严重障碍,比如自动驾驶汽车、智能监控系统,或者各种需要实时理解环境变化的机器人系统。
研究团队首先对现有的视频理解测试进行了细致的审查。就像侦探查案一样,他们发现许多看似困难的测试实际上存在"作弊通道"。在著名的感知测试数据集中,研究人员发现许多"找球游戏"的视频实际上有明显的视觉线索——有些杯子是透明的,可以直接看到球;有些杯子有不同的花纹或颜色,让AI可以通过外观而非真正的追踪来找到答案;还有一些视频甚至在结尾直接展示了答案。这就好比在考试中给学生提供了标准答案,自然会让测试结果看起来很好。
为了真正测试AI的视觉追踪能力,研究团队创建了一个全新的测试平台,叫做VET-Bench。这个测试就像一个纯净的实验室,完全排除了所有可能的"作弊"途径。在这个测试中,所有的杯子都完全相同,没有任何外观差异,球也完全隐藏,AI只能通过观察杯子的移动轨迹来判断球的最终位置。这就像是在完全黑暗的房间里,只能通过听脚步声来判断人的位置一样困难。
当研究团队用这个纯净的测试来评估当前最先进的AI模型时,结果令人震惊。包括谷歌的Gemini-3-Pro、阿里的Qwen系列、字节跳动的Doubao等在内的所有主流AI模型,在这个测试中的表现都接近随机猜测的水平。换句话说,这些价值数百万美元、拥有数千亿参数的AI模型,在追踪一个简单移动球体的任务上,表现得就像闭着眼睛瞎猜一样。
研究团队进一步分析了这些AI模型的失败原因。他们发现,大多数模型在面对这个任务时会出现三种典型的错误模式。第一种是"直接猜答案"——模型完全不进行任何分析,就像学生不看题目直接填答案一样。第二种是"粗糙描述"——模型能识别出这是一个找球游戏,能描述"杯子在移动",但完全无法捕捉到具体的移动细节,就像一个人只能说"刚才有车经过"但完全记不住是什么颜色、什么型号的车一样。第三种是"幻觉式推理"——这是最有趣也最令人担忧的现象,一些高级模型会产生看起来很有逻辑的推理过程,比如"第一次交换,球从左边移到中间;第二次交换,球从中间移到右边",但这些推理完全建立在错误的视觉观察基础上,就像一个人自信满满地描述了一场根本没有发生的事件。
为了理解这个问题的根本原因,研究团队从理论角度进行了深入分析。他们将视觉追踪问题与计算复杂性理论联系起来,证明了这类追踪任务在计算理论上属于NC?-完全问题。简单来说,这意味着如果不允许"中间步骤"的推理过程,仅仅依靠固定深度的计算结构(就像当前的Transformer模型那样),从理论上就无法有效解决这类问题。这就好比要求一个人不经过任何思考过程,仅仅看一眼复杂的数学题就直接给出答案——这在理论上就是不可能的。
基于这个理论洞察,研究团队提出了一个创新的解决方案,叫做"时空定位思维链"(SGCoT)。这个方法的核心思想是让AI模型像人类一样,在给出最终答案之前,先明确地描述出每个时间点每个物体的精确位置。这就像是要求学生在考试时不仅要写答案,还要写出详细的解题步骤一样。
研究团队选择了Molmo2模型作为实验对象,因为这个模型本身就具有很强的物体定位能力。通过巧妙的训练策略,他们让Molmo2学会了在回答问题之前先生成详细的物体运动轨迹。这个轨迹就像GPS导航一样,精确记录了每个时间点物体的坐标位置。比如,模型会输出类似"0秒时球在坐标(745,512),0.5秒时在(745,500),1秒时在(742,425)"这样的详细轨迹信息。
令人惊喜的是,采用这种"时空定位思维链"方法的Molmo2模型在VET-Bench测试中取得了超过90%的准确率,这与其他模型接近随机猜测(33%左右)的表现形成了鲜明对比。这个结果证明了AI模型确实具备解决视觉追踪问题的潜力,关键在于要采用正确的方法来激发这种能力。
研究团队还发现了一个有趣的现象:那些表面上看起来很聪明、能够生成流畅推理过程的模型,往往在视觉感知的基础环节就出了问题。它们就像是一个逻辑思维能力很强但视力很差的人,虽然推理步骤看起来很合理,但基础的观察就是错误的,因此最终结果必然不正确。这个发现提醒我们,在AI系统中,基础的感知能力和高级的推理能力必须同步发展,仅仅提升其中一个方面是不够的。
这项研究的意义远不止于一个简单的找球游戏。视觉追踪能力是许多高级AI应用的基础。在自动驾驶领域,车辆需要准确追踪行人、其他车辆和各种道路对象的运动轨迹;在体育分析中,AI需要追踪球员和球的位置变化;在安防监控中,系统需要追踪可疑人员的移动路径;在医疗影像分析中,医生需要AI协助追踪器官的运动变化。如果AI在这个基础能力上存在缺陷,那么这些高级应用的可靠性都会受到质疑。
研究团队的工作也揭示了当前AI评测体系中存在的问题。许多看似高难度的测试实际上可能存在各种"捷径",让AI能够在不真正掌握核心能力的情况下取得好成绩。这就像是考试中的题目有标准答案泄露,学生可能背答案得高分,但实际上并没有掌握知识。这个问题在AI领域可能比我们想象的更普遍,需要研究者在设计评测标准时更加谨慎。
从技术发展的角度来看,这项研究指出了一个明确的发展方向:未来的AI系统需要更好地整合视觉感知和逻辑推理能力。仅仅提升模型的规模和参数数量是不够的,更重要的是要改进模型的架构和训练方式,让AI能够像人类一样进行分步骤、有逻辑的视觉分析。
研究团队提出的"时空定位思维链"方法提供了一个很有希望的解决方案。这个方法的优雅之处在于它不需要外部工具或复杂的系统架构,而是通过改进模型的推理过程来提升性能。更重要的是,这种方法是通用的,可以应用到其他类似的视觉追踪任务中。
当然,这项研究也存在一些局限性。当前的实验主要集中在相对简单的场景中,现实世界的视觉追踪任务往往更加复杂,涉及物体遮挡、模糊、光线变化等各种干扰因素。此外,研究中使用的测试场景都是合成生成的,与真实世界的复杂性还有差距。不过,这些局限性并不影响研究的核心价值,反而为未来的研究指出了明确的方向。
这项研究还带来了一个更深层的思考:AI的智能到底是什么?表面上看起来很智能的AI系统,可能在一些看似简单的基础任务上存在严重缺陷。这提醒我们,在追求AI的高级能力时,不能忽视对基础能力的培养和测试。就像建造摩天大楼需要牢固的地基一样,构建真正智能的AI系统也需要在基础感知和推理能力上打下坚实的基础。
从更广泛的角度来看,这项研究也反映了当前AI发展中的一个普遍现象:我们往往被AI在某些特定任务上的出色表现所迷惑,而忽视了它们在其他基础能力上的不足。这种不平衡的发展模式可能会在AI技术的实际应用中造成意想不到的问题。因此,更全面、更严格的测试和评估体系对于AI技术的健康发展至关重要。
最终,这项研究为我们展示了AI技术发展中的一个重要里程碑:从简单的模式识别向真正的视觉理解能力的转变。虽然当前的AI模型在视觉追踪方面还存在明显的不足,但研究团队提出的解决方案为这个问题的解决指出了可行的道路。随着更多研究者的关注和技术的不断改进,我们有理由相信,未来的AI系统将能够在视觉理解和动态追踪方面达到甚至超越人类的水平。
说到底,这项研究让我们看到了AI技术发展的复杂性和挑战性。它告诉我们,真正的人工智能不仅需要在高难度任务上表现出色,更需要在基础能力上建立坚实的基础。正如研究团队所证明的,通过合适的方法和技术创新,我们可以逐步解决这些看似简单实则复杂的问题,为构建更加完善和可靠的AI系统奠定基础。对于那些对这项研究感兴趣的读者,可以通过arXiv平台搜索论文编号arXiv:2603.08436v1来查阅完整的研究报告。
Q&A
Q1:VET-Bench测试平台和普通的AI视频测试有什么不同?
A:VET-Bench就像一个纯净的考试环境,完全排除了"作弊"可能。普通测试中的杯子可能有不同颜色、透明材质或其他视觉线索,让AI可以通过外观识别找到答案。而VET-Bench中所有杯子都完全相同,球也完全隐藏,AI只能通过观察移动轨迹来判断,这才能真正测试视觉追踪能力。
Q2:为什么最先进的AI模型在简单的找球游戏上表现这么差?
A:这是因为当前AI模型主要依靠静态图像特征来理解视频,就像只看照片来理解电影情节一样。它们缺乏真正的动态追踪能力,无法像人类那样通过连续观察物体运动来维持对物体位置的记忆。加上模型架构的限制,它们在没有中间推理步骤的情况下很难解决这类时序追踪问题。
Q3:时空定位思维链方法是如何让AI模型表现提升的?
A:这个方法让AI像人类解数学题一样,不仅要给出答案,还要写出详细的解题步骤。具体来说,模型需要先生成每个时间点物体的精确坐标位置,比如"0秒时球在(745,512),1秒时在(742,425)",然后基于这些详细轨迹信息给出最终答案。通过这种明确的中间推理过程,准确率从随机猜测的33%提升到了90%以上。