电影界图灵测试来了VLM电影理解新基准视觉语言模型(VLMs)虽能“看图”,但对

量子位看科技 2025-07-16 12:43:09

电影界图灵测试来了VLM电影理解新基准

视觉语言模型(VLMs)虽能“看图”,但对电影镜头还远远不够“懂”。现在,一个专为“电影感”打造的新基准来了。

由上海AI实验室联合NTU、同济和港中文推出的ShotBench项目,系统性地为AI模型测电影镜头语言能力打分,并配套推出模型ShotVL和训练集ShotQA,填补了该领域的评测、训练空白。

ShotBench是个专门考电影摄影语言的多维基准,收录来自200多部奥斯卡级别电影的3.5k高质量问答样本,涵盖8个维度:景别、构图、角度、焦段、照明类型与条件、构图方式和相机运动。每个问答都像是AI的“镜头语言理解测试”。

ShotQA是一个包含约7万个电影问答对的大规模多模态数据集。借助ShotQA,团队通过监督微调(SFT)和群体相对策略优化(GRPO)开发了ShotVL。ShotVL在ShotBench上显著优于所有现有的开源和专有模型,确立了新的顶尖性能。

团队在ShotBench上对24个领先的VLMs进行的评测揭示了现有模型的重大局限性:即使是表现最好的模型,平均准确率也低于60%,尤其是在处理细粒度视觉线索和复杂空间推理方面表现不佳。

与原始Qwen2.5-VL-3B相比,ShotVL-3B在所有ShotBench维度上均实现了持续且显著的提升(增益达19.0%),确立了新的顶尖性能,并明确超越了最佳开源模型(Qwen2.5-VL-72B-Instruct)和专有模型(GPT-4o)。

团队开源了其模型、数据和代码,以促进AI驱动的电影理解和生成这一关键领域快速发展。

一起来看详细内容:

0 阅读:1
量子位看科技

量子位看科技

感谢大家的关注