电影界图灵测试来了VLM电影理解新基准
视觉语言模型(VLMs)虽能“看图”,但对电影镜头还远远不够“懂”。现在,一个专为“电影感”打造的新基准来了。
由上海AI实验室联合NTU、同济和港中文推出的ShotBench项目,系统性地为AI模型测电影镜头语言能力打分,并配套推出模型ShotVL和训练集ShotQA,填补了该领域的评测、训练空白。
ShotBench是个专门考电影摄影语言的多维基准,收录来自200多部奥斯卡级别电影的3.5k高质量问答样本,涵盖8个维度:景别、构图、角度、焦段、照明类型与条件、构图方式和相机运动。每个问答都像是AI的“镜头语言理解测试”。
ShotQA是一个包含约7万个电影问答对的大规模多模态数据集。借助ShotQA,团队通过监督微调(SFT)和群体相对策略优化(GRPO)开发了ShotVL。ShotVL在ShotBench上显著优于所有现有的开源和专有模型,确立了新的顶尖性能。
团队在ShotBench上对24个领先的VLMs进行的评测揭示了现有模型的重大局限性:即使是表现最好的模型,平均准确率也低于60%,尤其是在处理细粒度视觉线索和复杂空间推理方面表现不佳。
与原始Qwen2.5-VL-3B相比,ShotVL-3B在所有ShotBench维度上均实现了持续且显著的提升(增益达19.0%),确立了新的顶尖性能,并明确超越了最佳开源模型(Qwen2.5-VL-72B-Instruct)和专有模型(GPT-4o)。
团队开源了其模型、数据和代码,以促进AI驱动的电影理解和生成这一关键领域快速发展。
一起来看详细内容: