【[43星]OST-Bench:一个用于评估多模态大语言模型在线时空场景理解能力

爱生活爱珂珂 2025-07-13 16:34:05

【[43星]OST-Bench:一个用于评估多模态大语言模型在线时空场景理解能力的基准。亮点:1. 涵盖1.4k场景和10k问答对;2. 从主动探索场景的Agent视角出发,强调在线时空理解;3. 支持多轮对话评估,兼容多种模型】

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

GitHub: github.com/OpenRobotLab/OST-Bench

多模态大语言模型 时空场景理解 在线评估 人工智能 ai兴趣创作计划

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注