【[43星]OST-Bench:一个用于评估多模态大语言模型在线时空场景理解能力的基准。亮点:1. 涵盖1.4k场景和10k问答对;2. 从主动探索场景的Agent视角出发,强调在线时空理解;3. 支持多轮对话评估,兼容多种模型】
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
GitHub: github.com/OpenRobotLab/OST-Bench
多模态大语言模型 时空场景理解 在线评估 人工智能 ai兴趣创作计划