【[43星]OST-Bench：一个用于评估多模态大语言模型在线时空场景理解能力

爱生活爱珂珂 2025-07-13 16:34:05

【[43星]OST-Bench：一个用于评估多模态大语言模型在线时空场景理解能力的基准。亮点：1. 涵盖1.4k场景和10k问答对；2. 从主动探索场景的Agent视角出发，强调在线时空理解；3. 支持多轮对话评估，兼容多种模型】

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

GitHub: github.com/OpenRobotLab/OST-Bench

多模态大语言模型时空场景理解在线评估人工智能 ai兴趣创作计划

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

早！[太阳] 早安

2

晚安～ [月亮] 晚安

3

「人人能懂的AI前沿」不止于“怎么用”：AI运行的五大核心原理

4

【[452星]Menlo/Jan-nano：一款为深度研究任务量身打造的紧凑型4

5

【[176星]torch-profiling-tutorial：PyTorch模

6

【[364星]ranuts/document：一款基于OnlyOffice的本地

7

【[465星]surf.new：一个让AI像人类一样上网冲浪的实验平台。亮点：1

8

【[19星]sae：让稀疏自编码器（SAE）轻松融入任何模型的框架。它能解决模型

9

【[295星]Anna's MCP Server (and CLI Tool)：

10

【[18星]MIRIX：你的专属多Agent个人助手，通过屏幕观察和自然对话构建

热门分类

科技TOP

1

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

2

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

3

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

4

iPhone17系列多给500块，你将获得：1️⃣全新一眼便知新款的外观2️⃣

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

想买手机的可以等等了，接下来几个月热闹了九月份开始到年底，这段时间是各个手机

7

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

8

中国已经拥有了北斗系统，为什么国内还在用美国的GPS？说实话，你可能不信，要是现

9

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

10

李想称希望和产品分割开其实理想在产品方面已经是非常不错的了，狗蛋身边不少家庭首选

科技最新文章

1

据说华为Mate80长这样，辨识度和质感确实在线，今年的苹果17依旧差点意思，明

2

小屏党这次真的赢麻了！下个月要来的荣耀Magicicon8Mini，这配置看一

3

小米16系列背面酷似iphone17系列，背面上方是一个巨大的矩形摄像头deco

4

iPhone17最大的遗憾：没发现iPhoneAir最大的遗憾：单扬声器

5

产地区来自印度和越南两个厂商，价格还是非常美丽，5999～17999非常值得果粉

6

9月12日，华为首个三折叠生产线细节正式曝光#华为三折叠产线首次曝光#。结合产

7

彻底告别电量焦虑朋友们，手机没电的恐慌可以画上句号了。荣耀Magic8系列重

8

大家要的iPhone17标准版和iPhone16标准版的对比来了，升级大的地

9

荣耀吃了大补丸，堆料这么猛？好家伙钢铁侠的爆料真是吓人，荣耀Magic8Pro的

10

网友表示iPhone17标准版最值得入手，可以闭眼冲原因是屏幕上了高刷，而且