[LG]《DoWhat?TeachingVision-Language-A

爱生活爱珂珂 2025-08-26 07:20:38

[LG]《Do What? Teaching Vision-Language-Action Models to Reject the Impossible》W Hsieh, E Hsieh, D Niu, T Darrell... [UC Berkeley] (2025)

“Do What?”项目提出了Instruct-Verify-and-Act (IVA)框架,显著提升视觉-语言-动作(VLA)模型在机器人任务中识别和应对“虚假前提”指令的能力。

• 关键挑战:传统VLA模型假设指令均可执行,忽视了指令中可能包含的环境中不存在的对象或条件(虚假前提),导致执行失败或错误反应。

• IVA框架创新:

 – 检测指令中不符合实际的内容(虚假前提),

 – 通过语言交互澄清或纠正指令,

 – 基于视觉感知和动作规划提出合理替代方案或拒绝执行。

• 数据集策略:构建半合成、带有正误指令对的大规模数据集,涵盖“域内虚假前提”(环境中类似但不存在的对象)与“域外虚假前提”(明显不合理或不存在的对象),确保模型能应对多样复杂情境。

• 技术细节:基于LLARVA架构,冻结视觉和语言编码器,端到端微调自回归Transformer解码器,联合学习动作预测与虚假前提检测纠正。

• 实验成果:

 – 虚假前提检测准确率提升97.56%,

 – 虚假前提场景成功处理率提升50.78%,

 – 标准任务执行性能保持稳定,无显著下降。

• 应用意义:机器人能在面对不可能完成的任务时,主动识别问题、生成自然语言反馈,提升人机交互安全性和有效性。

• 局限与未来方向:当前数据集基于模拟环境,指令较为简短且结构化,未来需扩展至更复杂环境、真实世界部署及多轮对话场景,提升纠正策略多样性和创造性。

这项工作推动了机器人从单纯执行转向理解用户意图和语境推理,开启了更自然且安全的人机协作新篇章。

详细研读👉 arxiv.org/abs/2508.16292

机器人视觉语言模型人工智能人机交互机器人控制

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注