技术巡猎 小鹏汽车 感知与控制模型的训练方法、机器人控制方法及装置。机器人走路的时候,前面如果有台阶、有坡、有障碍,到底怎么才能更稳地看懂地形,然后及时把这份理解变成抬脚、迈步、落脚这些动作呢?
这项专利的核心,不是“用了AI”。很多人会觉得,机器人前面装个深度相机,看见什么就直接让神经网络出动作,不就完了?问题没这么简单。直接把原始图像或者深度图扔给策略网络,训练时会对数据分布特别敏感;仿真和现实只要在噪声、反光、遮挡这些地方有一点差别,最后学出来的动作就很容易不太稳定。还有一些方案依赖仿真里的图像渲染,训练是很慢的,而且训练时看到的东西和真实部署时看到的东西不完全一样,迁移起来很难。
简单说,机器人最怕的不是“没看见”,而是“看见了,但理解错了”。它以为前面是一块平地,实际上是台阶边缘;它以为那里可以下脚,结果就踩空了。如果是人,摔一跤还能扶一下,机器人一旦在步态上判断错误,整个动作链就全乱掉了。
这份专利的做法,可以分成三层。第一层,不着急让机器人学走路,得先让它学会“读懂地面”。专利里用了一个高程图编解码器。可以把它理解成一张“地面起伏地图”---哪里高一点,哪里低一点,哪里是台阶边,哪里是坡面,图上都能表达出来。专利先拿这种高程图去训练模型,让模型把一整块地形压缩成一个“浓缩表达”,然后这份压缩版信息也可以进行还原。这个浓缩表达,专利里叫潜表示。你把它理解成“这块地到底长什么样”的压缩摘要就行。
第二层,让真实传感器看到的深度图,学会说同一种语言。现实中的机器人拿不到“上帝视角”的高程真值,它手里只有深度相机拍到的深度图,而且这个东西往往还带噪声、遮挡和视角畸变。专利的办法是,再训练一个深度图编解码器,让它输出的潜表示尽量和前面高程图模型输出的潜表示对齐。简单理解,就是先让“标准答案老师”定义什么叫真正重要的地形信息,再让“现实传感器学生”努力学成同一种表达。这样一来,机器人在真实世界里虽然只看到了深度图,但最后提炼出来的地形理解,会尽量接近仿真里那套高质量的地形认知。
第三层,才开始用这个理解去控制动作。专利后面接了动作策略神经网络,输入是已经提炼过的地形潜表示,再叠加机器人自身的关节位置这些状态,最后输出关节的目标位置信息,生成动作指令,去完成抬脚、迈步、上台阶这些动作。
它把训练和部署之间最别扭的那道坎,给垫平了。
在仿真阶段,系统可以直接拿到高程图这种非常干净稳定的地形信息,所以强化学习训练的时候,不需要再绕相机渲染那一大圈了。这样可以摆脱仿真渲染瓶颈,提升强化学习采样效率。
到了真实部署阶段,机器人没有高程图了,就改用深度图编码器去生成一个语义上尽量一致的潜表示,再交给策略网络。这里重点不是“深度图转高程图”这件事本身,而是让策略网络前后吃到的是同一种地形语义。这样它在仿真里学会的“抬脚迈步”,就有据可依了。
机器人在这里,不仅仅是学习如何“看见世界”,XP正在教它把看见的东西,稳定地变成可信的动作。
