当前位置:首页 > 新闻中心 > 行业资讯
为机器人安上“最强大脑”!谷歌VLA新模型泛化才能提高3倍 能“听懂人话”
日期:2024-05-03 05:42:37来源:乐鱼体育王者荣耀 作者:乐鱼体育网页版

  常常无法操作自己从未见过的东西,也难以完成“从‘灭绝的动物’到‘塑料恐龙’的逻辑腾跃”;

  ②作为一款新式视觉-言语-动作(VLA)模型,RT-2能够从网络、机器人数据中学习,并将这些常识转化为机器人操控的通用指令;

  ③RT-2具有三大才能:符号了解、推理和人类辨认。一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后,这个机器人“考虑”了一瞬间,然后乃至机械臂,翻开爪子,抓起了恐龙。这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。

  上文这个“抓起恐龙”的动作关于人类而言垂手可得,关于机器人而言却可谓一个重要腾跃——

  。RT-2完结的每一项使命,都要求其了解视觉语义概念、并经过操控机器人完成操作这些概念。

  例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行使命,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应常识。

  是指RT-2能够从视觉言语预练习中转移了语义常识,而这些语义常识在机器人数据中并不存在。这类指令示例包含“将苹果

  移到相同色彩的杯子里”)、数学推理(“将X移到2加1之和的邻近”)、多言语了解(“mueve la manzana al vaso verde”,西班牙语)。

  例如鄙人图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西或许能用上?”,RT-2转化得出了“石头。动作:1 129 138 122 132 132 106 127”的指令,并拿起了石头。