为机器人安上“最强大脑”！谷歌VLA新模型泛化才能提高3倍能“听懂人话”

日期：2024-05-03 05:42:37来源：乐鱼体育王者荣耀作者：乐鱼体育网页版

　　常常无法操作自己从未见过的东西，也难以完成“从‘灭绝的动物’到‘塑料恐龙’的逻辑腾跃”；

　　②作为一款新式视觉-言语-动作（VLA）模型，RT-2能够从网络、机器人数据中学习，并将这些常识转化为机器人操控的通用指令；

　　③RT-2具有三大才能：符号了解、推理和人类辨认。一个单臂机器人“站”在桌前，桌上放着三个塑料动物玩具：狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后，这个机器人“考虑”了一瞬间，然后乃至机械臂，翻开爪子，抓起了恐龙。这是谷歌最新一款机器人模型Robotic Transformer 2（机器人变形金刚2，RT-2）。

　　上文这个“抓起恐龙”的动作关于人类而言垂手可得，关于机器人而言却可谓一个重要腾跃——

　　。RT-2完结的每一项使命，都要求其了解视觉语义概念、并经过操控机器人完成操作这些概念。

　　例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行使命，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应常识。

　　是指RT-2能够从视觉言语预练习中转移了语义常识，而这些语义常识在机器人数据中并不存在。这类指令示例包含“将苹果

　　移到相同色彩的杯子里”）、数学推理（“将X移到2加1之和的邻近”）、多言语了解（“mueve la manzana al vaso verde”，西班牙语）。

　　例如鄙人图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西或许能用上？”，RT-2转化得出了“石头。动作：1 129 138 122 132 132 106 127”的指令，并拿起了石头。

返回列表页

上一篇：机器人是什么下一篇：“机器人”上市1小时就被抢光具有女友全部功用？别被骗了