2021年12月30日最新消息:DeepMind的研究人员开发了有效的方法来教授机器人抓取等任务

导读在上周发表在Arxiv org预印服务器上的一篇论文中，DeepMind科学家引入了简单传感器意图(Simple Sensor Intention，SSI)的概念，这是

在上周发表在Arxiv.org预印服务器上的一篇论文中，DeepMind科学家引入了简单传感器意图(Simple Sensor Intention，SSI)的概念，这是一种减少在强化学习中定义奖励(描述AI应该如何表现的函数)所需知识的方法系统。他们声称，SSI只需使用原始传感器数据，就可以帮助解决一系列复杂的机器人任务，例如抓取、举起球并将其放入杯中。

在机器人领域训练AI通常需要人类专家和先验信息。AI必须根据当前的整体任务进行调整，这需要定义一个表示成功并促进有意义探索的奖励。表面上，SSI提供了一种通用的方法来鼓励经销商探索他们的环境，并提供了收集数据以解决主要任务的指南。如果将其商业化或部署在仓库机器人等生产系统中，SSI可以减少大量计算的手动微调和状态估计的需要(即根据输入和输出的测量来估计系统状态)。

正如研究人员所解释的，在没有奖励信号的情况下，人工智能系统可以通过影响机器人传感器(如触摸传感器、关节角度传感器和位置传感器)的学习策略形成探索策略。这些政策探索环境，寻找富有成效的领域，使他们能够收集重大学习任务的质量数据。具体而言，SSI是通过获取传感器响应并根据以下两种方案之一计算奖励来定义的辅助任务集：(1)奖励实现特定目标响应的代理，或(2)奖励具有特定变化的代理。回应。

在实验中，本文的合著者将带有摄像头的机器人的原始图像(重新思考索耶)转换为少量的SSI。他们总结了图像空间中颜色分布的统计数据，并根据场景中物体的估计颜色值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触摸传感器的SSI和两个带彩色块的篮子周围的摄像头。只有将两个摄像头的平均颜色分布向所需方向移动，控制机器人的AI系统才能获得最高的奖励。

研究人员报告说，经过9000次训练(6天)，人工智能成功学会了清除障碍。即使在用在多个颜色通道上总结奖励的SSI替换了单个颜色通道的SSI之后，AI也设法学会了从原始传感器信息中提取“各种”不同的对象。在另一个环境下训练了4000集(3天)，他学会了玩杯子和球。

在未来的工作中，合著者打算集中精力扩展SSI，以自动生成奖励和奖励组合。他们写道：“我们认为我们的方法比广泛使用的形成性奖励公式需要更少的先验知识，而形成性奖励公式通常取决于任务洞察力的定义和计算的状态估计。”“SSI的定义非常简单，域之间没有或只有很少的适应性。”

标签：

猜你喜欢

最新文章