强化学习挑战推动具身人工智能的边界

2022-01-11 16:37:08 编辑：仲艳秋

导读2022年1月11日整理发布：自人工智能出现的早期几十年以来，类人机器人一直是科幻书籍、电影和卡通片的主要内容。然而，经过数十年的人工智

2022年1月11日整理发布：自人工智能出现的早期几十年以来，类人机器人一直是科幻书籍、电影和卡通片的主要内容。然而，经过数十年的人工智能研究和开发，我们仍然没有任何东西可以与 Jetsons 的机器人 Rosey 相提并论。

这是因为我们的许多直觉计划和运动技能——我们认为理所当然的事情——比我们想象的要复杂得多。导航未知区域、寻找和拾取物体、选择路线和规划任务都是复杂的壮举，只有当我们尝试将它们变成计算机程序时才会欣赏这些壮举。

开发可以物理感知世界并与环境交互的机器人是体现人工智能的领域，这是人工智能科学家长期追求的目标之一。尽管该领域的进展距离人类和动物的能力还有很长的路要走，但取得的成就仍然令人瞩目。

在具体人工智能的最新发展中，IBM、麻省理工学院和斯坦福大学的科学家们开发了一项新挑战，这将有助于评估人工智能代理在寻找路径、与对象交互和有效规划任务方面的能力。该测试名为“ ThreeDWorld 交通挑战”，是一个虚拟环境，将在 6 月在线举行的计算机视觉和模式识别会议期间的Embodied AI Workshop上展示。

当前没有任何人工智能技术能够接近解决 TDW 运输挑战。但比赛的结果可以帮助为具身人工智能和机器人研究的未来找到新的方向。

虚拟环境中的强化学习

大多数机器人应用的核心是强化学习，这是基于动作、状态和奖励的机器学习的一个分支。强化学习代理被赋予一组动作，它可以应用于其环境以获得奖励或达到某个目标。这些操作会更改代理和环境的状态。RL 代理根据其行为如何使其更接近其目标而获得奖励。

RL 代理通常从对其环境一无所知并选择随机动作开始。随着他们逐渐从环境中获得反馈，他们会学习一系列可以最大化奖励的行动。

该方案不仅用于机器人技术，还用于许多其他应用，例如自动驾驶汽车和内容推荐。强化学习还帮助研究人员掌握了围棋、星际争霸 2 和 DOTA 等复杂游戏。

创建强化学习模型提出了几个挑战。其中之一是设计一组正确的状态、奖励和动作，这在机器人等应用中可能非常困难，因为代理面临一个连续的环境，该环境受重力、风和与其他人的物理交互等复杂因素的影响。对象(相比之下，国际象棋和围棋等环境具有非常离散的状态和动作)。

另一个挑战是收集训练数据。强化学习代理需要训练数百万次与其环境交互的数据。这种限制可能会减慢机器人应用程序的速度，因为它们必须从物理世界收集数据，而不是视频和棋盘游戏，后者可以在多台计算机上快速连续播放。

为了克服这一障碍，人工智能研究人员试图为强化学习应用创建模拟环境。今天，自动驾驶汽车和机器人技术经常使用模拟环境作为其训练体系的主要部分。

MIT-IBM Watson AI 实验室的首席研究人员 Chuang Gan 告诉TechTalks： “使用真实机器人训练模型可能很昂贵，有时还涉及安全考虑。” “因此，出现了整合模拟器的趋势，比如 TDW-Transport Challenge 提供的模拟器，来训练和评估 AI 算法。”

但是复制物理世界的精确动态是极其困难的，而且大多数模拟环境都是强化学习代理在现实世界中所面临的粗略近似。为了解决这个限制，TDW 传输挑战团队竭尽全力使测试环境尽可能真实。

该环境建立在ThreeDWorld 平台之上，作者将其描述为“一个通用的虚拟世界模拟平台，支持近照片逼真的图像渲染、基于物理的声音渲染以及对象和代理之间的真实物理交互。”

研究人员在随附的论文中写道：“我们的目标是使用更先进的物理虚拟环境模拟器来定义一个新的具体 AI 任务，该任务需要代理在现实的物理约束下改变多个对象的状态。”

任务和运动计划

强化学习测试有不同程度的难度。当前的大多数测试都涉及导航任务，其中 RL 代理必须根据视觉和音频输入在虚拟环境中找到自己的方式。

另一方面，TDW 运输挑战使强化学习代理与“任务和运动规划”(TAMP)问题相抗衡。TAMP 要求智能体不仅要找到最佳运动路径，还要改变对象的状态以实现其目标。

挑战发生在一个装饰着家具、物品和容器的多房间房子里。强化学习代理从第一人称视角查看环境，必须从房间中找到一个或多个对象并将它们收集到指定的目的地。代理是一个双臂机器人，因此一次只能携带两个物体。或者，它可以使用一个容器来携带多个物品并减少它必须进行的旅行次数。

在每一步，RL 代理都可以选择几个动作中的一个，例如转身、向前移动或捡起一个物体。如果代理在有限的步骤内完成传输任务，它就会获得奖励。

虽然这似乎是任何孩子都可以在没有太多培训的情况下解决的问题，但对于当前的人工智能系统来说，这确实是一项复杂的任务。强化学习程序必须在探索房间、寻找到达目的地的最佳路径、选择单独携带物品还是装在容器中以及在指定的步骤预算内完成所有这些之间找到适当的平衡。

“通过 TDW 运输挑战赛，我们提出了一项新的具身人工智能挑战赛，”Gan 说。“具体来说，机器人代理必须采取行动，在照片和物理逼真的虚拟环境中移动和改变大量对象的状态，这仍然是机器人技术的一个复杂目标。”

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:是什么让AI人工智能算法变得危险

下一篇:人工智能背后的想法是开发一个可以学习填补空白的深度学习系统

强化学习挑战推动具身人工智能的边界

猜你喜欢

最新文章