对未来人工智能系统的影响

2021-12-28 16:00:53   编辑:陈谦晨
导读我们目前的研究结果表明,在与人工智能合作时,仅人工智能的客观任务表现(我们在论文中称为‘自我游戏’和‘交叉游戏&rsquo

“我们目前的研究结果表明,在与人工智能合作时,仅人工智能的客观任务表现(我们在论文中称为‘自我游戏’和‘交叉游戏’)可能与人类的信任和偏好无关,”艾伦说。“这就提出了一个问题:什么样的客观指标做关联到人的主观偏好?鉴于训练基于 RL 的代理需要大量数据,在循环中与人类一起训练是站不住脚的。因此,如果我们想训练被人类合作者接受和重视的 AI 代理,我们可能需要找到可训练的目标函数,这些目标函数可以作为人类偏好的替代品,或与人类偏好密切相关。”

与此同时,艾伦警告不要将 Hanabi 实验的结果外推到他们无法测试的其他环境、游戏或领域。该论文还承认了实验中的一些限制,研究人员正在努力解决这些问题。例如,主题库很小(29 名参与者)并且偏向于精通 Hanabi 的人,这意味着他们对 AI 队友有预定义的行为期望,并且更有可能对 RL 的古怪行为产生负面体验代理人。

尽管如此,这些结果可能对强化学习研究的未来产生重要影响。

“如果最先进的 RL 智能体甚至无法在像 Hanabi 这样受限和狭窄的游戏中成为可接受的合作者;我们真的应该期待相同的强化学习技术在应用于更复杂、细微、有影响的游戏和现实世界情况时能够‘正常工作’吗?” 艾伦说。“在技术和学术领域有很多关于强化学习的讨论;理所当然。但是,我认为我们的研究结果表明,不应在所有可能的应用中都认为 RL 系统的卓越性能是理所当然的。”

例如,很容易假设 RL 可用于训练能够与人类密切协作的机器人代理。但艾伦说,麻省理工学院林肯实验室的工作结果表明情况恰恰相反,至少考虑到目前的技术水平。

“我们的结果似乎意味着需要更多的理论和应用工作,才能让基于学习的智能体在人机交互等复杂情况下成为有效的合作者,”他说。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章