人工智能可以像孩子一样学习推理世界吗

2022-01-26 16:19:11   编辑:雍鹏发
导读2022年1月26日整理发布:甚至在他们说出第一句话之前,人类婴儿就已经形成了关于物体和人的心理模型。这是让我们人类学会社交生活和相互合

2022年1月26日整理发布:甚至在他们说出第一句话之前,人类婴儿就已经形成了关于物体和人的心理模型。这是让我们人类学会社交生活和相互合作(或竞争)的关键能力之一。

但对于人工智能来说,即使是最基本的行为推理任务仍然是一个挑战。

先进的深度学习模型可以完成复杂的任务,例如检测图像中的人和物体,有时甚至比人类更好。但是他们很难超越图像的视觉特征,并推断其他智能体正在做什么或希望完成什么。

为了填补这一空白,IBM、麻省理工学院和哈佛大学的科学家开发了一系列测试,通过观察和理解世界,帮助评估人工智能模型像孩子一样推理的能力。

人工智能研究人员在一篇介绍数据集的新论文中写道:“就像人类婴儿一样,机器代理必须培养足够的理解人类思想的能力,才能成功地参与社交互动。”

在今年的机器学习国际会议 (ICML) 上,AGENT 为衡量 AI 系统的推理能力提供了一个重要的基准。

观察和预测代理行为

在 AI 系统中测试常识和推理方面有大量工作。其中许多都专注于自然语言理解,包括著名的图灵测试和Winograd 模式。相比之下,AGENT 项目侧重于人类在能够说话之前学习的推理能力。

“根据发展心理学文献,我们的目标是创建一个基准,用于评估婴儿在语言前阶段(生命的前 18 个月)学习的与直觉心理学相关的特定常识能力,”校长 Dan Gutfreund MIT-IBM Watson AI 实验室的调查员告诉TechTalks。

作为孩子,我们通过观察我们的环境来学习分辨物体和代理之间的区别。当我们观察事件的展开时,我们会发展直觉的心理技能,通过观察他人的行为来预测他们的目标,并继续纠正和更新我们的心理。我们在很少或根本没有指示的情况下学习所有这些。

AGENT(行动、目标、效率、约束、实用性)测试背后的想法是评估人工智能系统在模仿这一基本技能方面的能力、他们可以发展哪些心理推理能力,以及他们学习的表征在新情况下的泛化程度。该数据集包含短序列,显示代理导航到多个对象之一。这些序列是在ThreeDWorld中制作的,这是一个专为训练 AI 代理而设计的虚拟 3D 环境。

代理测试分两个阶段进行。首先,向 AI 呈现一个或两个描述代理行为的序列。这些示例应该使 AI 熟悉虚拟代理的偏好。例如,代理可能总是选择一种类型的对象,而不管阻碍它的障碍如何,或者它可能会选择最近且最容易接近的对象,而不管其类型如何。

在熟悉阶段之后,向 AI 展示了一个测试序列,它必须确定代理是否以预期或令人惊讶的方式行事。

总共 3,360 个测试,跨越四种类型的场景,从非常简单的行为(无论环境如何,代理都喜欢一种对象)到更复杂的挑战(代理表现出成本回报估计,权衡实现的难度)一个目标,而不是它将获得的奖励)。AI 还必须考虑代理代理的动作效率(例如,它不应该在没有障碍物的情况下进行不必要的跳跃)。在一些挑战中,场景被部分遮挡,使得对环境的推理变得更加困难。

人工环境中的真实场景

测试的设计者已经包含了人类的归纳偏差,这意味着代理和环境受对人类理性的规则的控制(例如,跳跃或攀爬障碍物的成本随着其高度的增加而增加)。这一决定有助于使挑战更加现实和更容易评估。研究人员还指出,这些偏见对于帮助创建更好地与人类行为一致和兼容并可以与人类同行合作的人工智能系统也很重要。

人工智能研究人员通过 Amazon Mechanical Turk 测试了人类志愿者面临的挑战。他们的研究结果表明,平均而言,人类可以通过观察熟悉序列和判断测试示例来解决 91% 的挑战。这意味着人类使用他们关于世界和人类/动物行为的先验知识来理解智能体如何做出决定(例如,在所有其他条件相同的情况下,智能体将选择具有更高奖励的对象)。

人工智能研究人员有意限制数据集的大小,以防止解决问题的非智能捷径。给定一个非常大的数据集,机器学习模型可能会学会做出正确的预测,而无需获得有关代理行为的基础知识。“仅在我们的数据集上从头开始训练是行不通的。相反,我们建议要通过测试,有必要通过架构中的归纳偏差或通过对额外数据的训练来获得额外的知识,”研究人员写道。

然而,研究人员在测试中实施了一些捷径。AGENT 数据集包括场景每一帧的深度图、分割图以及对象和障碍物的边界框。这些场景在视觉细节上也非常简单,由八种不同的颜色组成。所有这些都使 AI 系统更容易处理场景中的信息,并专注于挑战的推理部分。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章