强化学习对通用AI人工智能来说已经足够了

2021-12-21 15:28:53   编辑:李美菲
导读在长达数十年的人工智能创造过程中,计算机科学家设计并开发了各种复杂的机制和技术来复制视觉、语言、推理、运动技能和其他与智能生命相关

在长达数十年的人工智能创造过程中,计算机科学家设计并开发了各种复杂的机制和技术来复制视觉、语言、推理、运动技能和其他与智能生命相关的能力。虽然这些努力已经产生了可以在有限环境中有效解决特定问题的 AI 系统,但它们还没有开发出人类和动物中看到的那种通用智能。

在提交给同行评审的人工智能期刊的一篇新论文中,英国人工智能实验室 DeepMind 的科学家认为,智能及其相关能力的产生不是通过制定和解决复杂的问题,而是通过坚持一个简单而强大的原则:奖励最大化.

这篇题为“奖励就足够了”的论文,在撰写本文时仍处于预证明阶段,其灵感来自于研究自然智能的进化以及从人工智能的最新成就中汲取经验教训。作者认为,奖励最大化和试错经验足以培养表现出与智力相关的能力的行为。并由此得出结论,强化学习是基于奖励最大化的人工智能分支,可以导致通用人工智能的发展。

AI的两条路径

创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素。例如,我们对哺乳动物视觉系统的理解催生了各种人工智能系统,这些系统可以对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样,我们对语言的理解有助于开发各种自然语言处理系统,例如问答、文本生成和机器翻译。

这些都是狭义人工智能的实例,这些系统旨在执行特定任务而不是具有一般解决问题的能力。一些科学家认为,组装多个狭义的人工智能模块会产生更高的智能系统。例如,您可以拥有一个软件系统,在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调,以解决需要多种技能的复杂问题。

DeepMind 研究人员提出的另一种创建人工智能的方法是重新创建产生自然智能的简单而有效的规则。研究人员写道:“[我们] 考虑了一个替代假设:最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分(如果不是全部)能力的行为。”

这基本上就是大自然的运作方式。就科学而言,在我们周围看到的复杂有机体中,并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式,使其适合生存和繁殖。能够更好地应对环境中的挑战和情况的生物设法生存和繁殖。其余的都被淘汰了。

这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物的进化。

“动物和人类面临的自然世界,以及人工代理未来面临的环境,本质上非常复杂,需要复杂的能力才能在这些环境中取得成功(例如,生存),”研究人员写。“因此,以奖励最大化来衡量的成功需要各种与智力相关的能力。在这样的环境中,任何使奖励最大化的行为都必须表现出这些能力。从这个意义上说,奖励最大化的一般目标包含许多甚至可能所有的智能目标。”

例如,考虑一只松鼠,它寻求减少饥饿的奖励。一方面,它的感官和运动技能帮助它在有食物时定位和收集坚果。但是,当食物变得稀缺时,一只只能找到食物的松鼠必然会饿死。这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们。松鼠具有社交技能和知识,可以确保其他动物不会偷吃它的坚果。如果缩小,饥饿最小化可能是“活下去”的一个子目标,这还需要一些技能,例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。

研究人员写道:“当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时,这实际上可能提供更深入的理解,因为它解释了为什么会出现这种能力。” “与此相反,当每个能力被理解为解决自己的专业目标,为什么问题是侧阶梯时,以重点是什么这种能力呢。”

最后,研究人员认为,最大化奖励的“最通用和可扩展”的方式是通过智能体通过与环境的交互来学习。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章