DeepMind的最新研究:人工智能击败了人类,设计出了更好的经济机制

2022-07-05 18:18:24   编辑:小美
导读“人类面临的许多问题不仅仅是技术问题,还需要我们为了更大的利益在社会和经济上进行协调。”“如果人工智能技术可以提供帮助,它需要直接学习人类的价值观。”

“人类面临的许多问题不仅仅是技术问题,还需要我们为了更大的利益在社会和经济上进行协调。”“如果人工智能技术可以提供帮助,它需要直接学习人类的价值观。”

人工智能(AI)能否推动人类社会进入真正的智能时代?

虽然经过60多年的发展,人工智能产业取得了突破性进展,并广泛应用于经济社会的各个方面,但构建与人类价值观相一致的人工智能体系仍是一个未解决的问题。

现在,英国人工智能公司DeepMind的最新研究可能为人工智能行业的从业者解决这一问题提供了新的思路。

据报道,DeepMind的人工智能系统通过向4000多人学习,并在一个4人在线经济游戏中进行计算机模拟,不仅学会了如何制定重新分配公共资金的政策,而且表现非常出色,击败了其他人类玩家。

该游戏要求玩家决定是保留捐款还是为了集体利益与他人分享。

相关研究论文名为《以人为中心的民主AI机制设计》,于7月5日在线发表在权威科学期刊《自然·人类行为》上。

她还说,民主不仅仅是让你喜欢的政策得到最好的实施——而是创造一个过程,让公民能够在平等的基础上相互接触和讨论(事情)。

用人工智能设计经济机制

人工智能研究的最终目标是建立有益于人类的技术——从帮助我们完成日常任务到解决社会面临的重大生存挑战。

如今,机器学习系统已经解决了生物医学的主要问题,帮助人类应对环境挑战。然而,人工智能在帮助人类设计公平繁荣的社会方面的应用还有待开发。

在经济学和博弈论中,被称为机制设计的领域研究如何优化控制财富、信息或权力在有动机的行为者之间的流动,以实现预期目标。

在这项工作中,研究团队试图证明深度强化学习(RL)代理可以用于设计一种经济机制,可以获得被激励者的偏好。

在这个游戏中,玩家一开始有不同数量的钱,所以他们必须决定贡献多少来帮助发展一个公共基金池,并最终获得一些回报。这将涉及反复决定是保留一笔捐款,还是与其他玩家分享,以获得潜在的集体利益。

研究团队训练了一个深度强化学习智能体,设计了一个再分配机制,即在财富相等和不相等的情况下,与玩家分享资金。

共享的利润通过两种不同的再分配机制返还给玩家,一种是这个人工智能系统设计的,另一种是人类设计的。

游戏设计(来源:自然人类行为)

在人工智能制定的政策中,系统会根据每个玩家贡献的启动资金的多少来重新分配公共资金,以此来缩小玩家之间的财富差距。

与“平均主义”方法(无论每个玩家贡献多少都平等分配资金)和“自由主义”方法(根据每个玩家对公共资金的贡献比例分配资金)相比,这一政策赢得了更多人类玩家的投票。

同时,这一政策也纠正了最初的财富失衡,制止了玩家的“搭便车”行为。除非玩家出资一半左右的启动资金,否则几乎得不到任何回报。

不过,研究团队也警告称,他们的研究成果并不代表“AI政府”的秘方,也不打算打造一些由AI驱动的工具用于政策制定。

值得信赖吗?

结果表明,通过设计一种人类在激励相容的经济游戏中明显偏好的机制,可以训练人工智能系统满足民主目标。

在这项工作中,研究团队使用人工智能技术从零开始学习再分配方案。这种方法减轻了人工智能研究人员的负担——他们可能有偏见或不代表更广泛的人群本身——选择特定领域的目标进行优化。

这项研究也提出了几个问题,其中一些在理论上具有挑战性。例如,有些人可能会问,强调民主目标作为一种价值校准方法是否是一个好主意。这种人工智能系统可能继承了其他民主方法的一种倾向,即“以牺牲少数人为代价来赋予多数人权力”。考虑到人们迫切担心人工智能的部署可能会加剧社会上现有的偏见、歧视或不公平,这一点尤为重要。

另一个悬而未决的问题是人们是否会信任人工智能系统设计的机制。如果事先知道裁判的身份,玩家可能更喜欢人类裁判,而不是人工智能充当裁判。然而,当人们认为任务对人类来说太复杂时,他们往往会选择信任人工智能系统。

此外,如果玩家口头解释这些机制,而不是通过经验学习,他们的反应会不同吗?大量文献表明,当机制是“根据描述”而不是“根据经验”时,人们的行为有时会出现差异,尤其是对于承担风险的选择。然而,人工智能设计的机制可能并不总是用语言来表达。在这种情况下,似乎观察到的行为可能完全取决于研究小组所采用的描述的选择。

在论文的最后,研究团队还强调了这一研究结果,并表明他们支持某种形式的“人工智能治理”,即独立的代理人在没有人为干预的情况下做出决策。

他们希望这种方法的进一步发展将提供工具,以真正符合人类的方式帮助解决现实世界的问题。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章