较旧的游戏AI人工智能使用经典的基于规则的方法

2022-03-10 16:34:26   编辑:左康蕊
导读这意味着人类工程师必须手动将游戏规则编码到软件中。一个例子是Stockfish,一个开源的下棋机器人,由数百名开发人员在几年内开发和增强。

这意味着人类工程师必须手动将游戏规则编码到软件中。一个例子是Stockfish,一个开源的下棋机器人,由数百名开发人员在几年内开发和增强。

虽然手动将游戏玩法和战术规则嵌入人工智能可能适用于更简单的游戏,但它根本不适用于像星际争霸这样复杂的游戏。与许多其他当代 AI 应用程序一样,AlphaStar 使用深度学习来学习玩星际争霸 II。在深度学习中,人工智能通过分析和比较大量示例来发展其行为。在 AlphStar 的案例中,人工智能通过向其提供来自众多游戏的数据进行“训练”。

根据 DeepMind 的说法,AlphaStar 结合了“监督学习”和“强化学习”。监督学习是一种深度学习,模型在人类用户准备的样本上进行训练。DeepMind 团队最初向 AlphaStar 提供了暴雪发布的匿名人类游戏数据。通过处理数据,人工智能能够模仿星际争霸使用的基本微观和宏观策略。根据 DeepMind 的说法,这次初步训练使 AlphaStar 与星际争霸最困难的内置 AI 相提并论。

掌握了基础知识后,AlphaStar 从事强化学习以磨练其技能。在强化学习中,人工智能模型在没有人类数据帮助的情况下发展他们的行为。许多人认为强化学习是当代人工智能的圣杯,因为高质量的人力投入和劳动力稀缺、昂贵且缓慢,并且涉及道德和隐私问题(这就是为什么 DeepMind 明确指出用于监督学习的游戏数据是“匿名的, ”,这意味着会泄露用户身份的信息已被删除)。

强化学习通过创建自己的训练数据来克服监督学习的缺点。DeepMind 创建了一个 AI 联盟,其中几个 AlphaStar 实例不知疲倦地快速连续地相互对抗以发展他们的技能。这相当于几个职业星际玩家在玩超级快进。

最终的 AlphaStar 将联盟中所有 AI 代理中最成功的策略整合为最终模型。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章