尽管在算法上取得了巨大的进步 但计算机尚未破解人性的代码

2020-07-18 10:08:42
导读 卡内基·梅隆大学的计算机科学家UOMAS SANDHOLM不是扑克玩家,甚至不是扑克迷,但他对游戏的着迷与他伟大的游戏理论家John von Neumann

卡内基·梅隆大学的计算机科学家UOMAS SANDHOLM不是扑克玩家,甚至不是扑克迷,但他对游戏的着迷与他伟大的游戏理论家John von Neumann一样。冯·诺伊曼(Von Neumann)于1957年去世,他认为扑克是人类决策的理想模型,因为他发现了技巧和机会之间的平衡,而这种平衡是我们选择的一切。他将扑克视为终极的战略挑战,因为它不仅结合了象棋这样的游戏的数学元素,而且还结合了更难于精确建模的独特的人类心理角度-多年后,桑德霍尔姆在他的人工研究中分享了这一观点。情报。

我所留下的 是一个经常性的功能,邀请书作者分享轶事和叙事,无论出于何种原因,这些轶事和叙事都没有融入到他们的最终手稿中。在本期中,玛丽亚·康尼科娃(Maria Konnikova)分享了一个故事,该故事被遗忘在“最大的虚张声势:我如何学习注意力,掌握自我和赢得胜利”(企鹅出版社)上。

“扑克是信息不完善游戏的主要基准测试和挑战计划,” Sandholm在2018年一个温暖的春天的下午告诉我,当时我们在匹兹堡的办公室见面。事实证明,游戏已成为开发人工智能的黄金标准。

高个子又瘦又瘦,戴着线框眼镜,眉毛整齐,表情友好。Sandholm创建了三个计算机程序,旨在测试他们对人类扑克玩家的耐心,他们是Claudico,Libratus和最近的Pluribus。(当我们见面时,Libratus还是一个蹒跚学步的人,而Pluribus尚不存在。)目标不是解决扑克问题,而是创建算法,该算法在不完善的信息和随机情况(情况)世界中的决策能力很高随机确定且无法预测的数据,然后可以应用于其他随机领域,例如军事,商业,政府,网络安全,甚至医疗保健。

Libratus依赖于三个主要模块。首先涉及整个游戏的基本蓝图策略,从而使其比以前的游戏更快地达到平衡。它包括一种称为“蒙特卡洛反事实后悔最小化”的算法,该算法会评估所有将来的行为,以找出哪种行为会引起最少的后悔。遗憾当然是人类的情感。对计算机感到遗憾只是意味着意识到,未选择的动作会比原来的动作产生更好的结果。桑霍尔姆说:“直观上,遗憾表示AI过去对未选择该操作感到遗憾。” 遗憾越高,下次选择该动作的机会就越大。

这是一种有用的思维方式,但对人类的思维却难以实施。众所周知,我们在预测未来的情绪方面表现不佳。我们会后悔多少?不做其他事情我们会后悔多少?对我们来说,这是一个令人费解的演算,我们通常无法以正确的方式应用它。对于计算机而言,这全都与值的计算有关。它后悔没有做最多的事情,本来会产生最高期望值的事情呢?

第二个模块是一个子游戏求解器,它考虑了对手到目前为止所犯的错误,并考虑了她可能拥有的每一手牌。最后,还有一个自我完善者。这是数据和机器学习发挥作用的领域。试图利用对手是危险的,这使您面临被立即利用的风险,特别是如果您是计算机程序并且对手是人类。因此,自我完善程序不是尝试执行此操作,而是让对手的行为告知程序应关注的区域。“这使对手的行动告诉我们[他们]认为他们在我们的策略中发现了漏洞,“桑霍尔姆解释说。这使算法能够制定出解决这些漏洞的蓝图策略。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章