专家创造“新图灵测试”可以更好地评估人工智能的隐藏能力。

2022-06-18 21:17:33 编辑：葛剑

导读据英国《新科学家》周刊网站6月14日报道，包括美国谷歌公司多名专家在内的400多名人工智能(AI)研究人员建议升级著名的图灵测试，以提高对人工智能技术评分的能力。

据英国《新科学家》周刊网站6月14日报道，包括美国谷歌公司多名专家在内的400多名人工智能(AI)研究人员建议升级著名的图灵测试，以提高对人工智能技术评分的能力。

报道称，近年来，人工智能语言模型显示出惊人的与人对话的能力，这得益于实验规模的不断扩大——我们拥有更强的计算能力和庞大的训练数据集。最近谷歌的一个工程师对一个模型印象深刻，甚至声称这个模型是有意识的(虽然受到很多人的质疑)。一些研究人员预测，这些模型的规模将在未来几年继续扩大，并显示出新的能力。

为了评估目前的技术水平，为未来更强大的模型做准备，来自132个机构的442名研究人员花了两年时间，创造了一套代替图灵测试的方法，可以用来评估人工智能模型的隐藏能力，必要时还可以扩大评估范围。这种方法名为“超越模仿游戏BIG-bench”，由204个不同的任务组成，涵盖语言学、数学、象棋等一系列课题。按照设计，这些任务不会被目前最先进的机型完全解决。

研究人员在介绍“超越模仿游戏基准”的论文中指出，它将成为启发未来研究的重要工具，能够识别和预见新兴人工智能的任何颠覆性新能力或潜在有害影响。

人类专家完成这204项任务，并确定每项任务的平均分和最高基准分。研究人员发现，尽管计算能力的提高有助于人工智能模型取得越来越好的结果，但人工智能在大多数任务中的表现仍然不如人类。

研究人员还发现，扩大人工智能模型的规模并没有提高其在一些任务中的性能，例如涉及长文本的逻辑推理。这无异于暗示，对于某些智力领域，单纯扩大规模是解决不了问题的。事实上，这项研究还表明，规模甚至可能会带来问题。例如，在某些情况下，一些测量社会偏好的测试会给较大的模型较低的分数。

研究团队的核心成员包括多名谷歌专家，但该公司并未回应记者的采访请求。

英国萨里大学的阿德里安·希尔顿(Adrian Hilton)认为，图灵测试或许并没有过时，但对于现代人工智能来说还不够有效，或者说覆盖面还不够广。图灵测试本来是用来评估智力的，虽然能否评估智力还有待商榷。怀疑希尔顿这次公布的新基准未必能测出真正的智力。

“我认为这是一个有效的测试，但我不认为说机器有意识就聪明是一回事，”他说。我认为，设置一组基准是一种比较一种机器学习算法和另一种算法的方法，也是一种比较一种人工智能和另一种人工智能的方法。但我认为这不一定能回答关于智力的问题。有了机器学习技术，机器可以作曲，甚至回答问题和写短文，并且以更有说服力和更像人类的方式做这些事情。但这真的是智能吗?我不这么认为。"

免责声明：本文由用户上传，如有侵权请联系删除！

标签：人工智能

上一篇:南大人工智能AI一期”毕业了!本科生平均年薪30.38万，有人放弃高薪选择国防。

下一篇:人工智能时代即将到来。你身边有哪些发现?对此你怎么看?

专家创造“新图灵测试”可以更好地评估人工智能的隐藏能力。

猜你喜欢

最新文章