专家创造“新图灵测试”可以更好地评估人工智能的隐藏能力。

2022-06-18 21:17:33   编辑:葛剑
导读据英国《新科学家》周刊网站6月14日报道,包括美国谷歌公司多名专家在内的400多名人工智能(AI)研究人员建议升级著名的图灵测试,以提高对人工智能技术评分的能力。

据英国《新科学家》周刊网站6月14日报道,包括美国谷歌公司多名专家在内的400多名人工智能(AI)研究人员建议升级著名的图灵测试,以提高对人工智能技术评分的能力。

报道称,近年来,人工智能语言模型显示出惊人的与人对话的能力,这得益于实验规模的不断扩大——我们拥有更强的计算能力和庞大的训练数据集。最近谷歌的一个工程师对一个模型印象深刻,甚至声称这个模型是有意识的(虽然受到很多人的质疑)。一些研究人员预测,这些模型的规模将在未来几年继续扩大,并显示出新的能力。

为了评估目前的技术水平,为未来更强大的模型做准备,来自132个机构的442名研究人员花了两年时间,创造了一套代替图灵测试的方法,可以用来评估人工智能模型的隐藏能力,必要时还可以扩大评估范围。这种方法名为“超越模仿游戏BIG-bench”,由204个不同的任务组成,涵盖语言学、数学、象棋等一系列课题。按照设计,这些任务不会被目前最先进的机型完全解决。

研究人员在介绍“超越模仿游戏基准”的论文中指出,它将成为启发未来研究的重要工具,能够识别和预见新兴人工智能的任何颠覆性新能力或潜在有害影响。

人类专家完成这204项任务,并确定每项任务的平均分和最高基准分。研究人员发现,尽管计算能力的提高有助于人工智能模型取得越来越好的结果,但人工智能在大多数任务中的表现仍然不如人类。

研究人员还发现,扩大人工智能模型的规模并没有提高其在一些任务中的性能,例如涉及长文本的逻辑推理。这无异于暗示,对于某些智力领域,单纯扩大规模是解决不了问题的。事实上,这项研究还表明,规模甚至可能会带来问题。例如,在某些情况下,一些测量社会偏好的测试会给较大的模型较低的分数。

研究团队的核心成员包括多名谷歌专家,但该公司并未回应记者的采访请求。

英国萨里大学的阿德里安·希尔顿(Adrian Hilton)认为,图灵测试或许并没有过时,但对于现代人工智能来说还不够有效,或者说覆盖面还不够广。图灵测试本来是用来评估智力的,虽然能否评估智力还有待商榷。怀疑希尔顿这次公布的新基准未必能测出真正的智力。

“我认为这是一个有效的测试,但我不认为说机器有意识就聪明是一回事,”他说。我认为,设置一组基准是一种比较一种机器学习算法和另一种算法的方法,也是一种比较一种人工智能和另一种人工智能的方法。但我认为这不一定能回答关于智力的问题。有了机器学习技术,机器可以作曲,甚至回答问题和写短文,并且以更有说服力和更像人类的方式做这些事情。但这真的是智能吗?我不这么认为。"

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章