人大高瓴人工智能学院利用多模态基础模型迈向通用型人工智能

2022-06-16 20:41:14   编辑:小美
导读人工智能的基本目标是模仿人类的核心认知活动,如感知、记忆和推理。尽管许多人工智能算法或模型在各个研究领域取得了巨大成功

人工智能的基本目标是模仿人类的核心认知活动,如感知、记忆和推理。尽管许多人工智能算法或模型在各个研究领域取得了巨大成功,但由于获取了大量标记数据或计算资源不足以支持大规模数据的训练,大多数人工智能研究仅限于单一认知能力的获取。

为了克服这些限制,向通用人工智能迈进一步,我们受人脑处理多模态信息的启发,开发了多模态(视觉语言)基本模型,即预训练模型(如图1a所示)。此外,为了使模型具有较强的泛化能力,我们提出训练数据中的图片和文本应该遵循弱语义相关假设(如图1b所示),而不是图片区域和文字之间的精细匹配(强语义相关),因为强语义相关假设会使模型在匹配图片时失去人所隐含的复杂情感和思维。

图1:基于弱语义相关假设的BriVL模型。a .我们的BriVL模型与人脑处理视觉语言信息的比较。b .建模弱语义相关数据和建模强语义相关数据的比较。

通过对来自互联网的大规模图片和文本的训练,我们得到的多模态基本模型表现出很强的泛化能力和想象力。我们认为,我们的工作向通用人工智能迈出了重要的一步(尽管可能很小),并将对各个AI+领域(如神经科学和医疗健康)产生广泛的影响。

方法

我们开发了一个大规模多模态基础模型,用于在海量多模态数据上进行自我监控训练,并将其命名为BRIVL(Bridging-Vision-and-Language)。

首先,我们使用从互联网上构建的大规模多源图文数据集,称为弱语义相关数据集(WSCD)。WSCD从互联网上的多个来源收集中文图像文本对,包括新闻、百科全书和社交媒体。我们只过滤掉了WSCD的和敏感数据,没有以任何方式编辑或修改原始数据,以保持其自然的数据分布。总的来说,WSCD有大约6.5亿个图形对,涵盖了许多主题,如体育、日常生活和电影。

其次,对于我们的网络架构,由于图像和文本之间不一定存在细粒度的区域词匹配,我们丢掉了耗时的目标检测器,采用简单的双塔架构,这样就可以通过两个独立的编码器对输入的图像和文本进行编码(如图2所示)。双塔结构在推理过程中具有明显的效率优势,因为候选集的特征可以在查询前计算和索引,满足了现实应用的实时性要求。第三,随着大规模分布式训练技术和自监督学习的发展,利用海量未标记多模态数据训练模型成为可能。

具体来说,为了对图像和文本之间的弱相关性进行建模并学习统一的语义空间,我们在单模态对比学习方法MoCo的基础上设计了一种跨模态对比学习算法。如图2所示,我们的BriVL模型使用动量机制来动态维护不同训练批次中的负样本队列。这样我们会有相对较多的负样本(这对比较学习来说是必不可少的),同时使用相对较少的批量来减少GPU的内存占用(即GPU资源节省)。

图2:大规模多模态预训练的BriVL模型示意图。

主要结果

神经网络可视化

当我们听到单词或描述性句子时,我们的脑海中会出现一些场景。那么对于我们的BriVL来说,在对如此大量的弱相关对进行预训练之后,我们很好奇当文本给定时,它会想象出什么。

具体来说,我们首先输入一段文本,通过BriVL的文本编码器得到它的文本嵌入。然后我们随机初始化一幅含噪图像,并通过图像编码器得到其特征嵌入。因为输入图像是随机初始化的,所以它的特征必然与输入文本的特征不一致。因此,我们定义了匹配两个特征的嵌入目标,并通过反向传播来更新输入图像。最终的图像可以清晰地显示出BriVL对输入文本的想象。这里我们不使用任何额外的模块或数据,预先训练好的BriVL在整个可视化过程中也是冻结的。

首先,我们介绍BriVL想象一些高级语义概念的能力(图3)。可以看出,虽然这些概念很抽象,但是可视化还是可以表现出它们的具体形态(比如“自然”:像草一样的植物;“时间”:时钟;“科学”:一张戴着眼镜和锥形瓶的脸;“梦”:云,通往门口的桥,如梦似幻的氛围)。这种将抽象概念概括为一系列具体对象的能力显示了我们仅使用弱语义相关数据的多模态预训练的有效性。

图3:3:BriVL模型对抽象概念的想象。

在图4中,我们展示了BriVL对句子的想象。BriVL对“乌云背后有阳光”的想象,不仅从字面上反映了乌云背后的阳光,似乎还表现了海上的危险情况(左边有船形物体和波浪),表达了这句话的寓意。在“生如夏花”的可视化中,我们可以看到一个花簇。接下来两个场景中更复杂的文本输入来自中国古诗,其语法与训练集中的大多数文本完全不同。看来BriVL也能很好的理解它们:对于“竹外三两桃花”,我们可以看到竹子和粉色的花;对于“山遮白日,洋泄金河”,我们可以看到山上的树木遮住了夕阳,前方的河上有一条船。总的来说,我们发现BriVL即使在复合句的提示下,仍然有很强的想象力。

图4:4:BriVL模型对汉语句子的想象。

在图5中,几个相似的文本用于BriVL的神经网络可视化。对于“有森林的山”,图像中绿色区域较多;对于“有岩石的山”,图像中岩石较多;对于“雪山”,中间树木周围的地面是白色或蓝色;对于“有瀑布的山”,你可以看到蓝色的水落下,甚至一些水汽。这些可视化结果证明,BriVL能够准确理解和想象山脉的修饰语。

图5: BRIVL模型对“有…的山”的想象

文本生成图

神经可视化非常直接,但有时很难解释。因此,我们开发了另一种可视化/可解释的方法,以便我们可以更好地理解BriVL的虚内容。具体来说,我们在BriVL的指导下使用VQGAN生成图像,因为在ImageNet数据集上预先训练的VQGAN非常擅长生成逼真的图像。首先,我们随机获得一个令牌序列,并从预训练的VQGAN中获得一个生成的图像。然后,我们将生成的图像输入到BriVL的图像编码器,同时将一段文本输入到文本编码器。最后,我们定义了图像和文本嵌入之间需要匹配的目标,并通过反向传播来更新初始令牌序列。与神经网络可视化一样,VQGAN和BriVL在生成过程中都被冻结。为了比较,我们还显示了由OpenAI的CLIP模型而不是BriVL生成的图像。

首先,我们选择了四个文本输入,CLIP和BriVL的图形生成结果分别如图6和图7所示。CLIP和BriVL都可以很好地理解文本,但我们也观察到两个主要差异。第一,CLIP生成的图像中会出现卡通元素,而BriVL生成的图像更加真实自然。其次,CLIP倾向于简单地将元素放在一起,而BriVL生成的图像则更加全局统一。第一个差异可能是由于CLIP和BriVL使用的训练数据不同。我们训练数据中的图像都是从互联网上抓取的(大部分是真实照片),而CLIP的训练数据中可能会有一定数量的卡通图像。第二个区别可能是CLIP使用的图文对具有很强的语义相关性(通过词过滤),而我们使用的是弱相关性数据。这意味着在多模态预训练过程中,CLIP更有可能学习特定对象与单词/短语之间的对应关系,而BriVL则试图从整体上理解每幅图像和给定文本。

图6:用VQGAN实现文本生成图的Clip (w/resnet-50x4)示例。

图7:我们的BriVL用VQGAN实现文本生成图的一个例子。

我们还考虑一个更具挑战性的任务,即基于多个连贯的句子生成一系列图像。如图8所示,虽然每张图片都是独立生成的,但是我们可以看到,这四张图片在视觉上是连贯的,并且具有相同的风格。这显示了BriVL模型的另一个优势:虽然图像中的环境和背景在相关文本中很难被明确提及,但在我们的大规模多模态预训练中却不被忽略。

图8:在VQGAN的帮助下,我们的BriVL生成一系列连贯内容的示例。

在图9中,我们选取了一些人类很少见到的概念/场景(如“燃烧的海洋”、“发光的森林”),甚至是现实生活中不存在的概念/场景(如“赛博朋克风格的城市”、“云中城堡”)。这证明了BriVL的优越性能并不是来自于对预训练数据的过度拟合,因为这里输入的概念/场景在现实生活中甚至是不存在的(当然也可能不在预训练数据集中)。此外,这些生成的例子再次验证了预训练BriVL在弱语义相关数据上的优势(因为细粒度的区域词对齐会损害BriVL的想象力)。

图BriVL的文本生成图的更多结果,其中的概念/场景人类很少见到,甚至在现实生活中不存在。

此外,我们还将BriVL应用于多个下游任务,如遥感图像的零样本分类、中文新闻的零样本分类、视觉问答等。,所有这些都取得了一些有趣的结果。详情请参考我们的论文原文。

结论和讨论

我们开发了一个名为BriVL的大规模多模态基本模型,该模型已经在6.5亿个弱语义相关的图像和文本上进行了训练。我们通过神经网络可视化和文本生成图直观地显示对齐的图像和文本嵌入空间。此外,在其他下游任务上的实验也显示了BriVL的跨域学习/迁移能力,以及多模态学习相对于单峰学习的优势。特别是,我们发现BriVL似乎获得了一定的想象力和推理能力。我们认为这些优势主要来自于BriVL遵循的弱语义相关假说。也就是说,我们的BriVL通过挖掘弱相关图文对中复杂的人类情感和思想,变得更有认知力。

我们相信,迈向通用人工智能的这一步,不仅会对人工智能领域本身产生广泛的影响,也会对各个AI+领域产生广泛的影响。对于人工智能的研究,基于我们GPU的资源节约型多模态预训练框架,研究人员可以很容易地将BriVL扩展到更大的量级和更多的模态,以获得更通用的基本模型。在大规模多模态基本模型的帮助下,研究人员也更容易探索新的任务(尤其是那些没有足够人类标签的样本)。对于AI+领域,由于其泛化能力强,基本模型能够快速适应具体的工作环境。比如在医疗领域,多模态基础模型可以充分利用病例的多模态数据,提高诊断的准确率;在神经科学领域,多模态基本模型甚至可能有助于找出多模态信息如何在人脑中融合的机制,因为人工神经网络比人脑中的真实神经系统更容易研究。

然而,多式联运基本模式仍然面临一些风险和挑战。基本模型可能会学习到对某些事物的偏见和成见。这些问题应在模型训练前认真处理,并在下游应用中监控和解决。此外,随着基础模型的能力越来越多,我们也要小心它会被怀有恶意的人滥用,以避免对社会造成负面影响。此外,在基本模型的未来研究中还存在一些挑战:如何开发模型的更深层次的可解释工具,如何建立更多模态的预训练数据集,以及如何通过更有效的微调技术将基本模型应用于各种下游任务。

本文作者为费南夷、、高、杨国兴、霍、文景元、卢浩宇、宋瑞华、X力、、孙浩、文。该来文的共同作者是人大人工智能学院教授、孙副教授和文教授。论文发表在国际综合期刊《自然通讯》(英文名:Nat Communication)上。本文由费南夷解读。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章