谷歌,又一次把AI作画卷出新高度

2022-07-01 18:00:23   编辑:小美
导读这是世界上公认的最长的单词——一个45个字母的单词,意思是“由火山硅石颗粒在肺部沉积引起的疾病”(俗称火山硅肺)。

朋友,你知道这个英语单词是什么吗?

肺显微镜下矽肺球菌病。

这是世界上公认的最长的单词——一个45个字母的单词,意思是“由火山硅石颗粒在肺部沉积引起的疾病”(俗称火山硅肺)。

但是,如果不是让你拼写这个单词,而是让你画出来呢?

(连看都看不懂,还画???)

谷歌最新的AI——Parti,可以轻松hold住这件事。

把这个词“喂”给Parti后,它能以恰当的方式生成若干合理的肺部疾病图片:

但这只是Parti的一点点尝试的能力。谷歌称,这是目前最先进的“文本到图像”AI。

例如,对它说,“把悉尼歌剧院和巴黎铁塔结合起来”,输出会是这样的:

(不知道的话真以为是画报。)

而且在算法数量上,和谷歌自己的Imagen是不一样的。Parti可以说是把“AI绘画”铺开到了一个新的高度。

就连谷歌AI负责人杰夫·迪恩(Jeff Dean)也发了好几条推特,玩得很开心:

可扩展至200亿个参数:更真实和“更智能”

其实Parti的能力不止于此。

得益于模型可以扩展到200亿个参数,一方面,它生成的图像更加细致逼真。

无论是短短的几个字,还是50多字的小段落,都能清晰的展现出来。

比如小提琴的背面,小提琴的背面。

或者根据梵高的《星空》描述的夜景。Ps,这一段有67个字。

结果Parti不在话下,我一个包把各种风格的图都给你画出来了~

这也是Parti的第二大能力。不仅细节很到位,风格也可以多变。

还有类似“浣熊穿着正装,戴着礼帽,拄着拐杖,拿着垃圾袋”的奇怪描述。它也可以做出一个完整的节目而不丢失细节。

在风格上,有梵高风格,埃及法老风格,像素风格,中国传统绘画风格,抽象风格...

有时它甚至会说双关语。

(蛤蟆啊,蛤蟆)

在具体的测试结果上,MS-COCO、本地化叙事(LN,4倍于长描述)和Parti上的FID评分都取得了最先进的结果。

尤其是在MS-COCO中,零样本的FID得分仅为7.23,微调FID得分为3.22,超过了之前的Imagen和DALL-E 2。

所有组件都是变压器。

一个月后,谷歌把AI画到了一个新的高度。因此,作者说,秘密很简单。

Parti主要把文本生成的图像看作是从序列到序列的建模。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出由文本变为图像。

在结构上,它的所有组件只有三个部分:编码器,解码器和图像标记器,所有这些都是基于标准的变压器。

首先,利用基于Transformer的图像标记ViT-VQGAN将图像编码成离散的标记序列。

然后通过《变形金刚》的编解码结构,将参数扩展到200亿。

以往对文字生成图像的研究可以分为两种思路,除了最早的甘。

一种是基于自回归模型。首先将文本特征映射到图像特征,然后利用类似Transformer的序列结构学习语言输入和图像输出的关系。

这种方法的一个关键部分是图像标记,它将每个图像转换成一系列离散的单元。比如DALL-E和CogView都采用了这种思路。

另一种是近年来进展频繁的路线——基于扩散的文本转图像模型,如DALL-E 2和Imagen。

他们不使用图像标记,而是使用扩散模型直接生成图像。可以看出,这些模型产生的图像质量更高,MS-COCO中零样本的FID评分更好。

Parti模型的成功证明了自回归模型可以用来改善文本生成图像的效果。

同时,Parti还引入并发布了新的基准测试——Parti PROMPTS,用于衡量模型在12个类别、11个挑战中的能力。

但是Parti还是有一定的局限性,研究人员也展示了一些bug:

比如关于负面描述没有表白~

没有香蕉的盘子和旁边没有橙汁的玻璃杯。

会犯一些常识性的错误,比如比例不合理。比如这张图,机器人比赛车高好几倍。

一个穿着赛车服、戴着黑色遮阳板的闪亮机器人骄傲地站在一辆F1赛车前。太阳落在城市的风景上。漫画书插图。

谷歌“滚你自己”

这个研究来自Google Research,团队大部分是中国人。

研究的核心人员有、徐、罗等。,他们目前都在谷歌从事AI相关的研究。

(Thang Luong在谷歌的学术引用高达20000+)

△左:许;;右:汤良

不过有意思的是,这和“说一句话让AI画画”是一样的,也是谷歌的Imagen。和Parti真的有点千丝万缕的联系。

Parti的GitHub项目文档中有提及:

感谢Imagen团队,他们在Imagen发布之前与我们分享了最新的完整结果。

他们在CF-guidance中的重要发现对最终的Parti模型特别有帮助。

Imagen的作者之一Burcu Karagol Ayan也参加了parti的项目。

(有点谷歌“自我滚动”的味道)

不仅如此,就连《隔壁DALL-E 2》的作者Aditya Ramesh也给Parti讨论了对MS-COCO的评价。

以及DALL-Eval的作者,也帮助了Parti数据的工作。

还有一点

“从文本生成图像”不仅仅是研究人员的宠儿。

在“玩”它的道路上,网友们也乐在其中(别太会动脑)。

前阵子Imagen画了一个宋代的“老虎穿VR”的图,直接演变成了一场AI画战。

△图:Imagen绘画

旅途、中途等。《来到新闻》参与。

dall e的画

甚至还有一个让沃尔多和达尔-E 2在一起的故事:

……

不过,回到这个Parti,好玩是好玩,但还是有网友提出了“直击灵魂”的问题:

什么时候能商业化?一个人“关起门来玩”一点都不好玩。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章