谷歌，又一次把AI作画卷出新高度

2022-07-01 18:00:23 编辑：小美

导读这是世界上公认的最长的单词——一个45个字母的单词，意思是“由火山硅石颗粒在肺部沉积引起的疾病”(俗称火山硅肺)。

朋友，你知道这个英语单词是什么吗?

肺显微镜下矽肺球菌病。

这是世界上公认的最长的单词——一个45个字母的单词，意思是“由火山硅石颗粒在肺部沉积引起的疾病”(俗称火山硅肺)。

但是，如果不是让你拼写这个单词，而是让你画出来呢?

(连看都看不懂，还画???)

谷歌最新的AI——Parti，可以轻松hold住这件事。

把这个词“喂”给Parti后，它能以恰当的方式生成若干合理的肺部疾病图片:

但这只是Parti的一点点尝试的能力。谷歌称，这是目前最先进的“文本到图像”AI。

例如，对它说，“把悉尼歌剧院和巴黎铁塔结合起来”，输出会是这样的:

(不知道的话真以为是画报。)

而且在算法数量上，和谷歌自己的Imagen是不一样的。Parti可以说是把“AI绘画”铺开到了一个新的高度。

就连谷歌AI负责人杰夫·迪恩(Jeff Dean)也发了好几条推特，玩得很开心:

可扩展至200亿个参数:更真实和“更智能”

其实Parti的能力不止于此。

得益于模型可以扩展到200亿个参数，一方面，它生成的图像更加细致逼真。

无论是短短的几个字，还是50多字的小段落，都能清晰的展现出来。

比如小提琴的背面，小提琴的背面。

或者根据梵高的《星空》描述的夜景。Ps，这一段有67个字。

结果Parti不在话下，我一个包把各种风格的图都给你画出来了~

这也是Parti的第二大能力。不仅细节很到位，风格也可以多变。

还有类似“浣熊穿着正装，戴着礼帽，拄着拐杖，拿着垃圾袋”的奇怪描述。它也可以做出一个完整的节目而不丢失细节。

在风格上，有梵高风格，埃及法老风格，像素风格，中国传统绘画风格，抽象风格...

有时它甚至会说双关语。

(蛤蟆啊，蛤蟆)

在具体的测试结果上，MS-COCO、本地化叙事(LN，4倍于长描述)和Parti上的FID评分都取得了最先进的结果。

尤其是在MS-COCO中，零样本的FID得分仅为7.23，微调FID得分为3.22，超过了之前的Imagen和DALL-E 2。

所有组件都是变压器。

一个月后，谷歌把AI画到了一个新的高度。因此，作者说，秘密很简单。

Parti主要把文本生成的图像看作是从序列到序列的建模。这有点类似于机器翻译，将文本标记作为编码器的输入，目标输出由文本变为图像。

在结构上，它的所有组件只有三个部分:编码器，解码器和图像标记器，所有这些都是基于标准的变压器。

首先，利用基于Transformer的图像标记ViT-VQGAN将图像编码成离散的标记序列。

然后通过《变形金刚》的编解码结构，将参数扩展到200亿。

以往对文字生成图像的研究可以分为两种思路，除了最早的甘。

一种是基于自回归模型。首先将文本特征映射到图像特征，然后利用类似Transformer的序列结构学习语言输入和图像输出的关系。

这种方法的一个关键部分是图像标记，它将每个图像转换成一系列离散的单元。比如DALL-E和CogView都采用了这种思路。

另一种是近年来进展频繁的路线——基于扩散的文本转图像模型，如DALL-E 2和Imagen。

他们不使用图像标记，而是使用扩散模型直接生成图像。可以看出，这些模型产生的图像质量更高，MS-COCO中零样本的FID评分更好。

Parti模型的成功证明了自回归模型可以用来改善文本生成图像的效果。

同时，Parti还引入并发布了新的基准测试——Parti PROMPTS，用于衡量模型在12个类别、11个挑战中的能力。

但是Parti还是有一定的局限性，研究人员也展示了一些bug:

比如关于负面描述没有表白~

没有香蕉的盘子和旁边没有橙汁的玻璃杯。

会犯一些常识性的错误，比如比例不合理。比如这张图，机器人比赛车高好几倍。

一个穿着赛车服、戴着黑色遮阳板的闪亮机器人骄傲地站在一辆F1赛车前。太阳落在城市的风景上。漫画书插图。

谷歌“滚你自己”

这个研究来自Google Research，团队大部分是中国人。

研究的核心人员有、徐、罗等。，他们目前都在谷歌从事AI相关的研究。

(Thang Luong在谷歌的学术引用高达20000+)

△左:许;;右:汤良

不过有意思的是，这和“说一句话让AI画画”是一样的，也是谷歌的Imagen。和Parti真的有点千丝万缕的联系。

Parti的GitHub项目文档中有提及:

感谢Imagen团队，他们在Imagen发布之前与我们分享了最新的完整结果。

他们在CF-guidance中的重要发现对最终的Parti模型特别有帮助。

Imagen的作者之一Burcu Karagol Ayan也参加了parti的项目。

(有点谷歌“自我滚动”的味道)

不仅如此，就连《隔壁DALL-E 2》的作者Aditya Ramesh也给Parti讨论了对MS-COCO的评价。

以及DALL-Eval的作者，也帮助了Parti数据的工作。

还有一点

“从文本生成图像”不仅仅是研究人员的宠儿。

在“玩”它的道路上，网友们也乐在其中(别太会动脑)。

前阵子Imagen画了一个宋代的“老虎穿VR”的图，直接演变成了一场AI画战。

△图:Imagen绘画

旅途、中途等。《来到新闻》参与。

dall e的画

甚至还有一个让沃尔多和达尔-E 2在一起的故事:

……

不过，回到这个Parti，好玩是好玩，但还是有网友提出了“直击灵魂”的问题:

什么时候能商业化?一个人“关起门来玩”一点都不好玩。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：谷歌，再次把AI作画卷出新高度谷歌

上一篇:特斯拉裁员了，马斯克最重视的新员工擎天柱马上要来了

下一篇:9年过去了，人类终于迎来了大规模无人机送货时代

谷歌，又一次把AI作画卷出新高度

猜你喜欢

最新文章