朋友,你知道这个英语单词是什么吗?
肺显微镜下矽肺球菌病。
这是世界上公认的最长的单词——一个45个字母的单词,意思是“由火山硅石颗粒在肺部沉积引起的疾病”(俗称火山硅肺)。
但是,如果不是让你拼写这个单词,而是让你画出来呢?
(连看都看不懂,还画???)
谷歌最新的AI——Parti,可以轻松hold住这件事。
把这个词“喂”给Parti后,它能以恰当的方式生成若干合理的肺部疾病图片:
但这只是Parti的一点点尝试的能力。谷歌称,这是目前最先进的“文本到图像”AI。
例如,对它说,“把悉尼歌剧院和巴黎铁塔结合起来”,输出会是这样的:
(不知道的话真以为是画报。)
而且在算法数量上,和谷歌自己的Imagen是不一样的。Parti可以说是把“AI绘画”铺开到了一个新的高度。
就连谷歌AI负责人杰夫·迪恩(Jeff Dean)也发了好几条推特,玩得很开心:
可扩展至200亿个参数:更真实和“更智能”
其实Parti的能力不止于此。
得益于模型可以扩展到200亿个参数,一方面,它生成的图像更加细致逼真。
无论是短短的几个字,还是50多字的小段落,都能清晰的展现出来。
比如小提琴的背面,小提琴的背面。
或者根据梵高的《星空》描述的夜景。Ps,这一段有67个字。
结果Parti不在话下,我一个包把各种风格的图都给你画出来了~
这也是Parti的第二大能力。不仅细节很到位,风格也可以多变。
还有类似“浣熊穿着正装,戴着礼帽,拄着拐杖,拿着垃圾袋”的奇怪描述。它也可以做出一个完整的节目而不丢失细节。
在风格上,有梵高风格,埃及法老风格,像素风格,中国传统绘画风格,抽象风格...
有时它甚至会说双关语。
(蛤蟆啊,蛤蟆)
在具体的测试结果上,MS-COCO、本地化叙事(LN,4倍于长描述)和Parti上的FID评分都取得了最先进的结果。
尤其是在MS-COCO中,零样本的FID得分仅为7.23,微调FID得分为3.22,超过了之前的Imagen和DALL-E 2。
所有组件都是变压器。
一个月后,谷歌把AI画到了一个新的高度。因此,作者说,秘密很简单。
Parti主要把文本生成的图像看作是从序列到序列的建模。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出由文本变为图像。
在结构上,它的所有组件只有三个部分:编码器,解码器和图像标记器,所有这些都是基于标准的变压器。
首先,利用基于Transformer的图像标记ViT-VQGAN将图像编码成离散的标记序列。
然后通过《变形金刚》的编解码结构,将参数扩展到200亿。
以往对文字生成图像的研究可以分为两种思路,除了最早的甘。
一种是基于自回归模型。首先将文本特征映射到图像特征,然后利用类似Transformer的序列结构学习语言输入和图像输出的关系。
这种方法的一个关键部分是图像标记,它将每个图像转换成一系列离散的单元。比如DALL-E和CogView都采用了这种思路。
另一种是近年来进展频繁的路线——基于扩散的文本转图像模型,如DALL-E 2和Imagen。
他们不使用图像标记,而是使用扩散模型直接生成图像。可以看出,这些模型产生的图像质量更高,MS-COCO中零样本的FID评分更好。
Parti模型的成功证明了自回归模型可以用来改善文本生成图像的效果。
同时,Parti还引入并发布了新的基准测试——Parti PROMPTS,用于衡量模型在12个类别、11个挑战中的能力。
但是Parti还是有一定的局限性,研究人员也展示了一些bug:
比如关于负面描述没有表白~
没有香蕉的盘子和旁边没有橙汁的玻璃杯。
会犯一些常识性的错误,比如比例不合理。比如这张图,机器人比赛车高好几倍。
一个穿着赛车服、戴着黑色遮阳板的闪亮机器人骄傲地站在一辆F1赛车前。太阳落在城市的风景上。漫画书插图。
谷歌“滚你自己”
这个研究来自Google Research,团队大部分是中国人。
研究的核心人员有、徐、罗等。,他们目前都在谷歌从事AI相关的研究。
(Thang Luong在谷歌的学术引用高达20000+)
△左:许;;右:汤良
不过有意思的是,这和“说一句话让AI画画”是一样的,也是谷歌的Imagen。和Parti真的有点千丝万缕的联系。
Parti的GitHub项目文档中有提及:
感谢Imagen团队,他们在Imagen发布之前与我们分享了最新的完整结果。
他们在CF-guidance中的重要发现对最终的Parti模型特别有帮助。
Imagen的作者之一Burcu Karagol Ayan也参加了parti的项目。
(有点谷歌“自我滚动”的味道)
不仅如此,就连《隔壁DALL-E 2》的作者Aditya Ramesh也给Parti讨论了对MS-COCO的评价。
以及DALL-Eval的作者,也帮助了Parti数据的工作。
还有一点
“从文本生成图像”不仅仅是研究人员的宠儿。
在“玩”它的道路上,网友们也乐在其中(别太会动脑)。
前阵子Imagen画了一个宋代的“老虎穿VR”的图,直接演变成了一场AI画战。
△图:Imagen绘画
旅途、中途等。《来到新闻》参与。
dall e的画
甚至还有一个让沃尔多和达尔-E 2在一起的故事:
……
不过,回到这个Parti,好玩是好玩,但还是有网友提出了“直击灵魂”的问题:
什么时候能商业化?一个人“关起门来玩”一点都不好玩。