把声音和人脸之间的点点连接起来

2019-12-17 15:43:37
导读人工智能团队再次戏弄不可能的领域,并提供令人惊讶的结果。这个团队在新闻中发现了一个人的脸可能是什么样子,仅仅是基于声音。欢迎来到演讲2面。研究小组找到了一种方法,根据简短的音频剪辑来重建一些人非常粗略的肖像。这篇描述他们工作的论文是关于arxiv的,标题是“Speech2Face:学习声音背后的脸”。作者是吴泰贤,塔利·德克尔,金昌哲,英巴尔·莫斯里,威廉·弗里曼尼,迈克尔·鲁宾斯坦和沃伊切赫·

人工智能团队再次戏弄不可能的领域,并提供令人惊讶的结果。这个团队在新闻中发现了一个人的脸可能是什么样子,仅仅是基于声音。欢迎来到演讲2面。研究小组找到了一种方法,根据简短的音频剪辑来重建一些人非常粗略的肖像。

这篇描述他们工作的论文是关于arxiv的,标题是“Speech2Face:学习声音背后的脸”。作者是吴泰贤,塔利·德克尔,金昌哲,英巴尔·莫斯里,威廉·弗里曼尼,迈克尔·鲁宾斯坦和沃伊切赫·马图斯基。“我们在这项工作中的目标是研究从一个人说话的方式中我们可以推断出一个人的长相有多大。”

他们评估和量化他们的Speech2Face从音频重建如何和以何种方式类似于说话人的真实面部图像。

显然,作者们想要确保他们的意图是明确的,而不是试图把声音和那些实际说话的特定人的图像联系起来,因为“我们的目标不是预测准确面部的可识别图像,而是捕捉与输入语音相关的人的主要面部特征。”

在GitHub上的作者说,他们也认为在论文中讨论伦理考虑“由于面部信息的潜在敏感性”是很重要的。”.

他们在报纸上说他们的方法"无法从他们的声音中恢复人的真实身份(即,他们的脸部的准确图像)。这是因为我们的模型被训练以捕捉视觉特征(与年龄、性别等有关)。这对于许多个人是常见的,并且仅在有足够证据以将那些视觉特征与数据中的语音/语音属性连接的情况下。"

他们还说,该模型将产生平均外观(仅是平均外观),其特征视觉特征与输入语音相关。

快速公司的杰基·斯诺写了他们的方法。斯诺说,他们拍摄的数据集是由YouTube上的视频片段组成的。Speech2Face接受了科学家们的培训,内容涉及互联网上显示人们交谈的视频。他们创建了一个基于神经网络的模型,“从视频中学习与面部特征相关的声音属性”。

加雪,"现在,当系统听到新的声音叮咬时,AI可以使用它所学习的东西来猜测面部可能是什么样子。"

神经蜂房讨论了他们的工作:"从视频中,它们提取出语音-脸对,它们被输入到结构的两个分支中。使用预先训练的面部识别模型将图像编码成潜在向量,同时将波形以频谱图的形式馈送到语音编码器中,以便利用卷积架构的功率。将来自语音编码器的编码矢量馈送到面部解码器中以获得最终的面部重建。"

人们还可以得到一份关于他们的方法的精确报告,以及他们是如何用Packt上的一篇文章进行测试的:

“他们说,他们进一步评估了Speech2Face的重建方式,并对其进行了量化,直接从音频中获得结果,以及它与扬声器的真实面部图像有多么相似。为此,他们在AVSpeech数据集和VoxCeleb数据集上对其模型进行了定性和定量测试。”

他们的调查结果如何帮助现实世界的应用?他们说,"我们认为直接从语音预测面部图像可以支持有用的应用,例如基于说话者的语音将代表面部附加到电话/视频呼叫。"

为什么他们的工作内容:思维方式。"以前的研究已经探讨了从语音预测年龄和性别的方法,"说雪,"但是在这种情况下,研究人员声称他们也发现了与一些面部模式的相关性。"

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章