Meta又放大招了!VR新模型可以像人一样“读”懂语音

2022-07-01 17:56:59   编辑:小美
导读无论是在超宇宙中聚会,还是在客厅里戴着增强现实(AR)眼镜观看家庭电影,音效对用户的沉浸式体验都至关重要。

说到AR和VR体验,声音体验是最重要的部分。

无论是在超宇宙中聚会,还是在客厅里戴着增强现实(AR)眼镜观看家庭电影,音效对用户的沉浸式体验都至关重要。

不,Meta AI与Meta Reality Lab的音频专家合作,并与德克萨斯大学奥斯汀分校的研究人员合作,共同推出了三个开源模型,用于同时分析视频中的人声和环境声音。

“我们正在尝试建立这样的MR和VR场景,我们相信人工智能将为每一个沉浸式环境提供匹配的音质,”他们说。

人体所处的物理环境不同,人耳感知的声音感知效果也不同。

比如大场地的演唱会,和客厅的声音就大不一样。这是因为物理空间的几何形状、该区域的材料和表面以及声音来源的接近程度都会影响我们听到音频的方式。

因此,需要AI模型来理解我们的环境信息,从而将声音感知与视觉信息进行匹配。

Meta的研究主要包括三个模型,即视觉声学匹配模型、视觉告知去混响模型和音视频分离模型。

同时,研究成果还在CVPR 2022论坛上做了5分钟演讲,也就是说TOP5中含金量高的论文都有这个待遇。

首先,视声匹配模型可以将视频中的音频转化为目标环境中的声学效果。给定目标环境的图像和源音频的波形,模型可以重新合成音频以匹配目标房间的声学。

然后是我们的基于视觉的音频去混响模型(VIDA),它可以根据观察到的声音和视觉场景来学习消除混响。

视觉语音模型可以跨模型分离音频和视频。

以下是这些模型的具体操作流程。

以及视觉和听觉的完美盛宴。

众所周知,音频与场景不符的视频会极大地损害我们的感知。

在过去,从不同的环境中获取音频和视频并进行匹配一直是一个挑战。

声学模拟模型可用于生成房间脉冲响应,以再现房间的声学效果,但这只能在空间的几何形状(通常以3D网格的形式)和材料属性已知的情况下才能实现。然而,在大多数情况下,这些信息是不可用的。

当然,我们也可以仅从特定房间内捕获的音频来估计声学特性,但这样只能获得非常有限的声学信息,通常也不会产生很好的效果。

为了解决这些挑战,研究人员创造了一种自我监督的视觉-听觉匹配模型,称为AViTAR。

它可以调整音频以匹配目标图像的空间。研究人员使用了一种跨模态变压器模型,其中输入由图像和音频组成,允许变压器执行跨模态推理,并生成与视觉输入匹配的真实音频输出。

自监督训练目标从外部网络视频中学习声学匹配,尽管它们缺乏声学不匹配的音频和未标记的数据。

研究人员使用了两个数据集来构建这项任务。第一个数据集是基于与SoundSpaces的合作,这是他们在2020年开放的人工智能视听平台。

基于AI Habitat,SoundSpaces可以将来自Replica和Matterport3D数据集的高保真、逼真的声源模拟插入到各种真实世界中。

第二个数据集由29万个公开的英文视频组成,这些视频片段的内容是人们发表的3到10秒的演讲。

对于这两个数据集,研究者更关注室内环境下的发音。因为这些声音大部分可能与未来的很多场景用例有关,也因为人类对混响将如何影响声音有很强的先验知识,

研究人员把“麦克风和摄像头要放在一起,远离声源”作为视频筛选的标准。因为你听到的声音可能会根据声源的位置和人或麦克风的位置而有所不同。

对于在线视频,研究人员必须克服的一个挑战是,他们只有与目标环境声学相匹配的音频。

因此引入了“失配”的概念,即先消除混响。然后将音频与另一个环境的脉冲响应混合,使音效随机化,并添加噪声,以创建内容相同但音效不同的音频。

研究人员在两个数据集上验证了这一模型,并根据三个标准衡量生成音频的质量,包括是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量。

同时,他们也想看看人类是如何评价模型的性能的。评价标准是音效与参考图像是否匹配。

结果表明,该模型成功地将人的语音转换成图像描述的各种真实场景,优于传统的纯音频声学匹配。

对于视觉-听觉匹配,研究人员感兴趣的主题之一是重温过去的记忆。想象一下,如果你能戴上一副ar眼镜,你记忆中经历过的场景就会悄悄浮现在你眼前。

例如,如果你拿起一件芭蕾舞裙,你可以看到你孩子芭蕾舞表演的全息图。音频消除了混响,听起来就像你在观众座位上所经历的一样。

太精彩了!

使用视觉信息来消除混响。

下一个问题是,去混响。

虽然在某些场景下,加入一些混响音效有助于让声音和视觉信息更好的匹配,但是在语音识别领域,去除混响是比较常见的。

混响会在环境中的表面和物体之间发生反射,这种反射的后果会反映到人的耳朵里,即音质降低,自动语音识别的准确率会受到严重影响。

通过去混响,可以尽可能地剥离环境影响,并且可以更容易地识别和增强语音。例如,要为有听力障碍的人生成更准确的字幕,就需要对声源进行去描述。

过去,去混响方法通常基于音频模式,这不能理解环境的完整声学特性。它更多地取决于人类语言的先验知识,而不是周围的环境。

为了将这一过程与周围环境相结合,有必要结合更多的维度信息,例如视觉信息。

结合视觉信息的混响去除模型称为“VIDA”,它根据观察到的声音和视觉流来学习混响去除。这些视觉信息包括房间的几何形状、材料和声源位置等。,这些都会影响音频流中反映的混响效果。

有了这个想法,我们想从一个特定的地方获得混响音频,并从房间中提取声音效果。

研究人员开发了一个大规模的训练数据集,使用真实语音进行渲染。

在虚拟和真实图像上的演示表明,VIDA在语音增强、语音识别和说话人识别方面达到了SOTA性能,与传统的纯音频方法相比有了很大的提高。这对于在AR和VR应用中建立逼真的体验非常重要。

VisualVoice:通过看和听来理解发音。

在复杂的环境中,人类比AI更能理解言语的含义,因为我们不仅用耳朵,还用眼睛。

比如,当我们看到某人的嘴在动,我们可能会直觉地知道,我们听到的声音一定是这个人发出的。

Meta正在研究一个新的AI对话系统,就是让AI也学习这个技能,识别对话中所见所闻之间的微妙关联。

VisualVoice的学习方式类似于人类学习掌握新技能的方式。通过从未标记的视频中学习视觉和听觉线索,可以分离视听语音。

对于机器来说,这创造了更好的感知,同时,人类的感知也会得到提升。

想象一下,能够与来自世界各地的同事一起参加超宇宙中的小组会议。当他们在虚拟空间中移动时,他们将加入一个更小的小组会议。在此期间,场景中的声音混响和音色会根据环境进行相应的调整。

的确,目前的AI模型在视频和图像理解方面做得很好。

但为了让用户有“哇”的体验,我们需要一个“多模式的AI模型”。

即可以同时获取音频、视频和文本信息,对环境有更丰富的认识。

目前AViTAR和VIDA只支持单一图像,上市还有很长的路要走。

“未来,我们希望尝试使用视频和其他动态来捕捉空间的声学特征。这将有助于我们更接近我们的目标,即创建一个理解真实世界环境以及人们如何体验它们的多模式AI”。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章