日前,Meta Reality Labs的人工智能研究人员和音频专家,以及德克萨斯大学奥斯汀分校的研究人员为开发者带来三种全新的视听理解模型:Visual-Acoustic Matching,Visually-Informed Dereverberation,以及VisualVoice。所述模型专注于视频中的人类声音,并旨在帮助行业以更快的速度实现真正的沉浸式现实。
无论是参加元宇宙派对,还是在客厅通过XR设备浏览家庭电影,声学都会影响相关时刻的体验。Meta表示,他们相信AI将是提供真实声学质量的核心。
这三种模型都与团队的视听感知型AI研究密切相关。他们设想的未来是:你可以穿戴AR眼镜,并重新体验画面和声音都如同你站在从有利位置获取的一样的体验。或者说,当你在虚拟世界畅玩游戏时,你不仅可以沉浸在图形之中,而且能够沉浸在声音之中。
1. Visual-Acoustic Matching
如果你经历过音频与画面不一致的视频,你就会明白Visual-Acoustic Matching/视觉声学匹配的重要程度。匹配从不同环境获取的音频和视频一直都是挑战。
为了解决这个问题,Meta创建了一个名为AViTAR的自监督视觉-声学匹配模型,它可以调整音频以匹配目标图像的空间。尽管缺乏声学非匹配音频和未标记数据,但自监督的训练objective可以从in-the-wild网络视频中学习声学匹配。
团队感兴趣的一个未来用例涉及重温过去的记忆。想象一下,你届时可以穿戴一副AR眼镜。然后对于你看到的任何对象,你都可以选择播放与之相关的记忆。比方说拿起芭蕾舞短裙,然后看看孩子小时候的芭蕾舞表演全息图。这时,音频消除了混响,画面看起来和听起来就像你当时坐在观众席一样。
2. Visually-Informed Dereverberation
从视听观察中消除语音的混响。人类扬声器周围的视觉环境揭示了有关房间几何形状、材料和扬声器位置的重要线索,所有这一切都会影响音频流中的精确混响效果。通过Visually-Informed Dereverberation这种基于视觉信息的去混响技术,系统可以根据观察到的声音和视觉场景来学习去除混响,从而消除当天录制视频的多余音频。
比如说,当你录制孩子小时候的芭蕾舞表演时,周围或许会有人讨论或其他嘈杂声。但系统可以通过去混响技术去除这种多余的音频,仅保留孩子表演芭蕾舞时的所有相关声音,例如背景音乐。通过这种方式,全息体验的沉浸感将能大大增强。
VisualVoice通过学习未标记视频中的视觉和听觉线索来实现视听语音分离,其学习方式类似于人们掌握新技能的方式(多模式)。
想象一下,你能够与来自世界各地的同事在元宇宙中参加一个小组会议,当你在虚拟空间中移动并加入较小的小组时,混响和声学会相应地调整。VisualVoice能够很好地应对各种场景的真实世界视频挑战。
相关论文:Visual Acoustic Matching
相关论文:Learning Audio-Visual Dereverberation
相关论文:VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency
艾邦建有AR/VR产业链微信群,目前有HTC、PICO、OPPO、亮亮视野、光粒科技、影创、创维、佳视、谷东科技、歌尔、立讯精密、欣旺达、乐镜、耐德佳、联创电子、至格科技、灵犀微光、惠牛科技、舜宇光学、广景视睿、珑璟光电、水晶光电、京东方、海信视像、科煦智能、阿科玛、金发科技、雅柏工程材料、思立可、新安天玉、四方超轻、大族激光、发那科、承熹机电等加入,也欢迎大家长按下方图片识别二维码加入微信群:
原文始发于微信公众号(艾邦VR产业资讯):Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验