日前,Meta Reality Labs的人工智能研究人员和音频专家,以及德克萨斯大学奥斯汀分校的研究人员为开发者带来三种全新的视听理解模型:Visual-Acoustic Matching,Visually-Informed Dereverberation,以及VisualVoice。所述模型专注于视频中的人类声音,并旨在帮助行业以更快的速度实现真正的沉浸式现实。
无论是参加元宇宙派对,还是在客厅通过XR设备浏览家庭电影,声学都会影响相关时刻的体验。Meta表示,他们相信AI将是提供真实声学质量的核心。
这三种模型都与团队的视听感知型AI研究密切相关。他们设想的未来是:你可以穿戴AR眼镜,并重新体验画面和声音都如同你站在从有利位置获取的一样的体验。或者说,当你在虚拟世界畅玩游戏时,你不仅可以沉浸在图形之中,而且能够沉浸在声音之中。

Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验

1. Visual-Acoustic Matching
如果你经历过音频与画面不一致的视频,你就会明白Visual-Acoustic Matching/视觉声学匹配的重要程度。匹配从不同环境获取的音频和视频一直都是挑战。
为了解决这个问题,Meta创建了一个名为AViTAR的自监督视觉-声学匹配模型,它可以调整音频以匹配目标图像的空间。尽管缺乏声学非匹配音频和未标记数据,但自监督的训练objective可以从in-the-wild网络视频中学习声学匹配。
团队感兴趣的一个未来用例涉及重温过去的记忆。想象一下,你届时可以穿戴一副AR眼镜。然后对于你看到的任何对象,你都可以选择播放与之相关的记忆。比方说拿起芭蕾舞短裙,然后看看孩子小时候的芭蕾舞表演全息图。这时,音频消除了混响,画面看起来和听起来就像你当时坐在观众席一样。

Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验

2. Visually-Informed Dereverberation

Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验

从视听观察中消除语音的混响。人类扬声器周围的视觉环境揭示了有关房间几何形状、材料和扬声器位置的重要线索,所有这一切都会影响音频流中的精确混响效果。通过Visually-Informed Dereverberation这种基于视觉信息的去混响技术,系统可以根据观察到的声音和视觉场景来学习去除混响,从而消除当天录制视频的多余音频。
比如说,当你录制孩子小时候的芭蕾舞表演时,周围或许会有人讨论或其他嘈杂声。但系统可以通过去混响技术去除这种多余的音频,仅保留孩子表演芭蕾舞时的所有相关声音,例如背景音乐。通过这种方式,全息体验的沉浸感将能大大增强。
3. VisualVoice
VisualVoice通过学习未标记视频中的视觉和听觉线索来实现视听语音分离,其学习方式类似于人们掌握新技能的方式(多模式)。
想象一下,你能够与来自世界各地的同事在元宇宙中参加一个小组会议,当你在虚拟空间中移动并加入较小的小组时,混响和声学会相应地调整。VisualVoice能够很好地应对各种场景的真实世界视频挑战。
相关论文:Visual Acoustic Matching
相关论文:Learning Audio-Visual Dereverberation
相关论文:VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency
文章来源:映维网news.nweon.com
Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验
艾邦建有AR/VR产业链微信群,目前有HTC、PICO、OPPO、亮亮视野、光粒科技、影创、创维、佳视、谷东科技、歌尔、立讯精密、欣旺达、乐镜、耐德佳、联创电子、至格科技、灵犀微光、惠牛科技、舜宇光学、广景视睿、珑璟光电、水晶光电、京东方、海信视像、科煦智能、阿科玛、金发科技、雅柏工程材料、思立可、新安天玉、四方超轻、大族激光、发那科、承熹机电等加入,也欢迎大家长按下方图片识别二维码加入微信群:
Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验
点击下方图片加入通讯录
Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验

 推荐

AR/VR新闻合集:联合光电|京东方|腾讯|Meta等

Meta为一体式VR头显开发定制芯片

受Quest 2销售的推动,Meta 一季度AR/VR收入增长35%

BB更薄了——鸿蚁光电推出菲涅尔光场Birdbath AR光学系列模组

The original article was first published on the WeChat official account (Aibang VR Industry News):Meta研究员开发三种全新视听理解模型,提升AR/VR沉浸式视听体验

艾邦建有AR/VR产业链微信群,目前有HTC、PICO、OPPO、亮亮视野、光粒科技、影创、创维、佳视、歌尔、立讯精密、多哚(纳立多)、欣旺达、耐德佳,联创电子、至格科技、灵犀微光、舜宇光学、广景视睿、珑璟光电、京东方、海信视像、科煦智能、阿科玛、金发科技、思立可、新安天玉、四方超轻、大族激光、发那科、承熹机电等加入,也欢迎大家长按下方图片识别二维码加入微信群:
Document Download
Welcome to join by clicking hereAR/VR DirectoryCurrently, there are more than 3000 members, including companies such as GoerTek, HTC, OPPO, Skyworth, PICO, ByteDance, Black Shark, Lenovo, Nreal, Lynx, Luxon, Lingxi MicroLight, Luxshare Precision, Leading Ideal, OFILM, Huaqin, Wentai, Luxshare, Lumus, Sisvel, and Shunyu, among others. Click on the keywords below for filtering.
en_USEnglish