增强现实(AR)行业因其应用场景更加广阔,人们对其需求也更加强烈。苹果、谷歌、Meta以及微软等科技巨头纷纷看好AR行业是下一个大蓝海,拥有非常大的发展红利。
然而基于目前的技术,想要实现真正轻便的消费级AR产品,或许时日尚早。
于是,行业领先的AR/VR公司,纷纷在热销的VR产品上增加了See-Through功能,在扩充VR产品功能边界的同时,实现了VR设备在AR功能上的探索。
VR给用户提供了一个交互式虚拟三维空间,通过感知单元提供视觉、听觉、触觉等感官的模拟,让人进入完全沉浸的虚拟世界。
因此,VR需要用户使用一个特定的头显,以形成一个完全密闭的虚拟空间。
而See-Through则是打破了这种限制,让用户可以走出VR世界。
其通过相机采集周围环境的实时视图并通过屏幕进行显示,给人一种人眼能够直接透过头显看到周围真实世界的感觉,因此也被叫做透视功能。
在VR中,See-Through功能的最初目的是解决安全问题。当用户接近虚拟空间的边界时,See-Through功能将自动开始显示来自相机采集的实时图像,以增加用户对周围环境的感知。
通过这样的方式,让用户得以了解边界区域的真实环境,提高用户的安全系数。
带有See-Through功能的VR头显
同时,See-Through功能可以让用户在不摘除头显的情况下,实现与外部现实世界的行为交互,例如触摸和打开控制器,甚至签收快递、收发短信等等,增强了VR头显体验的可持续性。
另一方面,随着越来越多的实验性增强现实(AR)功能被集成到See-Through中,可使用户在VR设备上体验到更多AR功能,同时还允许用户对AR功能进行二次开发,极大地丰富了VR设备的实用性。
常见的See-Through实现方式主要有两种:光学透视(Optical See-Through, OST)和视频透视(Video See-Through, VST)。
1. 光学透视(OST)
真实世界是通过放置在用户眼前的半透明光学合成器看到的。光学合成器也被用来将计算机生成的图像反射到用户的眼睛里,从而将真实世界和虚拟世界结合起来。
光学透视的优点在于不易产生晕屏(cybersickness)的风险,同时还有着与真实世界接近的极高分辨率。
2. 视频透视(VST)
真实世界是通过相机捕捉到实时视图,然后与计算机图像技术结合在一起,呈现在不透明的显示器上。
使用视频透视,算法可以完全控制视觉集成,允许虚拟和真实物体之间的完全遮挡,甚至可以对真实物体进行更高级别的修改。
相比于光学透视(OST) ,视频透视(VST) 的主要优势有以下五点。
1 虚拟与真实物体的遮挡更容易控制
OST的一个基本问题是,由于光学合成器同时允许来自虚拟和真实世界的光源,虚拟物体通常不会对真实物体进行完全遮挡,这使得虚拟物体看起来像幽灵一样呈半透明状态。
相比之下,VST在融合真实图像和虚拟图像方面会更容易控制。由于都是以数字图像的形式提供信息,VST合成器可以逐像素地采用真实、虚拟或两者混合来模拟透明程度的方式,从而产生比OST更令人信服的遮挡效果。
2 视场(FOV)更大
光学系统中的畸变是光轴径向距离的函数,离视场中心越远畸变越大。对于OST,由于系统没有真实世界的数字图像,任何扭曲都必须通过光学方式进行纠正,从而增加了光学元件的设计复杂程度和成本,同时也增加了头显的重量。
VST可以通过数字图像处理的方法来消除图像的畸变,以较小的代价获取更大的视场。
3 虚拟和真实世界的延迟更容易匹配
OST提供了几乎实时的真实世界视图,但虚拟世界的视图或多或少总存在一定延迟,这种时间的不匹配可能会导致配准等问题,影响用户体验。
对于VST,可以通过延迟真实世界的视图,来匹配虚拟视图的延迟。换句话说,VST提供了一种减少或避免真实和虚拟图像时间不匹配问题的方法。
4 配准信息更加丰富
对于OST,系统关于用户头部位置信息的唯一来源是头部跟踪器。
而VST则提供了另一种信息来源:真实场景的数字图像。这种数字信息意味着VST可以通过检测图像中的特征,并使用这些特征来增加配准的准确性。
5 亮度匹配控制更加方便
OST由于允许用户直接看到真实世界,受到真实环境亮度的影响较大。如果真实环境太亮,现实世界会冲掉虚拟图像;如果真实环境太暗,则虚拟图像将会冲淡现实世界。
但对于VST而言,因为相机本身的动态响应有限,亮度控制就会相对更加容易。VST真实和虚拟图像都是由监视器生成,并且都经过了一定的动态范围压缩,因此能够更加方便地进行亮度匹配控制。
由于真实世界的视图是通过相机捕获的视频图像提供的,VST技术目前主要存在的难点问题有画面延迟、视觉差异以及配准问题等。
画面延迟是VST技术的一个难点问题,影响延迟的主要因素包含视频流数量、相机和显示器的分辨率以及硬件处理能力等。
随着用户对成像质量、帧率以及交互精度等方面的要求越来越高,如何降低延迟成为了VST技术的一个重点问题。
目前比较常见的降低延迟的手段是异步空间扭曲(Asynchronous Spacewarp,ASW)和异步时间扭曲(Asynchronous Timewarp,ATW)两项技术。
ASW技术的做法是,对图像的每一个像素点进行矢量运动估计,当用户位置发生移动时,通过两帧的帧差能够预测出下一帧。这样,当运动是平滑的,ASW技术就可以允许在性能较低的硬件上运行。
ASW插帧示意图
ATW技术也被称为重投影,它先根据用户当前位置的数据进行图像渲染,在此图像显示之前,再次捕获当前位置数据。
使用这些信息,通过数学计算修改渲染的图像以适应最新的数据。最后,修改后的图像显示在屏幕上。与最初呈现的图像相比,生成的图像更近,更准确地描述了显示时的位置。
通过ASW和ATW的结合,可以减少显示画面延迟,并将显示画面的帧率提升至90fps及以上。(ATW在AR中如何应用可参见早前文章《见缝插“帧”,这个方法让AR远离眩晕》,点击查看)
另外,提升硬件能力,如改善相机出图的物理延迟,以及提高计算机的运算能力等,也是降低画面延迟的重要突破方向。
在理想的增强现实(AR)系统中,用户的自然世界观感和通过显示器的增强视图之间不应存在任何可感知的差异。
但对于VST技术,用户对真实世界的视觉感知完全来自于采集相机和视觉显示器,不可避免地与人眼直接观看的结果有一定区别。
由于人眼与相机的视点天然存在差异,很可能会导致用户感知错误、手眼不协调等问题,引起用户不适。
研究人员最初提出的解决方法是,使用镜子来折叠光学路径(很像潜望镜),使得相机的视点与人眼的视点能够完全对应,矫正人眼与相机的视觉差异。
近期,一种更流行的做法是,通过在显示器前面增加透镜,并对透镜和显示器进行合理的布局和调试。这种方法可以将周边的光线重定向到显示器上,增大VST系统的视场(FOV),同时也实现了人眼与VST系统视觉差异的矫正。
使用镜子矫正视点示意图
使用透镜改善视觉差异示意图
另一方面,由于VST系统采集的真实世界数字图像存在着一定的像差、畸变等问题,这就要求VST技术能够提供良好的光学矫正功能,以矫正光学失真,使得最终的图像看起来更加真实自然。
配准问题是增强现实技术的核心,现实世界与虚拟世界的物体必须正确地相互对齐,才能带来较好的AR体验。对于VST技术,如上文所描述,可以通过控制延迟,减少真实与虚拟物体在时间上的对齐误差。
然而,在空间位置上获取正确的匹配关系和遮挡关系,仍然是一项富有挑战性的工作。
一种比较简单而有效的方式就是在环境中放置基准点,这些基准点可以是LED或者特殊标记。
北卡罗莱纳大学的研究人员在进行配准实验时,使用了彩色圆点作为基准点。
假定基准点的位置或模式是已知的,图像处理检测基准点的位置,然后使用这些位置进行校正,以执行正确的配准,甚至可以解决部分遮挡的问题。
而对于一些无法放置基准点的应用场景,可以使用模板匹配的方法来实现配准。
真实对象的模板图像是从各种视角拍摄的,这些模板用于在数字化图像中搜索真实对象。
一旦找到,虚拟线框就可以叠加在真实对象上。
另外,为了获取真实物体在场景中的深度信息,需要使用三维测距仪器或者立体视觉的方法进行动态估计,来辅助真实物体与虚拟物体在深度方向更好地对齐。
VST技术在VR产品上的应用,不仅可以提供更好的娱乐游戏体验,还可以向教育、医学等更具实用性的应用方向上发展。
用户对于AR领域的需求,或许可以通过VST技术作为桥梁,在VR产品上进行体现。这个时候,VR产品将逐步升级成为一种生产力工具,甚至有望成为如手机、电脑般的产品。
另一方面,VR行业的发展,必然会使得VST技术有着持续较高的关注度和研究价值,从而推动VST技术的发展,并不断攻克技术瓶颈。最终,达成将现实和虚拟结合到一个无法分辨现实和虚拟世界的程度。
参考资料:
[2] https://zhuanlan.zhihu.com/p/444749819
[3] 《A Review of Current, Complete Augmented Reality Solutions》
[4] 《A Survey of Augmented Reality》
[5] 《Toed-in vs Parallel Displays in Video See-Through Head-Mounted Displays for Close-Up View》
[6] https://xinreality.com/wiki/Asynchronous_Spacewarp
[7] 《Comparison of optical and video see-through, head-mounted displays》
原文始发于微信公众号(S Dream Lab):深度解读 | VR中的See-Through技术