2024年1 月,Patently Apple 发布了一份知识产权报告,标题为“一项新的 Apple 专利揭示了有关 Apple Vision Pro 在为 FaceTime 通话+ 创建逼真 3D 头像的注册过程的更多细节”。近日,美国专利商标局正式授予 Apple 一项专利,该专利扩展了在 Vision Pro 中创建用户的真实头像以在 Facetime 中使用的注册流程。
Apple 营销视频说明:“因为您佩戴 Apple Vision Pro 并且您的眼睛被遮盖,所以我们设计了一个系统,该系统使用先进的机器学习技术,在您进行 Facetime 通话时真实地呈现您的形象。当您在聊天时,人们看到的是你的眼睛、手和真实的表情。”
在苹果公司的专利背景中,他们指出现有技术可能无法准确或诚实地呈现电子设备用户当前(例如实时)外观的表示。例如,设备可以基于几分钟、几小时、几天甚至几年前获得的用户面部图像来提供用户的化身表示。这样的表示可能无法准确地表示用户当前(例如,实时)的外观,例如,当用户微笑时不将用户的化身显示为微笑或者不显示用户当前的胡须。因此,可能期望提供一种有效地提供用户的更准确、诚实和/或当前表示的手段。
对齐用户表示
Apple 授予的专利涵盖了生成一组值的设备、系统和方法,这些值表示用户面部在某个时间点的三维 (3D) 形状和外观,用于生成真实的用户表示(例如,头像)。
在一些实施方式中,可以相对于具有非平面形状(例如,曲线平面形状)的表面来定义该组值。该组值可以包括深度值,其定义面部的部分相对于这样的表面上的多个点(例如,部分圆柱形表面上的网格中的点)的深度。
例如,一个点的深度值可以定义面部的一部分位于 表面上该点的位置后面的深度D 1处,例如 沿着从该点开始的正交射线的深度D 1处。所描述的技术使用与现有RGBDA图像(例如,红-绿-蓝-深度-α图像)中的深度值不同的深度值,因为现有RGBDA图像定义相对于单个相机位置的内容深度,并且所描述的技术该专利中定义了相对于平面形状(例如,曲线平面形状)的表面上的多个点的深度。
使用具有相对于表面上的多个点定义的深度值的相对简单的值集可以实现多个优点。与使用 3D 网格或 3D 点云相比,该组值可能需要更少的计算和带宽,同时能够实现比 RGBDA 图像更准确的用户表示。此外,该组值可以以类似于现有格式(例如RGBDA图像)的方式被格式化/封装,这可以使得能够与基于此类格式的系统更有效地集成。
该专利中公开的各种实现包括调整用户的第一部分(例如,手)的第一3D表示的颜色的设备、系统和方法。使用用户的第二部分(例如,面部/头发)的样本3D表示来调整颜色。
在一些实施方式中,用户的第二部分的第一3D表示和样本3D表示之间不存在重叠(例如,一个表示显示脸部,另一个表示显示手)。可以通过过滤掉非皮肤数据(例如,头发、衣服等)来提高颜色调整精度。可以使用变换来调整颜色(例如,使用Monge-Kanorovich颜色转移技术来确定)。在一些实现中,样本表示中的阴影可能产生太暗的颜色调整,这可以通过仅采用数据的子集(例如,数据的最亮的25%)来解决。
一般而言,本专利中描述的主题的一个创新方面可以体现在方法中,该方法包括以下动作:在设备的处理器处获得图像的至少第一部分的预定三维(3D)表示。用户,其中预定3D表示与相对于用户的骨架表示定义的3D参考点相关联,获得对应于一段时间内的多个时刻的帧特定3D表示的序列,每个帧特定3D表示表示在该时间段中的多个时刻中的各个时刻处的用户的第二部分的表示以及与3D参考点相关联的每个特定于帧的3D表示,并且生成用户在该时间段中的多个时刻的组合3D表示该时间段,其中每个组合3D表示是通过基于对准将预定3D表示与相应帧特定3D表示组合来生成的,其中该对准基于3D参考点。
在一些方面,调整顶点包括使用指定的阿尔法值将与顶点相关联的至少一些高度值与针对相应的帧特定3D表示指定的高度值混合。在一些方面,调整顶点包括使用指定的阿尔法值将与顶点相关联的至少一些纹理值与针对相应帧特定表示指定的纹理值混合。在一些方面,由预定3D表示表示的第一部分表示用户的上身和头部。
苹果的专利图。图2示出了用户的至少一部分的三维(3D)表示的示例;无花果。图5A和5B示出了相对于用户的骨架表示定义的3D参考点的示例;和图。[0040] 图7示出了生成和显示用户面部的表示的部分的示例,
苹果的专利图。下面的图8示出了根据一些实现的可以基于预定表示数据和帧特定表示数据来生成用户的组合表示的系统流程图。
苹果的专利图。上面的图13是用于调整3D表示中的一种或多种颜色以生成组合3D表示的方法的流程图表示;如图。图14是用于调整3D表示中的一种或多种颜色以基于过滤所识别的部分来生成组合3D表示的方法的流程图表示。
译自:patentlyapple