4 月中旬,Meta 的马克·扎克伯格宣布了新的基于 AI 的虚拟助手功能。一个月后,Meta 获得了一项专利,该专利专注于通过基于客户端流程和服务器端流程的混合架构为未来的 Quest 头显和智能眼镜添加数字助理,其中部分使用 AI。更具体地说,该专利涵盖一种方法,包括在用户和助手 xbot 之间的对话会话期间,由头戴式设备通过助手 xbot 向头戴式设备的用户呈现建议,其中,该建议与与助手 xbot 相关联的助手系统要执行的多个动作相关联,在对话会话期间,由头戴式设备访问来自头戴式设备的惯性测量单元 (IMU) 传感器的信号,通过设备上的头部手势检测模型仅基于来自 IMU 传感器的信号确定用户在对话会话期间执行的头部手势,以及由助手系统在头戴式设备上执行的多个动作中执行第一个动作,其中,第一个动作是基于对话会话期间确定的头部手势选择的。
使用惯性测量单元信号检测头部动作
未来的 Meta 数字助理系统可能会通过基于客户端流程和服务器端流程的混合架构来协助用户。
在特定实施例中,辅助系统可使佩戴头戴式设备(例如 Quest VR 头戴式设备或智能眼镜)的用户能够使用头部手势做出响应。辅助系统可通过使用客户端头部手势检测模型检测头部手势并将检测到的头部手势与其预定义指示相关联来理解这种响应。头部手势检测模型可仅使用来自头戴式设备的惯性测量单元 (IMU) 传感器的输入来检测头部手势。客户端头部手势检测模型能够以低延迟和低功耗推断用户头部手势(例如点头、左右摇晃等)。
在特定实施例中,头部姿势检测可由其他系统而非辅助系统执行。作为示例而非限制,客户端系统(例如,头戴式设备)单独可检测头部姿势并将检测到的头部姿势提供给辅助系统或在客户端系统上执行的另一个应用程序。
作为另一个示例(但不限于),虚拟现实 (VR) 系统可以在用户佩戴 VR头显时检测头部姿势,并将检测到的头部姿势提供给辅助系统或在 VR 头显上执行的另一个应用程序。作为另一个示例(但不限于),增强现实 (AR) 系统可以在用户佩戴 AR 设备时检测头部姿势,并将检测到的头部姿势提供给辅助系统或在 AR 设备上执行的另一个应用程序。
在特定实施例中,在用户与助手 xbot 之间的对话会话期间,助手系统可通过头戴式设备通过助手 xbot 向头戴式设备的用户呈现建议。该建议可与与助手 xbot 相关联的助手系统要执行的多个动作相关联
下面的Meta 专利图 12示出了示例人工神经网络(“ANN”)#1200;Meta 专利图 2示出了助手系统的示例架构。在特定实施例中,助手系统可协助用户获取信息或服务。助手系统 140 可使用户能够通过各种模态(例如,音频、语音、文本、视觉、图像、视频、手势、运动、活动、位置、方向)的用户输入在有状态和多轮对话中与助手系统交互,以接收来自助手系统的帮助。作为示例而非限制,用户输入可包括基于用户语音的音频输入(例如,口头命令),其可由客户端系统上的系统音频 API(应用程序编程接口)处理。系统音频 API 可执行包括回声消除、噪声消除、波束形成、自用户语音激活、说话者识别、语音活动检测 (VAD) 和/或任何其他合适的声学技术的技术,以生成助手系统易于处理的音频数据。在特定实施例中,辅助系统 140 可以支持单模输入(例如,仅语音输入)、多模输入(例如,语音输入和文本输入)、混合/多模输入或它们的任何组合。
Meta 的专利下图 5 展示了具有矢状面、额状面和横状面的示例人体头部;图 6 展示了人体头部的示例运动。
Meta 的专利图 7 示出了基于头部手势检测的用户协助的示例序列图;图 8C-8E 示出了响应上下矢状头部点头而采取行动的示例场景。
Meta 的专利图 10A-10D 示出了响应左右横向摇头而采取行动的另一个示例场景。图 10A 示出了佩戴 VR 头显 #130 a 的用户 #1010正在玩 VR 游戏。用户的电话 #130 b 可能在桌子上。用户的电话可能是 VR 头显的配套设备。图 10B 示出了辅助系统 #140 通过 VR 头显对用户说“你哥哥给你打电话了。你想接听吗?#1020”。图 10C 示出了用户摇头。图 10D 示出了辅助系统检测到摇头手势。然后,辅助系统可以确定用户不想在玩游戏时接听电话。因此,辅助系统可以在电话上执行拒绝接听电话的操作。辅助系统还可以通过 VR 头显对用户说“好的,将挂断电话。#1030”
译自:patentlyapple