【墨谈】多模态融合在XR领域的应用

----多模态融合是将不同模态的数据进行联合分析和融合，以实现更准确、更全面的信息理解，关键技术包括：特征提取、特征融合、决策融合及深度学习模型。XR （扩展现实）是一个用来描述结合了虚拟和真实元素的环境或交互行为的术语，通常包含了AR（增强现实）、VR（虚拟现实）、MR（混合现实），XR设备是元宇宙的出入口。

【多模态融合在Apple Vision上的应用】

----今年6月，苹果发布了其XR头显-Vision Pro，其手势追踪、眼球追踪结合语音控制的输入模式，为用户带来了前所未有的沉浸式体验，如指使臂。

苹果Vision Pro

----据苹果官网揭示，Vision Pro至少配置了12个摄像头、5个传感器和6个麦克风等共计23个传感器，可以监测手势、眼球、声音等多种信息，为其还单独配置了1颗R1芯片用于控制运算。根据试用者反馈，虽然没有手柄，但是操作感相当好，方便灵活、识别准确、没有明显时延、支持苹果os应用的空间布置互动，为此苹果还打出了【首个空间计算设备】的口号。

支持多模态输入的VisionOS系统

----而本质上，苹果这套互动输入系统，是多模态数据融合在XR设备上的一种应用。这里的多模态数据，包括了图像传感器（可见光/红外线）、MEMS麦克风、3D飞行时间(ToF)传感器、激光雷达、惯性传感器（陀螺仪、加速度计、IMU)等各种传感器，针对眼球、手势、声音、环境、景深、重力、动作等对象采集的数据。

数据采集后从中提取特征，比如图像数据中的颜色、纹理、形状等特征，语音数据中的频谱、梅尔频率倒谱系数等特征；
将不同模态的进行特征融合，以获得更全面的特征表示。融合方法可以是简单的加权平均，也可以是更复杂的神经网络模型，比如摄像头图像特征与景深特征融合，或者图像和陀螺仪、加速度的特征融合，以获取对手势空间定位动作更准确的高维特征；
又或在分类或识别任务中，将不同模态的信息决策进行融合，以获取相对更准确的结果，决策融合的方法可以是多数投票、加权投票、神经网络等，比如基于多数投票方法，根据图像决策为A，景深决策为B，加速度决策为A，最后取决策A；
而基于大量数据训练，可以获取深度学习模型，如卷积神经网络、循环神经网络等，对多模态数据进行学习和特征提取，从而实现更准确的信息理解。

达人根据Vision Pro反推出的MR

----而Vision Pro不计成本，狂砸一堆各类传感器和一颗专项服务的R1芯片，初步构建了高精准、低延迟的相关多模态数据融合和处理体系，带来了极佳的用户体验，基本克服了晕动症。不过鉴于其约2万5Rmb的售价，以及尚无杀手级应用入驻，对绝大多数消费者还是高不可攀的，用户数上不去，进一步影响了应用开发者的信心。然而对于多模态数据融合处理，则是一次成功的尝试！证明了深度的多模态数据融合可以大大提升XR设备的体验，并为未来XR设备的发展提供了参照案例。

----7月，Supernova Technologies 公司在 Nova UI 框架基础上，使用 Unity 在 Quest Pro 头显上，成功模拟苹果 Vision Pro 的 Gaze 界面，可以实现眼神+手势追踪控制互动，不过限于硬件配置不及Vision Pro豪横，故效果也要打个折，但可见Vision Pro这种多模态的输入互动模式在XR设备上具备可复制性，再下面就是如何用更低成本的传感器+更优秀的多模态数据算法+可接受的电能消耗，达到尽可能好的XR体验。

模拟VisionOS控制系统

----且多模态融合不仅能用在XR头显上。9月，PICO展示了其研发的新手柄，并对外发布了其自研的Centaur多模态融合追踪算法，通过多模态融合算法的加持，在不影响定位精准的前提下，大大减小了手柄的体积。

PICO多模态融合追踪算法加持的新手柄

【Meta的多模态公共数据AI模型：ImageBind】

----Meta于5月发布了开源多模态AI模型ImageBind，它可以整合不同形式的信息，包括文本、音频、图像、温度（红外）、深度和IMU数据等，嵌入到一个公共的向量空间中，以供搜索或进一步处理。人类会使用视觉、嗅觉、听觉、味觉和触觉来感知一切事物，ImageBind的诞生就是为了模拟人类感知，关键它还是开源的。

6类信息

----2023年上半年，GPT-4已经带来了太多震撼。而通过对齐6种模态，ImageBind可以实现一些仅靠文本的GPT-4无法实现的花式功能，比如：

跨模态检索：将其视为多媒体谷歌搜索
嵌入空间算术：无缝地组合不同的数据格式
生成：通过扩散将任何模态映射到其他任何模态

且使用方便，可通过约30行python代码使用该多模态Embedding API。

ImageBind官方宣传图

----ImageBind高度模仿人的感官，跨视觉、音频、文本、深度、热量和空间运动6种模态，同时支持把不同的模型嵌入叠加，构建诠释语义。比如，ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入，生成音频到图像的映射。

ImageBind的多模态检索

----通过叠加其他AI模型，比如同为Meta家的DINOv2、SAM、Animated Drawings等，进一步获得视觉特征提取、通用场景的图像分割、图像生成动画等更多能力，目前已经有通过文字、语音、图像等多模态信息输入通过AI模型产生3D虚拟物体及空间的实例。ImageBind为不同模型的学习提供了一个统一的公共特征空间。

----Meta公司名字源自“元宇宙”(Metaverse)，其AI模型的一项主要功能就是服务于元宇宙的构建，而XR软硬件则是进出元宇宙的渠道。XR设备自带视觉、音频、文本、深度、热量和空间运动6种模态数据的采集处理，和ImageBind开源模型从使命到形式上有高度的契合度，未来可期。

各种GC模式

----多模态数据融合类大模型，更侧重于内容的组合检索、叠加生成，可以用于XR领域的内容检索生成、嵌入创作，支撑UGC、PGC乃至MGC，为丰富XR领域内容提供助力。

【小结】

----以上从硬件向、软件向各举了一个多模态融合技术在XR领域应用的例子。XR设备兼具图像、声音、景深、按键、动作，乃至热量、触觉、嗅觉、味觉、脑电波等多样化输入互动及模拟需求，同时需要组合处理及生成输出相应的XR领域内容物，让人的体验和虚拟人合一，现实与虚拟世界映射，多模态融合技术先天与其契合。随着XR、数字孪生、NFT、元宇宙等技术越来越多的走进生活与工作，越来越多元的需求离不开多模态融合技术的支持。XR与多模态融合技术相互促进成全，未来大有可为！

参考文献：

百家号-传感器专家网：每台23个传感器！苹果首款头显发布，这些科技将迎来新机遇！

百家号-爱文化的熊：ImageBind 新模型，超越 GPT-4，对齐文本、音频等 6 种模态！

= The End =

更多往期【墨谈】请点击：

【墨谈】浅聊XR设备无手柄操控方式

【墨谈】从苹果VisionPro聊起，展望PICO 5(下)-展望PICO5

【墨谈】从苹果VisionPro聊起，展望PICO5(上)-AVP赏析

【墨谈】XR眼镜发展趋势之我见

【墨谈】虚拟世界架构:从头号玩家的“绿洲”到小说的“废土”

【墨谈】Pico生态空间融合拓展畅想

【墨谈】我为Pico荐一策：规则空间、无限生态