----多模态融合是将不同模态的数据进行联合分析和融合,以实现更准确、更全面的信息理解,关键技术包括:特征提取、特征融合、决策融合及深度学习模型。XR (扩展现实)是一个用来描述结合了虚拟和真实元素的环境或交互行为的术语,通常包含了AR(增强现实)、VR(虚拟现实)、MR(混合现实),XR设备是元宇宙的出入口。
【多模态融合在Apple Vision上的应用】
----今年6月,苹果发布了其XR头显-Vision Pro,其手势追踪、眼球追踪结合语音控制的输入模式,为用户带来了前所未有的沉浸式体验,如指使臂。
苹果Vision Pro
----据苹果官网揭示,Vision Pro至少配置了12个摄像头、5个传感器和6个麦克风等共计23个传感器,可以监测手势、眼球、声音等多种信息,为其还单独配置了1颗R1芯片用于控制运算。根据试用者反馈,虽然没有手柄,但是操作感相当好,方便灵活、识别准确、没有明显时延、支持苹果os应用的空间布置互动,为此苹果还打出了【首个空间计算设备】的口号。
支持多模态输入的VisionOS系统
----而本质上,苹果这套互动输入系统,是多模态数据融合在XR设备上的一种应用。这里的多模态数据,包括了图像传感器(可见光/红外线)、MEMS麦克风、3D飞行时间(ToF)传感器、激光雷达、惯性传感器(陀螺仪、加速度计、IMU)等各种传感器,针对眼球、手势、声音、环境、景深、重力、动作等对象采集的数据。
- 数据采集后从中提取特征,比如图像数据中的颜色、纹理、形状等特征,语音数据中的频谱、梅尔频率倒谱系数等特征;
- 将不同模态的进行特征融合,以获得更全面的特征表示。融合方法可以是简单的加权平均,也可以是更复杂的神经网络模型,比如摄像头图像特征与景深特征融合,或者图像和陀螺仪、加速度的特征融合,以获取对手势空间定位动作更准确的高维特征;
- 又或在分类或识别任务中,将不同模态的信息决策进行融合,以获取相对更准确的结果,决策融合的方法可以是多数投票、加权投票、神经网络等,比如基于多数投票方法,根据图像决策为A,景深决策为B,加速度决策为A,最后取决策A;
- 而基于大量数据训练,可以获取深度学习模型,如卷积神经网络、循环神经网络等,对多模态数据进行学习和特征提取,从而实现更准确的信息理解。
达人根据Vision Pro反推出的MR
----而Vision Pro不计成本,狂砸一堆各类传感器和一颗专项服务的R1芯片,初步构建了高精准、低延迟的相关多模态数据融合和处理体系,带来了极佳的用户体验,基本克服了晕动症。不过鉴于其约2万5Rmb的售价,以及尚无杀手级应用入驻,对绝大多数消费者还是高不可攀的,用户数上不去,进一步影响了应用开发者的信心。然而对于多模态数据融合处理,则是一次成功的尝试!证明了深度的多模态数据融合可以大大提升XR设备的体验,并为未来XR设备的发展提供了参照案例。
----7月,Supernova Technologies 公司在 Nova UI 框架基础上,使用 Unity 在 Quest Pro 头显上,成功模拟苹果 Vision Pro 的 Gaze 界面,可以实现眼神+手势追踪控制互动,不过限于硬件配置不及Vision Pro豪横,故效果也要打个折,但可见Vision Pro这种多模态的输入互动模式在XR设备上具备可复制性,再下面就是如何用更低成本的传感器+更优秀的多模态数据算法+可接受的电能消耗,达到尽可能好的XR体验。
模拟VisionOS控制系统
----且多模态融合不仅能用在XR头显上。9月,PICO展示了其研发的新手柄,并对外发布了其自研的Centaur多模态融合追踪算法,通过多模态融合算法的加持,在不影响定位精准的前提下,大大减小了手柄的体积。
PICO多模态融合追踪算法加持的新手柄
【Meta的多模态公共数据AI模型:ImageBind】
----Meta于5月发布了开源多模态AI模型ImageBind,它可以整合不同形式的信息,包括文本、音频、图像、温度(红外)、深度和IMU数据等,嵌入到一个公共的向量空间中,以供搜索或进一步处理。人类会使用视觉、嗅觉、听觉、味觉和触觉来感知一切事物,ImageBind的诞生就是为了模拟人类感知,关键它还是开源的。
6类信息
----2023年上半年,GPT-4已经带来了太多震撼。而通过对齐6种模态,ImageBind可以实现一些仅靠文本的GPT-4无法实现的花式功能,比如:
- 跨模态检索:将其视为多媒体谷歌搜索
- 嵌入空间算术:无缝地组合不同的数据格式
- 生成:通过扩散将任何模态映射到其他任何模态
且使用方便,可通过约30行python代码使用该多模态Embedding API。
ImageBind官方宣传图
----ImageBind高度模仿人的感官,跨视觉、音频、文本、深度、热量和空间运动6种模态,同时支持把不同的模型嵌入叠加,构建诠释语义。比如,ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入,生成音频到图像的映射。
ImageBind的多模态检索
----通过叠加其他AI模型,比如同为Meta家的DINOv2、SAM、Animated Drawings等,进一步获得视觉特征提取、通用场景的图像分割、图像生成动画等更多能力,目前已经有通过文字、语音、图像等多模态信息输入通过AI模型产生3D虚拟物体及空间的实例。ImageBind为不同模型的学习提供了一个统一的公共特征空间。
----Meta公司名字源自“元宇宙”(Metaverse),其AI模型的一项主要功能就是服务于元宇宙的构建,而XR软硬件则是进出元宇宙的渠道。XR设备自带视觉、音频、文本、深度、热量和空间运动6种模态数据的采集处理,和ImageBind开源模型从使命到形式上有高度的契合度,未来可期。
各种GC模式
----多模态数据融合类大模型,更侧重于内容的组合检索、叠加生成,可以用于XR领域的内容检索生成、嵌入创作,支撑UGC、PGC乃至MGC,为丰富XR领域内容提供助力。
【小结】
----以上从硬件向、软件向各举了一个多模态融合技术在XR领域应用的例子。XR设备兼具图像、声音、景深、按键、动作,乃至热量、触觉、嗅觉、味觉、脑电波等多样化输入互动及模拟需求,同时需要组合处理及生成输出相应的XR领域内容物,让人的体验和虚拟人合一,现实与虚拟世界映射,多模态融合技术先天与其契合。随着XR、数字孪生、NFT、元宇宙等技术越来越多的走进生活与工作,越来越多元的需求离不开多模态融合技术的支持。XR与多模态融合技术相互促进成全,未来大有可为!
参考文献:
百家号-传感器专家网:每台23个传感器!苹果首款头显发布,这些科技将迎来新机遇!
百家号-爱文化的熊:ImageBind 新模型,超越 GPT-4,对齐文本、音频等 6 种模态!
= The End =
更多往期【墨谈】请点击:
【墨谈】从苹果VisionPro聊起,展望PICO 5(下)-展望PICO5
原文链接:【VR游戏网】https://vr.lxybaike.com/blog/35929.html,转载请注明出处。
请先
!