【墨谈】多模态融合在XR领域的应用

----多模态融合是将不同模态的数据进行联合分析和融合,以实现更准确、更全面的信息理解,关键技术包括:特征提取、特征融合、决策融合及深度学习模型XR (扩展现实)是一个用来描述结合了虚拟和真实元素的环境或交互行为的术语,通常包含了AR(增强现实)、VR(虚拟现实)、MR(混合现实),XR设备是元宇宙的出入口。


【多模态融合在Apple Vision上的应用】

----今年6月,苹果发布了其XR头显-Vision Pro,其手势追踪、眼球追踪结合语音控制的输入模式,为用户带来了前所未有的沉浸式体验,如指使臂。

苹果Vision Pro

苹果Vision Pro

----据苹果官网揭示,Vision Pro至少配置了12个摄像头、5个传感器和6个麦克风等共计23个传感器,可以监测手势眼球声音等多种信息,为其还单独配置了1颗R1芯片用于控制运算。根据试用者反馈,虽然没有手柄,但是操作感相当好,方便灵活、识别准确、没有明显时延、支持苹果os应用的空间布置互动,为此苹果还打出了【首个空间计算设备】的口号。

支持多模态输入的VisionOS系统

支持多模态输入的VisionOS系统

----而本质上,苹果这套互动输入系统,是多模态数据融合在XR设备上的一种应用。这里的多模态数据,包括了图像传感器(可见光/红外线)、MEMS麦克风、3D飞行时间(ToF)传感器、激光雷达、惯性传感器(陀螺仪、加速度计、IMU)等各种传感器,针对眼球、手势、声音、环境、景深、重力、动作等对象采集的数据。

  • 数据采集后从中提取特征,比如图像数据中的颜色、纹理、形状等特征,语音数据中的频谱、梅尔频率倒谱系数等特征;
  • 将不同模态的进行特征融合,以获得更全面的特征表示。融合方法可以是简单的加权平均,也可以是更复杂的神经网络模型,比如摄像头图像特征与景深特征融合,或者图像和陀螺仪、加速度的特征融合,以获取对手势空间定位动作更准确的高维特征;
  • 又或在分类或识别任务中,将不同模态的信息决策进行融合,以获取相对更准确的结果,决策融合的方法可以是多数投票、加权投票、神经网络等,比如基于多数投票方法,根据图像决策为A,景深决策为B,加速度决策为A,最后取决策A;
  • 而基于大量数据训练,可以获取深度学习模型,如卷积神经网络、循环神经网络等,对多模态数据进行学习和特征提取,从而实现更准确的信息理解。
达人根据Vision Pro反推出的MR

达人根据Vision Pro反推出的MR

----而Vision Pro不计成本,狂砸一堆各类传感器和一颗专项服务的R1芯片,初步构建了高精准、低延迟的相关多模态数据融合和处理体系,带来了极佳的用户体验,基本克服了晕动症。不过鉴于其约2万5Rmb的售价,以及尚无杀手级应用入驻,对绝大多数消费者还是高不可攀的,用户数上不去,进一步影响了应用开发者的信心。然而对于多模态数据融合处理,则是一次成功的尝试!证明了深度的多模态数据融合可以大大提升XR设备的体验,并为未来XR设备的发展提供了参照案例。

----7月,Supernova Technologies 公司在 Nova UI 框架基础上,使用 Unity 在 Quest Pro 头显上,成功模拟苹果 Vision Pro 的 Gaze 界面,可以实现眼神+手势追踪控制互动,不过限于硬件配置不及Vision Pro豪横,故效果也要打个折,但可见Vision Pro这种多模态的输入互动模式在XR设备上具备可复制性,再下面就是如何用更低成本的传感器+更优秀的多模态数据算法+可接受的电能消耗,达到尽可能好的XR体验。

模拟VisionOS控制系统

模拟VisionOS控制系统

----且多模态融合不仅能用在XR头显上。9月,PICO展示了其研发的新手柄,并对外发布了其自研的Centaur多模态融合追踪算法,通过多模态融合算法的加持,在不影响定位精准的前提下,大大减小了手柄的体积。

PICO多模态融合追踪算法加持的新手柄

PICO多模态融合追踪算法加持的新手柄


【Meta的多模态公共数据AI模型:ImageBind】

----Meta于5月发布了开源多模态AI模型ImageBind,它可以整合不同形式的信息,包括文本、音频、图像、温度(红外)、深度和IMU数据等,嵌入到一个公共的向量空间中,以供搜索或进一步处理。人类会使用视觉、嗅觉、听觉、味觉和触觉来感知一切事物,ImageBind的诞生就是为了模拟人类感知,关键它还是开源的。

6类信息

6类信息

----2023年上半年,GPT-4已经带来了太多震撼。而通过对齐6种模态,ImageBind可以实现一些仅靠文本的GPT-4无法实现的花式功能,比如:

  • 跨模态检索:将其视为多媒体谷歌搜索
  • 嵌入空间算术:无缝地组合不同的数据格式
  • 生成:通过扩散将任何模态映射到其他任何模态

且使用方便,可通过约30行python代码使用该多模态Embedding API。

ImageBind官方宣传图

ImageBind官方宣传图

----ImageBind高度模仿人的感官,跨视觉、音频、文本、深度、热量和空间运动6种模态,同时支持把不同的模型嵌入叠加,构建诠释语义。比如,ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入,生成音频到图像的映射。

ImageBind的多模态检索

ImageBind的多模态检索

----通过叠加其他AI模型,比如同为Meta家的DINOv2、SAM、Animated Drawings等,进一步获得视觉特征提取、通用场景的图像分割、图像生成动画等更多能力,目前已经有通过文字、语音、图像等多模态信息输入通过AI模型产生3D虚拟物体及空间的实例。ImageBind为不同模型的学习提供了一个统一的公共特征空间。

----Meta公司名字源自“元宇宙”(Metaverse),其AI模型的一项主要功能就是服务于元宇宙的构建,而XR软硬件则是进出元宇宙的渠道。XR设备自带视觉、音频、文本、深度、热量和空间运动6种模态数据的采集处理,和ImageBind开源模型从使命到形式上有高度的契合度,未来可期。

各种GC模式

各种GC模式

----多模态数据融合类大模型,更侧重于内容的组合检索、叠加生成,可以用于XR领域的内容检索生成、嵌入创作,支撑UGC、PGC乃至MGC,为丰富XR领域内容提供助力。


【小结】

----以上从硬件向、软件向各举了一个多模态融合技术在XR领域应用的例子。XR设备兼具图像、声音、景深、按键、动作,乃至热量、触觉、嗅觉、味觉、脑电波等多样化输入互动及模拟需求,同时需要组合处理及生成输出相应的XR领域内容物,让人的体验和虚拟人合一,现实与虚拟世界映射,多模态融合技术先天与其契合。随着XR、数字孪生、NFT、元宇宙等技术越来越多的走进生活与工作,越来越多元的需求离不开多模态融合技术的支持。XR与多模态融合技术相互促进成全,未来大有可为!


参考文献:

百家号-传感器专家网:每台23个传感器!苹果首款头显发布,这些科技将迎来新机遇!

百家号-爱文化的熊:ImageBind 新模型,超越 GPT-4,对齐文本、音频等 6 种模态!

= The End =


更多往期【墨谈】请点击:

【墨谈】浅聊XR设备无手柄操控方式

【墨谈】从苹果VisionPro聊起,展望PICO 5(下)-展望PICO5

【墨谈】从苹果VisionPro聊起,展望PICO5(上)-AVP赏析

【墨谈】XR眼镜发展趋势之我见

【墨谈】虚拟世界架构:从头号玩家的“绿洲”到小说的“废土”

【墨谈】Pico生态空间融合拓展畅想

【墨谈】我为Pico荐一策:规则空间、无限生态

【墨谈】元宇宙畅想--阿杰的一天(叄.夜之篇)

【墨谈】元宇宙畅想--阿杰的一天(贰.日之篇)

【墨谈】元宇宙畅想--阿杰的一天(壹.晨之篇)

【墨谈】Pico新人发家RPG手册v1.0

【墨谈】元宇宙的模样-基于八大要素的分析浅见

【墨谈】一种初阶元宇宙方案可行性探讨

【墨谈】--国内NFT平台鸟瞰

请为这个游戏评分(刷新后可以更改评分)
[评分人数: 0 平均分: 0]

原文链接:【VR游戏网】https://vr.lxybaike.com/blog/35929.html,转载请注明出处。

0
分享海报

评论0

请先

站点公告

限时特惠,即将截止(终身会员只要88元) 开通会员,所有游戏都可以免费下载 客户端上线啦!开通本站会员的好处: 1.本站游戏更新及时,每日更新,同步更新商店游戏 2.服务有保证,遇到问题可以咨询客服解决 3.客户端一键自动安装游戏,小白也能方便操作 查看详情
没有账号?注册  忘记密码?

社交账号快速登录