来源:映维网
智能眼镜发展以来眼动追踪技术一直是一个被中国AR/VR行业严重低估的技术,眼动追踪至今还没有进入主流的公众视野。大多数业内人士对眼动追踪技术的应用可能只是停留在交互技术(眨眼),或者用于做心理学(认知)分析的仪器,殊不知眼动追踪技术对于智能眼镜走向消费者有着重要的战略意义。
作者:陈涛,武汉天蝎科技创始人(微信:ct312036931)
接下来我通过眼动发展现状,中美AR/VR眼动追踪专利数对比,眼动追踪应用,眼动追踪技术来进行讲解。
一、眼动发展现状
1.眼动追踪融资情况
2014年末,三星投资了FOVE,主打眼球追踪的VR头盔;
2016年10月,Google收购专注于眼球追踪的初创公司Eyefluence,布局AR交互;
2017年初Facebook旗下Oculus确认收购TheEye Tribe,将眼球追踪技术改善产品;
2017年6月,苹果公司收购了德国计算机视觉公司SensoMotoric Instruments(SMI),打造苹果AR眼镜;
高通和英伟达则选择与七鑫易维合作,专注VR底层的优化;
另一方面巨头们也一直源源不断地提供在智能眼镜上眼动追踪技术的实施方案的国际专利。
2.眼动追踪眼镜硬件情况
关于眼动追踪技术及包含眼动追踪功能的智能眼镜的汇总眼镜名称/技术名称年份公司名称地区详细描述FOVE头盔2016FOVE日本三星投资了FOVE,主打眼球追踪的VR头盔;Jins Meme智能眼镜2018Jins日本通过镜框和鼻托上的三个 EOG 传感器来实现跟踪眼球、监测眨眼次数等功能太阳能眼球追踪技术2018达特茅斯学院
DartNets(网络与普适系统)实验室
利用近红外光NIR实现眼动追踪,减小AR眼镜尺寸The Eye Tribe眼动追踪盒子2017TheEye Tribe丹麦TheEye Tribe还研发了一种名为视网膜凹状渲染(FoveatedRendering)的技术,大大降低了计算机的运算量,2017年初Facebook旗下Oculus确认收购 2019高通美国集成Tobii眼动追踪装置 2013Eye fluence美国核心技术是眼球追踪技术,可自然地动动眼睛将意识转化为动作。2016年被谷歌收购,谷歌后续可能会推出带有眼动追踪的VR一体机青研Eye Control眼动测试系统 上海青妍科技中国眼动仪是由红外摄像头,高精度测量硬件,以及配备相关算法的软件系统组成,其原理是利用图像处理技术,使用能锁定眼镜的红外摄像头,通过摄入从人眼角膜和瞳孔反射的红外线连续的记录视线变化,对应到屏幕的相对位置,从而达到记录分析视线追踪过程的目的HTC VivePro Eye2019HTC中国台湾集成了眼球追踪功能。借助这项技术,用户在进行某些操作的时候,可以仅凭凝视、转动眼球等动作来完成,而不需要使用手柄来操作aSee VR眼动仪 七鑫易维中国aSeeVR眼动仪是为虚拟现实(VR)设备配套的眼动仪,可适配HTC Vive,采用适合于VR的高速眼动追踪算法,实现VR内容的360眼动追踪爱奇艺奇遇2s眼球追踪套件 七鑫易维中国七鑫易维眼动追踪技术与爱奇艺奇遇2svr一体机的创新融合,全面实现交互与分析两大应用,满足不同开发者和研究者的需求,2015年首次获得高通投资 SMI德国SensoMotoric Instruments (SMI) 是一家VR眼镜硬件企业,公司在眼部追踪方面进行了大量的研究,同时它还在眼部追踪的消费者应用(比如虚拟现实)方面有所投入。2016年,这家公司为虚拟现实头显HTC Vive设计了一套眼部追踪开发套件。2017年被苹果收购,为后续苹果VR眼镜的研发提供了技术上的支持 2016七鑫易维中国为HTC Vive Pro Eye提供眼动追踪技术,实现了注视点渲染,可大大节省渲染计算资源,提高渲染效率眼动追踪系统2018Oculus美国Oculus近期获得的一份与VR头显相关的新专利,他们可以在头显上安置光场摄像头来实现更好的眼动追踪技术 2018Tobii瑞典发布全新眼动追踪平台IS5,实现了更小物理占比,更高追踪精度 2018Lumus 将Tobii眼动追踪技术集成至Lumus DK50 AR开发套件 2018Tobii瑞典与高通合作,Tobii将为骁龙845 VR一体机提供眼动追踪技术,功能和益处:1.注视点渲染 2.瞳距 3.手眼协调 4.互动式眼镜交流 2018LuxidLabs 在CES大会亮相LooxidVR头显,搭载了眼动追踪技术 2017Fraunhofer FEP 发布了Fraunhofer头显设备,支持眼动追踪 2017三星韩国CPU能耗不足3%,三星VR一体机Exynos VR头显采用眼动追踪技术,搭载Visual Camp的VR眼动追踪技术 2017FOVE日本FOVE在CES大会上亮相的名为FOVE 0眼动追踪头显,其特点是眼动精准度高,响应速度快 2016华为中国华为发布荣耀Magic手机 集成Tobii眼动追踪技术 2016SyncThink 名为EYE-SYNC,是头戴式追踪装置,使用虚拟现实来实现快速记录、查看和分析眼球运动障碍 2019Oculus美国Half Dome 1头显,更高沉浸感,视觉更舒适 2019英伟达 发布Foveated AR眼镜,降低外围视场的渲染分辨率,减少图形渲染的功耗 2019Varjo 发布了XR-1 Developer Edition头显,XR-1能够实现真实与虚拟的交融,并实现真正的视觉对等 2019创维中国发布了分别是VR一体机S801,V901和V901C,与七星易维合作,都带有高精度的眼动追踪功能 2019高通美国高通发布和公开售卖骁龙845 VR一体机开发者套件 2018Magic Leap美国发布Magic Leap One MR眼镜,支持眼动追踪 2018宏星技术 发布名为StarVR One的头显,支持眼动追踪 2018小派 小派8K系列头显开放预购,扩展模块支持眼动追踪 2018微软美国微软为HoloLens发明4K MR影像生成方法,微软同时指出,眼动追踪的应用可以帮助系统专注于为用户实际注视区域输出更高分辨率,从而节省功耗和计算 2018Tobii Pro 发布了Tobii Pro Lab VR 360,其能够支持认知研究人员,心理学家和营销研究人员在VR中进行眼动追踪研究时利用360度视频和图像 2018Oculus美国发布的产品Oculus Go中构建了“固定注视点渲染”的技术 2019微软美国发布HoloLens 2,支持眼动追踪技术
3.中美眼动追踪技术相关专利情况
2019年专利情况:在映维网上每隔几天就会公开最新的AR/VR方面给的专利技术,其中包括AMD、Apple、Facebook、Google、Intel、Magic Leap、Microsoft、Nvidia、Oculus、Qualcomm、Sony、Valve这些公司。我们整理出从1月-9月这段时间每一个月与眼动追踪技术相关的技术专利占比的示意图。显而易见,国外的AR/VR的领头羊公司在眼动追踪技术的布局上显得越来越重视,尤其是微软、Magic leap以及Facebook。
映维网公开的国际VR/AR眼动追踪相关专利占比统计,图中眼动相关专利来自微软、谷歌、Facebook等知名公司。
由此可见国内的AR/VR行业的绝大部分相关科技公司并没有在眼球追踪技术方面进行技术的储备,未来中国AR智能眼镜的发展可能受制于人。
以上来此佰腾专利搜索的统计,2019年以来在美国每个月公开和授权的眼动追踪相关专利都是两位数字,中国都是个位数字,差距近10倍。
二、眼动追踪在智能眼镜上的应用
眼动追踪可以在AR智能眼镜成像显示、交互控制、目标识别、身份验证、健康监测、社交和多人协作多个方面,对眼动追踪的使用几乎覆盖全部的环节,眼动追踪技术对于AR智能眼镜的重要性不言而喻。接下来作者将2019年1月-2019年9月之前映维网公开的所有眼动追踪应用方面的专利进行如下的整理总结。
1. 用于光学显示
利用眼动追踪技术使用户更清晰、更流畅的观看AR/VR眼镜显示的影像。包括 注视点渲染;像差校正;影像 信息;视网膜成像;屈光度检测;亮度调节。目前国外所公开的专利和论文中,眼动追踪技术绝大部分是应用在虚拟影像的显示上,国内从事AR智能眼镜的硬件厂商、光学显示(光波导)方案提供商应多多留意眼动追踪。其实未来顶级的眼动追踪技术与光学显示技术息息相关,两者相辅相成,性能优异的眼动追踪技术也需要专业的光学路径的设计,具体可详见《AR/VR行业兵家必争之地(下)-眼动追踪技术大全》
1.1 注视点渲染
原因:为了使人们在使用近眼显示设备时体验到高清的、逼真的、有景深的虚拟画面,对图像计算渲染能力要求是极高的,但是AR/VR智能眼镜的体积、重量、续航能力限制了计算能力。
解决方案和效果:利用眼动追踪技术获取眼球的注视中心,将注视点映射到头显的屏幕上或者真实的空间环境中。最终实现人眼视觉中心看哪里,就重点渲染注视点所在的区域,而其他外围区域都以较少分辨率处理(较低的图像质量)。大大降低了处理器的计算能力。注视点渲染也是AR/VR行业内广泛已知的功能,这个技术概念最早是德国SMI提出,也是最早将VR眼镜oculus与眼动追踪技术相结合的(仅代表个人观点)。
注视点渲染原理:人在看东西时,视觉中心的影像最为高清,这是中央凹视锥细胞处理的光影像。视觉中心外围影像逐渐模糊,这是由于视锥细胞的数目逐渐减少,视杆细胞的数目逐渐增多。所以在近眼显示设备渲染的图像没必要全部高清,视觉中心以外的区域人本身就看不清。
眼睛感知影像是通过视细胞接收视网膜上所成的像,视细胞分为视锥细胞和视杆细胞。在人的视网膜内约含有600万~800万个视锥细胞,12000万个视杆细胞,但是相同面积内视锥细胞的密度远远大于视杆细胞,分布于视网膜的不同部位,视锥细胞存在于视网膜的黄斑中央凹处,仅占视网膜很小的一块区域。
视锥细胞是感受强光和颜色的细胞,具有高度的分辨能力,光线可直接到达视锥细胞,故此处感光和辨色最敏锐,人的视觉中心能够呈现高清影像就是中央凹视锥细胞的功能。再往外,视杆细胞的数目逐渐增多,视锥细胞的数目逐渐减少。而以视杆细胞为主的视网膜周缘部,则光的分辨率低,色觉不完善,但对暗光敏感,例如家鸡等动物视网膜中视锥细胞较多,故黄昏以后视觉减弱。
参考文献:
注视点渲染合集:
https://yivian.com/ s=%E6%B3%A8%E8%A7%86%E7%82%B9%E6%B8%B2%E6%9F%93
苹果专利:视网膜中央凹显示器 US20190180672
https://patent.yivian.com/4093.html
谷歌详解注视点渲染、图像处理、传输等技术在VR上的应用
https://yivian.com/news/39120.html
不仅是注视点渲染,眼动追踪为何是VR变革者:
https://yivian.com/news/45097.html
1.2 像差校正
原因:目前AR智能眼镜主流采用光波导(光学元件)作为虚拟全息影像的成像媒介,用这种瞳孔扩展的成像方案在显示的过程中会遇到图像畸变的问题,或者该智能眼镜具有针对于近视/远视的屈光度自动调节功能变焦镜片,因此镜片度数的变化也会引起图像的光学畸变,其中其他质量较差的显示光学器件也可能会产生像差(几何和/或色差),从而导致用户观看的图像质量下降。产生这些问题的具体原因如下。
波导镜片导致图像失真:在堆叠波导显示组件中,存在一系列潜在的现象,这些现象可能导致图像质量产生伪像。这些可能包括重影(多个图像),失真,未对准(颜色或 之间)以及整个视场的颜色强度变化。另外,在其他类型的条件下可能发生的某些类型的伪像。
由于光场显示器的光学器件中的缺陷,当通过光学器件显示时,渲染引擎中的完美三维网格可能变得失真。为了识别和校正预期图像与实际显示图像之间的失真,可以使用显示系统投影校准图案,例如棋盘图案。目前当眼睛直视波导显示器时(眼睛处于波导正前方时),计算机能够有效的校准图像。但对于其他的眼睛姿势、注视方向或位置则校准不太准确。因此,显示器的校准可能取决于眼睛与显示器的相对位置或眼睛方向。如果仅使用单个(例如,基准)位置的校准,则可能存在当佩戴者朝向不同位置(例如,远离基准位置)时未校正的错误。
示出了在投影校准图案时可能发生的示例性失真
示出了可以生成的另一示例矢量场,以使所显示的成像位置和预期图像位置之间的失真可视化
示例XY平移空间误差
解决方案和效果:利用眼动追踪技术实时获取眼睛的注视方向,根据眼睛的注视方向或位置动态的校准的智能眼镜显示的图像。可根据眼睛位置(或在某些情况下的眼睛方向)动态校准虚拟影像的空间位置或颜色。动态校准可以补偿(或校正)显示器的视场中的空间误差和/或彩色(颜色)误差。例如,空间误差可以包括平面内平移,旋转,缩放或扭曲误差以及平面外(例如,焦深)误差。色度误差可以包括可以显示的每种颜色的亮度平坦度或色度均匀性误差(例如,R,G和B)。
参考文献:
深入AR系统构建,为啥AR显示技术发展这么慢,这么难:
https://www.linkedin.com/pulse/why-making-good-ar-displays-so-hard-daniel-wagner/ trackingId=ak3AnPVYQCyTEzZq2F0bwg%3D%3D
Magic leap专利:基于眼动追踪的动态校准 NO. US 20190226839
索尼专利:眼动追踪的实时镜头像差校正 NO. US 20190250409
索尼专利:信息处理方法和程序 NO.US 20190149811
Face book专利:基于头戴式显示器中用户眼动的光学影像校正 NO.US 10317680
1.3 调整图像帧(优化波导的彩虹现象)
原因:当用户的注视方向快速变化时,智能眼镜所呈现的影像可能模糊或者出现不良的颜色(伪影)。通常智能眼镜光波导镜片可能是由3层或者更多层镜片堆叠而成,三种单元色分别被不同的三个波导镜片传导,最终三种单元色在眼睛上合成为有色彩的图像。如果全息虚拟影像的帧速率足够高,并且用户的眼睛没有移动或者相对于显示器上的图像移动相对较慢(例如,视网膜速度相对较慢),则用户在观察智能眼镜的虚拟影像时无法察觉不良的体验。
另一方面,如果用户的眼睛相对于显示器上的图像(例如,整个图像的对象或特定部分)相当快速地移动(例如,由眼睛的旋转运动引起的相对较快的视网膜速度),例如眼跳运动、扫视运动、平移头部运动等,用户会察觉到不良的伪影现象(彩虹现象),例如模糊和/或彩虹效果。这种伪影现象是由于所显示的图像的组件原色(例如红色,绿色和蓝色)在不同时间到达观察者的视网膜。如果眼睛没有跟踪图像,则可能发生这种情况。即使在每秒60帧的高帧速率下,来自显示器的红色,绿色和蓝色信息也可以相隔5.5毫秒到达视网膜。眼睛移动得越快,彩虹效果或“图像分裂”就越严重。
因此,由于眼睛视网膜和智能眼镜的影像之间的相对运动过快造成了波导显示的彩虹现象。
解决方案和效果:基于眼球移动的速度、加速度来修改用户观看的图像帧的显示时间。通过眼动追踪设备检测到眼球正在快速的平滑的移动时或者扫视某物体时,则智能眼镜显示器提高虚拟影像的帧率。
参考文献:
微软专利:基于眼睛追踪运动调整图像帧NO. US 10338677
1.4 影像 信息
原因:我们已知用户通过AR智能眼镜能够看到叠加在真实世界虚拟的影像,那么如何能够使看到的虚拟物体具有空间的景深感,可以给用户更好视觉体验感。如果此时光学显示器展示的虚拟影像与虚拟 信息不对应时(例如AR/VR头显的显示屏始终都与我们的眼睛保持固定的距离),这导致了一个名为“视觉辐辏调节冲突”的问题,及人眼可能经历调节冲突,导致不稳定的成像,有害的眼睛疲劳,头痛,同时观察者可能无法在一个瞳孔尺寸处清楚地感知两个不同 平面的细节。那么如何确定用户此时的视觉 信息呢?
解决方案和效果:在多平面聚焦系统或可变平面聚焦系统中,智能眼镜可以采用眼睛跟踪来确定用户眼睛的聚散度和瞳孔大小,以此确定用户的当前焦点,并将虚拟图像投影到所确定的焦点。 平面或景深的数量和分布可以基于观察者的眼睛的或注视方向动态地改变。这里所用到的智能眼镜显示器指的为可变焦光学元件或者是由多个 的波导镜片堆叠而成的光学显示器。
视觉调节是指弯曲眼睛晶状体以聚焦不同距离下的物体
在现实世界中,为了聚焦近处物体,眼睛的晶状体会弯曲,令物体反射而来的光线到达视网膜上的合适位置,从而让你清晰地看到物体。对于距离较远的物体,光线则以不同的角度进入眼睛,而晶状体必须再次弯曲以确保光线聚焦在视网膜上。所以,如果你将一只手指举到离面部数厘米远,然后闭上一只眼睛并将注意力集中在这只手指,这时手指后面的世界将会变得模糊不清。相反,如果你把注意力集中在手指后面的世界,你的手指将变得模糊不清。这就是视觉调节。
辐辏:辐辏是指两只眼睛向内旋转以将每只眼睛的视图重叠成一个对齐的图像。通常利用双眼视线的汇聚点夹角计算视觉位置 原理示意图
视觉辐辏,这是指两只眼睛向内旋转以将每只眼睛的单独视图“聚合”成一个重叠的图像。对于非常遥远的物体,两只眼睛几乎是平行并列,因为它们之间的距离相较于离物体的距离非常小(这意味着每只眼睛几乎都能看到物体的相同部分)。对于非常靠近的物体,两只眼睛必须向内旋转才能令每只眼睛的视角对齐。对此,你也可以借鉴上面的手指技巧:这一次,用双眼看着面前的手指。请留心,你会注意到手指后面的物体出现了重影。当你将注意力集中在手指后面的物体时,你则会看到手指出现了重影。
参考文献:
Magic leap专利:旋转确定的眼睛中心, 平面选择NO.US20190243448
1.5 屈光度校正
原因:世界卫生组织报告称,目前全球约有14亿人罹患近视,高达全球人口的18.4%,在中国、美国、日本以及新加坡等地更是平均每两人便有一位近视患者,目前市面上的智能眼镜对这部分人群并不友好,通常情况下需要同时佩戴屈光度校正眼镜和智能眼镜。如果不能提供使近/远视人群一种简易舒适智能眼镜佩戴的方案,则这将会成为智能眼镜面向消费者发展的另外一大阻力。
其中,斯坦福大学的研究人员创造了可以追踪眼球并自动聚焦在您所看事物上的眼镜。在《科学进展》杂志上发表的一篇论文中详细介绍了所谓的自动对焦,它可以证明比过渡镜片或渐进镜片更好。作者指出,随着时间的流逝,随着眼睛中的晶状体变硬,我们在近距离处重新聚焦的能力会变差。这种被称为老花眼的疾病通常会在45岁左右发作,并影响超过10亿人。这是为什么我们许多人需要在中年开始戴老花镜,渐进镜片或单视眼镜的关键因素。
解决方案和效果:智能眼镜系统通过光波导镜片动态的射出几种不同视觉 的图像到眼镜的视网膜上进行成像,眼动追踪系统捕获视网膜上所成的几种不同视觉 图像的反射光影像,计算机系统可以使用各种图像处理算法来确定患者何时适当地聚焦在图像上,并且随后确定用户的光学屈光度处方。例如图像处理算法包括可以在分析中使用图像质量分析/对比度峰值检测技术。同样,Scheiner双针孔对齐,也可以使用Shack-Hartmann网格对准和/或视网膜反射中和。当测得眼睛的屈光度时,系统可以控制变焦显示透镜投射适应用户眼球屈光度的影像。
可穿戴增强现实设备可以用作校正或改善佩戴者视力的屈光度检测仪
参考文献:
Magic leap专利:综合屈光检查仪 NO.US 10365488
Facebook专利:头戴式显示器中的光学模块的眼镜处方校正,近视矫正。
NO.US 10338410利用眼动追踪实现自适应老花镜
https://www.engadget.com/2019/07/02/stanford-eye-tracking-auto-focus-glasses/
1.6 屏幕亮度控制
原因:手机屏幕的显示亮度通过环境光的亮度来调节屏幕的亮度,AR眼镜也会遇到调节屏幕亮度的情况。大多数AR眼镜的光波导镜片投射出来的光与现实周围的光的亮度会直接影响到AR眼镜的体验效果,如果仅仅只是根据周围环境光的强弱来调节智能眼镜成像的光来让用户能够看清楚虚拟的影像,环境光一个维度的标准来调节AR眼镜亮度是远远不够的,正所谓鞋子合适不合适只有脚,因此可以利用眼动追踪技术了解眼睛觉得屏幕亮度合适不合适。
解决方案和效果:我们需要智能眼镜设备充分了解每一位用户眼睛的差异性、注视需求以及眼睛此时的工作状态,通过眼动追踪技术实时检测眼睛的瞳孔的位置和大小、晶状体的状态等,计算和分析这些眼部数据,根据用户眼睛的差异性调节到默认舒适的显示亮度;根据注视需求,判断用户的注意目标,比如当用户注意力在AR眼镜的虚拟影像上时可以适当增加成像亮度,当用户注意力在现实环境中的物体时可以适当降低成像亮度;根据眼睛的工作状态适当调节成像亮度,比如当检测到用户用眼疲劳时,设备能够适当降低成像亮度,降低用眼负担。
瞳孔对亮度的响应示意图:强光和暗光下瞳孔的大小情况
屏幕亮度和瞳孔尺寸变化的示意图
参考资料:
天蝎科技:近眼显示设备的避免全息影像阻挡视线的智能调节方法
英特尔专利:虚拟现实自适应显示亮度控制 US20190265785
1.7 图像数据无线传输
原因:我们都希望未来的头戴式显示设备(HMD)是轻便、美观、舒适的,例如苹果和Facebook公开的专利一种分体式HMD,为是一个头戴显示设备(AR眼镜)和一个计算终端(例如手机),头戴显示设备不具备运算能力,数据计算过程由计算终端完成,AR眼镜和计算终端通过无线传输数据。然而要让HMD实时显示高保真度的内容,这需要较大的无线传输带宽、功耗以及渲染消耗,这违背了我们的初衷。
解决方案和效果:通过结合上述眼动追踪技术,实现注视点图像压缩,极大地降低了传输带宽以及功耗,及看哪里传输哪里的高清图像,类似于注视点渲染。注视点压缩需要实时采集用户注视点数据,将用户视场中心范围图像保持清晰,外围视场的图像进行压缩,将每一帧压缩过后的图像传输至HMD,这几乎将原来所需的带宽降低了三分之二。
高通的《 数据的异步时间扭曲》专利是通过用户眼睛的姿势数据来生成渲染的帧;谷歌的《集中压缩显示流》专利是压缩用户注视点外围图像;苹果的《基于注视点方向的自适应视频数据预过滤》专利是以不同性能处理用户的注视区域和其他区域。
参考文献:
高通专利: 数据的异步时间扭曲 No:US2019/0012826
谷歌专利:集中压缩显示流 No:US2019/0019315 & US 10319114
苹果专利:基于注视点方向的自适应视频数据预过滤 No:US2019/0026874
谷歌研究院:集中压缩和传输的策略?https://ai.google/research/pubs/pub46452
2.用于交互控制
背景和原因:
目前AR/VR智能眼镜的交互技术主要有手势识别、语音识别、眼动追踪、脑机接口、控制手柄这几种交互技术,其中眼动追踪是其使用过程中最重要的交互方式之一。对比这几种交互方式,眼动追踪交互方式具有移动选择快、隐私性强、消耗体力少、方便快捷、上手快等无可取代的优势。
王牌特工中智能眼镜眼动追踪GIF图
手势识别交互技术:在艺术创作(绘画、制作3D模型)、办公应用、游戏等应用场景中,手势识别具有不错的体验。但是如果让我们在平常的生活场景中,在公众场合张牙舞爪的操作着全息虚拟界面,这不太现实。我们知道绝大多数人不希望在公共场合引起太多人注意,这不仅违反人类的习惯,而且还会造成个人信息的泄露。
语音识别交互技术:很难想象在等地铁的时候通过语音识别来对计算机输入信息,这不仅可能会泄露个人隐私,还会对他人造成干扰。对于很多性格内向的人,并不喜欢在公众场合大声说话,语音识别的交互方式对这类人群的用户体验并不好;
监听:语音接口总是监听对话,当不需要的时候,只会在稍后被一个特定的触发词明显激活(例如“hi,Siri”激活苹果助手,但应用程序仍然打开);
非个人设备:这些设备不是个人设备,任何其他用户都可以有意或无意地向这些设备发送有效的语音输入。目前的语音交互设备作为一种设备的可用性较低,用户不能随时随地使用语音界面,这在固定的专用语音设备(例如-亚马逊Echo)。此外,最佳语音识别(电信设备)需要用户接近设备。
脑机接口交互技术:脑机接口是未来最有效的人机交互方式,但是目前的人们对大脑的研究是有限且缓慢的,现在非侵入式脑机接口只能检测大脑皮质层的脑电波和人体神经网络的生物电,因此现在脑机接口交互技术不是很成熟,并不能准确地读取人的思维和想法。
所以我认为在未来使用智能眼镜的普通人的通用交互方式为脑机接口技术或眼动追踪交互技术。可以想象,现在AR智能眼镜在眼前显示了虚拟的UI操作界面,通过眼动追踪对UI界面按钮的选择。
但是,目前国内外已有大量针对于眼动追踪交互技术的专利和方案,绝大部分技术方案都是通过注视目标一定时长、双目眨眼、单目眨眼、眼球运动方向(眼球往上看、双面往中心看等)等一系列的眼睛行为与虚拟目标进行交互,交互包括选择确认、点击、翻页滑动、属性弹出。我们团队在2017年初就采购了德国SMI的VR眼动追踪设备,并将VR眼动设备模拟成具有眼动追踪功能的AR智能眼镜,因此我们得以开发眼动追踪交互的应用。测试中我们发现上述的眼睛眨眼、注视一定时长的眼动交互方式让人很不舒服,就好比平时我们用眼睛看东西都是下意识控制的,但是在与电脑系统交互过程中却要将控制眼睛由我的主观意识来控制,这给用户带来了巨大的认知负荷和精力去协调操作界面的交互,时间不久眼睛就很累了。并且眼动交互无法准确地选择过于细小的对象,原因在于眼睛在选择对象的最后关头存在眼颤行为,导致最后眼睛很难选中你注视的目标,因此不能指望通过眼睛来选择细小的对象,也不能驱使眼睛进行高频率的点击行为。最好有交互按钮有磁性功能和眼球的增稳。
Magic leap官网上也有关于使用眼动追踪交互的警告
解决方案和效果:因此我们对眼动追踪的交互方式产生了一些自己的理解。不妨我们回忆下使用鼠标的交互过程,在操作电脑软件的时候首先我们是产生需求,然后眼睛会在软件UI上搜索与需求对应的控制按钮,最后才是移动鼠标的光标到按钮位置(注视位置)点击确认。在上述的鼠标过程中,眼睛是天然参与交互过程的,所以如果把按键的选择由眼动追踪来完成,按键的点击确认由某种可以戴在手指上的外设硬件完成。也可以理解成上述鼠标的交互过程中,移动光标到按钮位置的过程被眼动追踪技术替代,直接眼睛看什么按钮光标瞬间到达,外设硬件上集成了鼠标左右键的功能作为点击确认。综上,只需要动动眼睛和手指就可以完成绝大部分智能眼镜中的交互,好的交互方式需要能够让用户以较低的学习成本学会使用。虽然该交互体验较弱于我们一贯的鼠标操作,但是AR智能眼镜上应用该交互技术,用户能够快速上手。
目前智能眼镜的所有的交互方式有手势识别、语音识别、眼动追踪、头动追踪、脑机接口、控制手柄(6DoF)等。每一种交互在特定的应用场景下都有它的优势,那么在注重隐私和简单操作的应用场景下就是眼动交互的优势,但是我相信如果智能眼镜在未来能够取代手机成为下一代计算终端,成为普通消费者都能够简单上手的产品,眼动交互一定是其中较为重要交互方式。
参考文献:
论文:激发点击的不同注视时间参数对眼控交互操作绩效的影响_李宏汀
微软专利:三维空间中的对象选择 NO.US 10268266
Apple:带有眼动追踪的电子设备NO.US10379612
天蝎科技:一种近眼显示设备的眼动追踪交互的方法及系统
天蝎科技:MR智能眼镜内容交互信息输入应用推荐技术的方法
3.用于目标识别
背景和原因:眼睛是心灵的窗户:人所接收到的外界信息有80%来自于眼睛所建立的视觉通道,同时人在进行思维或心理活动时会将其活动过程反映在眼动行为上。可以说,眼动追踪技术是当前科技允许的条件下,“透视”人类思维的最为直观有效的途径。
传统的眼动追踪技术是将眼睛的注视点映射在传统的平面显示上,能做的应用大多是与心理学相关的实验、广告分析、用户体验评估等。但是未来将眼动追踪技术应用在近眼显示设备上(AR智能眼镜),其特点是通过光学元件既可以看到虚拟的全息影像也可以看到真实的世界,用户看到是一个被叠加了虚拟影像的真实世界。如果我们通过眼动追踪技术将眼睛的注视点映射在真实世界,那么将达到一个很具有想象空间的效果,智能眼镜计算机能够以用户的第一人称视角感知用户的所闻所见。
但是有以下几个相关因素还需要我们考虑:
有时候注视不一定会转化为有意识的认知过程(“视而不见”现象)。例如,盯着屏幕发呆,眼动仪依然会判断你在注视某部分的内容,但实际上你此时并没有相关的心理活动,并且计算机也无法仅通过眼动数据一个维度判断你对正在注视的内容是感兴趣还是疑惑。注视转化的方式可能有所不同,这取决于研究的内容和目的。例如,若是让被试随意浏览某个网站,在网页某个区域注视的次数较多,就可能表明这个人对该区域感兴趣(如某张照片或某个标题),也可能是因为目标区域比较复杂,理解起来比较困难。因此清楚地理解研究目的以及认真仔细地制定测试方案对于眼动追踪结果的阐释很重要。眼动追踪只是提供了我们“透视”人类思维的方法,但和人的真实想法肯定是有差距的,不可唯眼动数据论,结合其他方法,如“有声思维”,访谈等也是十分重要的。
计算机将通过眼动追踪知道用户喜欢看什么,对什么感兴趣
解决方案和效果:我们可以通过智能眼镜上的眼动追踪系统获取用户眼睛的行为和注视点,智能眼镜的前置摄像头捕获用户视觉前方画面,经过摄像头画面,用户视野的校准匹配使得计算机系统能够以用户的第一人称视角感知用户的所闻所见。当计算机根据心理学理论(瞳孔放大、注视时长等)判断用户对注视物体感兴趣时,眼睛的注视点引导计算机对用户所注视区域的对象进行图像识别,这就实现了通过眼动追踪所引导的图像识别技术,眼动引导的图像识别可以使计算机对用户的需求分析的更为精准。当然眼睛所注视的对象可以包括人脸、条形码、宣传海报、户外广告等,通过图像对兴趣识别后可以为用户提供其他相关信息,这些信息可以是文字、图片、三维模型、甚至是应用的推荐。
例1.电子商务:当一名女性用户在大街上看到一个人身上穿的衣服非常感兴趣,智能眼镜通过眼动追踪获取眼动行为判断用户正在对目前注视的目标图像感兴趣,对这个人的衣服进行人工智能的图像识别,数据库检索出和感兴趣衣服一模一样的商品或者相似的商品。当然商品不局限于衣服,还可以是数据库记录的任意商品。在一定程度上也可以理解成淘宝的拍立淘功能与眼动追踪结合在智能眼睛上呈现。
视频效果描述:视频中使用的Magic leap one作为应用的载体开发而成,使用手机拍摄的应用演示效果。当把眼睛对准桌子上的大疆无人机时,计算机了解我看了什么,并且把一模一样的无人机产品展示在我面前,用户可以很方便的获取或购买感兴趣的商品,最后通过虹膜识别验证身份,支付成功。(PS:由于是手机对着成像屏幕拍摄的,所以眼动追踪模块并没追踪的眼睛,所以视频效果看着像头动追踪)
上述的应用场景或许并没有人们想象的这么遥远,至少天蝎科技已经将这个应用实现了,并且还获得了发明专利的技术授权。天蝎科技相信这是能够为AR智能眼镜完善应用软件,能够为普通消费者带来价值的产品。在5G技术的加持下,相信这种AR智能眼镜的购物体验走入寻常百姓家不会遥远。
例2.应用推荐和应用的启动: 通过用户此时注视的图像和前后的情景为用户提供智能的推荐。比如,你正在超市挑选蔬菜,在选购过程中你的视觉搜索着各式各样的蔬菜。当看到感兴趣的食材时,你可能会有好多的需求,比如你想知道这个食材可以做那些菜好吃,这时可以推荐食谱的app,比如你想知道这个食材的新鲜度,这时可以推荐你检测食材新鲜度的app,比如你想知道这个食材的营养价值和热量,这时可以食材信息呈现给用户;再比如当你在商业街寻找餐厅,眼睛会看一看餐厅的招牌,这时智能眼镜可以推荐类似于美团或者大众点评的应用推荐。通过智能眼镜的眼动追踪技术真正的实现“既见即所得”,或许未来有某种可能,眼动追踪可以成为AR智能眼镜移动终端的流量的入口,眼动追踪不仅可以第一时间获取用户的需求,而且还可能开创一种全新的用户数据类型-眼动数据,眼动数据可以记录大量用户平时间的感兴趣的物体图像。
参考文献:
微软:基于情景的应用程序启动 NO.US10249095
微软:凝视目标应用程序启动 NO.10248192
高通:现实世界中的视觉搜索使用具有增强现实和用户交互跟踪的光学透视头戴式显示器NO.US10372751
高通:用户控制AR智能眼镜的设备和方法 NO.US10359841
天蝎科技:AR智能眼镜的应用基于眼动追踪技术的广告推送方法 NO.201810911203.4
4.用于身份验证:虹膜识别
背景和原因:当我们使用手机时,有大量身份验证和验活的环节。例如,需要通过指纹识别或人脸识别来确认是否是手机用户本人后才可以进入手机的操作界面;当购买商品(银行app)后进行支付验证过程中会通过指纹识别或人脸识别进行生物特征的识别;还有系统中需要用户确认的操作都需要身份的验证操作。
那么智能眼镜想要发展到面向普通消费人群,其系统中的应用也必然需要“身份验证”的操作。作为近眼现实设备-AR智能眼镜,眼睛是最好获取生物特征信息的来源。虹膜识别是智能眼镜上目前已知的最佳身份验证方式。
虹膜识别原理:虹膜识别技术是基于眼睛中的虹膜进行身份识别,应用于安防设备(如门禁等),以及有高度保密需求的场所。人的眼睛结构由巩膜、虹膜、瞳孔晶状体、视网膜等部分组成。虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分,其包含有很多相互交错的斑点、细丝、冠状、条纹、隐窝等的细节特征。而且虹膜在胎儿发育阶段形成后,在整个生命历程中将是保持不变的。这些特征决定了虹膜特征的唯一性,同时也决定了身份识别的唯一性。因此,可以将眼睛的虹膜特征作为每个人的身份识别对象。
解决方案和效果:全球的眼动追踪技术绝大多数都是通过微型摄像头拍摄被红外光照射的眼球图形进行眼睛运动计算的,因此利用眼动追踪模块摄像头获取虹膜的图像是很顺其自然的事情。除了虹膜识别,还可以从眼睛的其他生理特征进行身份的验证,例如视网膜上毛细血管布局。
佩戴增强现实/用户识别系统的用户的示意图
虹膜模板的用户眼睛的示意图
用户视网膜的示例性图像
参考文献:
微软:基于三维特征的虹膜识别 NO.US1038418
Magic leap:利用神经网络进行生物特征用户识别装置、方法和系统 NO.US10275902
Lumus:基于光导成像光学元件的眼动仪
5.用于健康检测
背景和原因:智能眼镜还可以应用在健康领域。眼睛的眼底包括眼睛的视网膜,视盘,黄斑,中央凹和后极,眼底的一些病变和眼睛的健康情况可以反映出脑异常、心脏异常、眼癌、高血压等身体疾病。
解决方案和效果:将眼科常用检测设备的眼底镜的原理与眼动追踪技术相结合。红外光源被波导镜片或者扫描光纤传导至眼睛生理结构上,进而照亮了眼部的特征,眼睛追踪相机捕获眼睛图像,然后使用模式匹配算法或颜色匹配算法将捕获的图像与指示各种眼睛异常的若干已知图像进行匹配计算。例如,可以分析图像的边缘是否看起来模糊来确定视神经盘是否肿胀。
例如1,可以分析图像以测量视神经盘和和视杯的尺寸。视盘和杯子的测量尺寸可用于获得杯盘比,其被计算为视盘的杯部分的直径与视盘的总直径之间的比率。杯与盘比率的较高值可指示青光眼。
例2,可以分析图像以确定眼底的颜色。深色底色可指示色素性视网膜炎。相反,在患有动脉闭塞的使用者中可以看到浅色的眼底。
例3,可以分析由检眼镜获得的图像以检测其他异常,例如出血或渗出物。绿色滤光器(基本上使红光衰减)可以有利地使得更容易检测出血或渗出物。患有高血压性视网膜病的使用者可以表现出硬性渗出物,出血(很少有乳头水肿)和/或视网膜水肿。
例4,一些糖尿病性视网膜病变的使用者可以表现出斑点和印迹出血和/或硬性渗出物,患有糖尿病性视网膜病的一些使用者也可以表现出棉毛斑或软性渗出物。
在Magic leap公开的技术中还提出了“红光反射”,“眼压”,“裂隙灯“的原理融入到眼动追踪技术中用于检测眼睛健康和身体健康。
参考文献:
Magic leap专利:诊断眼睛的方法和系统 NO,US10365488
6.用于社交和多人协作:虚拟人像
背景和原因:社交和远程协助、多人游戏也是AR/VR眼镜的重要应用。例如远程会议中,我们通过一个代表自己的虚拟人物来与代表别人的虚拟人物交流。回忆下平时间我们在现实与人的沟通中,大部分时候会看着对方的面部和眼睛来相互沟通,正所谓眼睛是心灵的窗户、眼神交流说的也是这个行为过程。那么在AR/VR世界中,利用虚拟人物进行远程交流时,如果虚拟人物的眼睛是死气沉沉的,不会动,也无法表达惊讶、愤怒、厌恶、微笑等情绪,这让用户体验很不好。如果AR/VR中的面部表情存在非常多的应用,相信这将可以显著改善用户之间交流和交互。我们的目标是令虚拟交互与面对面交互一样自然。我们将其称之为‘社交临场感’。这是一种基于3D的感觉,即使彼此之间相距遥远,但双方依然感觉大家共存于同一个空间,并且能够无缝,轻松地交流各自的想法和情感。”为了在VR中实现这一目标,我们需要可以忠实地再现面部表情,手势和声音的逼真虚拟化身。
解决方案和效果:在面对面的交流的应用程序中, 利用眼动追踪将真人眼睛与虚拟人物的眼睛映射对应,实现眼球的同步运动。同时利用眼动追踪的微型摄像头拍摄眼部的特征,例如巩膜、眼角、眉毛,皱纹,眼睛上的闪烁,雀斑,上角、眼皮的开合程度、眼袋的鼓起程度、,也可以将这些特征绑定虚拟人物上。我们主要是从眼睛区域的特征来推断惊讶,愤怒,厌恶和真正的微笑,哭泣等等,最终使虚拟人物与真人的遍布表情保持一致。
Emteq的解决方案名为FaceTeq,其主要是通过新型传感器模式来检测面部肌肉收缩时产生的微小电气变化。每个面部表情都会在皮肤上产生一定的电活动,而这可以进行非侵入性地检测,无需任何摄像头。
目前Magicleap one、HoloLens2、oculus都相继出台了利用眼动追踪进行眼神和表情捕捉的技术。
参考文献:
MagicLeap系统为多人MR共享增加映射融合特性:
https://yivian.com/news/56318.html
MagicLeap独占,Weta多人游戏《Gordbattle》正式发布:
https://yivian.com/news/58315.html
MagicLeap最新LuminOS增加了手掌追踪、多人共享功能 :
https://yivian.com/news/58905.html
MagicLeap专利欲用眼动追踪摄像头进行面部表情捕捉 :
https://yivian.com/news/66704.html
Facebook展示『未来虚拟社交』最新研究成果,令AR未来更接近现实
https://yivian.com/news/66797.html
Facebook50年征途:CodecAvatars,创造逼真虚拟角色
https://yivian.com/news/58103.html
Magicleap专利:使用眼部注册,头部扫描对准 NO.US20190265783
Magicleap专利 眼动相机的面部表情 NO.US 20190285881
总结:
从上述的AR/VR第一梯队公司所公开专利技术不难看出,眼动追踪技术在智能眼镜上的应用几乎覆盖了全乎环节。可以说AR眼镜真正达到普通消费级产品,眼动追踪技术是至关重要的一环,天蝎科技相信在未来眼动追踪技术必然会成为AR智能眼镜上的标配硬件,并且我们正在不断的基于眼动追踪技术探索AR智能眼镜上的应用软件。
作者介绍:武汉市天蝎科技创始人 陈涛
天蝎科技来源于一部讲述由天才黑客团队的美剧《天蝎计划》,目前团队由90后组成的创业团队。作者认为每个时代都有每个时代的馈赠,2000年 PC和互联网成就了微软;2010年 手机成就了苹果;移动互联网成就了微信和支付宝,同时在无数80后前辈的努力下也成就了许多互联网产品。所以下个AR/VR、5G的时代90后必须参与。
最后特别鸣谢:虽然本人与映维网刘总素未谋面,但是希望借此感谢映维网为中国AR/VR行业所提供的社会公共资源。尤其是专利板块为我开启了世界的大门,让我这样的草根创业者能够接触世界顶尖智能眼镜公司的专利技术。使我们快速的吸收先进的技术,并化为己用,能够以较低的成本建立自己的技术壁垒。
当然,天蝎科技不仅仅是将眼动技术在智能眼镜上应用,我们也在布局眼动的硬件技术,如果您是AR/VR头显的硬件研发商,或光学显示方案提供方,或许接下的 《AR/VR行业兵家必争之地(下)-眼动追踪技术大全》可以为您提供一定的帮助。
PS:如果您对本项目感兴趣,有合作及投资意愿的朋友与我们联系(微信号ct312036931)
原文链接:https://yivian.com/news/68718.html