作者:腾讯研发部,游戏研究组 Starkwang(汪佳逸)
一个 pokemon Go 让 AR 一下子进入了大众视野,仿佛一夜之间 AR 的民众普及度达到甚至超过了深耕这么多年的 VR。然而,pokemon go 其实并不是真正意义上的 AR,按照严格定义归于 MR 范畴。那么大家不禁要问,到底什么是 AR?
现阶段真正量产的民用 AR 头显(HMD,Head Mounted Display)就要数微软的 Hololens,从它公布发售到现在也过去大半年有余。笔者发现大家对 AR 的热情很高,但是对微软这款 AR 眼镜是如何工作的却又知之甚少(网上各种鱼龙混杂的介绍也很多),当然 3000 美金的价格也让大多数人望而却步,更加深了其神秘程度。
笔者今天就带大家一睹其硬件技术细节,将其扒出来看个透彻,希望大家看完之后对相关技术,优势和发展有个大致的了解。
Hololens 硬件指标:
*上述硬件指标总结以及摘录自微软官方网站
通过官网的简单介绍(真的是非常简单,而且很多都是概念性的表述,没有具体型号),我们大致可以看出,Hololens 其实是一个完完全全的 pC:运行着 Win10,用着 X86 架构的 CpU,这很不同于现在的很多基于 ARM 处理器的移动设备。这跟后文会提到的最近另一个比较火的 AR 眼镜Meta2 相比,Hololens 确实很先(牛)进(逼),因为 Meta2 这货竟然还需要接 pC。
但是这可不仅仅就是个小型化的移动 pC,为了能够处理全息影像,微软还号称特地定制了一块 HpU(全息处理单元),由 TSMC28nm 制程,有 24个DSp核心,6500万个逻辑门,8MB的SRAM内存。
那么看起来 Hololens 已经具备很强的计算/图像处理能力了,但是这对于 AR 头显来说还是远远不够的。
AR 的关键硬件技术难点
AR 技术难点有 SLAM 算法,数据处理,人机交互,显示成像技术,小型化/集成化,音频技术等等,而现阶段主要是 SLAM 算法,人机交互和显示成像技术。由于 SLAM 算法不属于硬件范畴,本文就不继续讨论了,而且从 Hololens 的实际表现来看,其 SLAM 算法已经足够稳(Niu)定(Bi)了。
人机交互
对于 VR 来说,沉浸感使得传统的键盘、鼠标输入作古,急需新的交互方式,现阶段的 VR 则是以千奇百怪的手柄来实现。而 AR 头显也面临一样的问题,想想坐着用着鼠标、键盘亦或是手柄来体验 AR 是多么的二。因此,新型的人机交互方式对于 VR 和 AR 设备来说都非常有吸引力,各大厂商也在做相关布局。
(1)语音识别
Hololens 既然跑的是 win10,那微软自带的 cortana 也是同样具备。巨硬在自然语言识别上的功底大家还是有目共睹的,这里就不赘述了。
硬件上,Hololens 具备 4 个立体声麦克风,佩戴方式较为固定且离人的嘴巴不远,因此语音信号获取上的难度大大降低,其语音识别较(非)为(常)准确,特别是在游戏Fragments中的表现非常抢眼。
现在国外的代表公司都有:
Nuance,苹果(包括收购的 SiriInc.,NovaurisTechnologies,VocallQ 和 Emotient)
Google(包括收购的 SayNow,phoneticArts,Wavii,SRTechGroup 及出门问问)
Amazon(包括收购的 Yap,Evi,IvonaSoftware)
Facebook(包括收购的 MobileTechnologies 和 Wit.ai)
微软
而国内的语音技术公司则没有国外的巨头那么豪,基本不靠收购以自力更生为主,代表公司有:
科大讯飞(依靠中科大的语音处理技术)
百度(与中科院声学所合作)
思必驰(获 Ali 投资)
云知声(与中科院自动化所合作)
(2)手势识别
一个背景知识就是,Hololens 的总负责人 AlexKipman 也是另一个微软的明星产品 Kinect 的负责人。因此我们通过两者的分解图可以发现,hololens 的手势识别的部分基本上就是把 kinect2 缩小了搬了过去。
对!就是这个巴西裔哥们~
Hololens 或者说 Kinect2 的手势识别采用了 TOF(TimeofFlight)技术,相比于另外两种比较主流的技术方案:结构光(StructureLight,下图中的 LightCoding 与其类似,代表作 Kinect1 代)和多摄像头成像(Muti-camera,代表作 SonypSEye),就计算上而言,TOF 是三维手势识别中最简单的,不需要任何计算机视觉方面的计算,并且 TOF 技术刷新速率更快,并且有着更好的扫描精度,因此有着非常不错的体验效果。
绿色的部分是红外发射器,蓝色部分是红外捕捉摄像(也就是指标中提到的 depthcamera),红色部分则是 RGB 摄像头(也就是指标中提到的 2Mpphoto/HDvideocamera,恩,只有 200w),换句人话就是最普通的了。我们使用 Hololens 的流媒体播放模式时,看到的画面就是靠它了。
现在国外的代表公司都有:
Intel-RealSense
primeSense/Apple(为微软第一代 Kinect 提供技术,2013 年被苹果 3.6 亿美金收购)
微软(两代 kinect 都很成功)
LeapMotion(采用多摄像头成像原理,成本低)
Sony(自家产品 pSEye,采用多摄像头成像原理,2015 年又收购 Softkinetic公司)
而国内的体感技术公司则相对较少,主要有:
华捷艾米(在体感界小有名气,主要采用结构光技术,有自主知识产权,而且能给企业定制体感技术解决方案,该公司的体感摄像头性能堪比 kinect1 代)
奥比中光(技术实现原理与华捷艾米一致)
大疆(其无人机采用双目多摄像头成像原理)
上海图漾(采用双目结构光)
深圳乐行天下(采用 TOF 方案)
显示/光学单元
前面铺垫了这么多,其实整个 Hololens 硬件最为重要的部分就是显示/光学单元了,这个也是 AR 硬件的核心。
(1)竞品分析
在分析 Hololens 之前我不妨先给大家讲讲另外两个产品,GoogleGlass(上)和 Meta2(下)。
Google 眼镜(GoogleGlass)是 Google 开发的,所谓的 AR 眼镜(然而其实并不是)。开拓者版本售价 1500 美金(微软相比较而言简直是良心公司)。其采用液晶覆硅(LCoS)技术投射画面(这倒是与 Hololens 一致,后面会深入解读),并且用一块半透半反镜将图像反射到人眼(原理如下图所示)。
而 Meta2 则是美国初创公司 Meta 的最新一款 AR 头显,预售价 949 美金。其拥有2560*1440(单眼1280*1440)的分辨率,以及90的视场角(听起来很强大,就问你怕不怕)。其简单粗暴地采用一大块(真的是一大块,所以能把视场做的这么大)眼镜屏幕来显示画面,随后用用一块半透半反镜将图像反射到人眼,这与 GoogleGlass 如出一辙。
那么缺点就很明显了:
首先半透半反镜/膜是需要一定的角度的,这就是为什么 Meta2 或者 GoogleGlass 的反射部分这么的大,整体尺寸大,特别是 Meta2,前面凸出来一大截,就是为了给半透半反膜提供角度;
其次毕竟半反半透膜的反射效率不是 100%,势必会损失一部分的亮度,所以采用这种技术会导致亮度低;
最后其可视视角是与投射画面的大小正相关的,因此如果想把发光部分做小,视角就小(如 GoogleGlass),如果强行做大,那就跟 Meta2,使屏幕尽可能大,同理画面越大,半透半反镜/膜的尺寸也要越大。
总结一下就是,亮度低,尺寸大,效果差,当然优势也有,那就是非常便宜。
(2)显示技术LCoS 技术
现在的科技水平决定了,人们想看到一个虚拟的图像,那么一定需要有:图像源。并且由于光线最终是要进入人眼的,因此其显示部分不仅要有显示能力,还需要有光的定向投影能力。所以说仅仅是液晶显示器,其发射光的亮度和效率是远远不够的。在 AR 头显中,准确的说,实际需求的是微型投影机(Micro-projector)。
上图就是传统的投影机的结构,这一堆的透镜看起来就离微型两个字很远。是的没错,这套系统很难做小,并且功耗很大。
液晶覆硅(又称硅基液晶,英文:LiquidCrystalOnSilicon,缩写:LCoS)是小型化 AR 头显的关键技术之一。
三片式的 LCOS 成像系统,首先将投影机灯泡发出的白色光线,通过分光系统系统分成红绿蓝三原色的光线,然后,每一个原色光线照射到一块反射式的 LCOS 芯片上,系统通过控制 LCOS 面板上液晶分子的状态来改变该块芯片每个像素点反射光线的强弱,最后经过 LCOS 反射的光线通过必要的光学折射汇聚成一束光线,经过投影机镜头照射到屏幕上,形成彩色的图像。
在 Hololens 中,靠近鼻梁处的两处发光点就是 LCoS 微型投影仪所在处。整体看来结构,其实非常小而精巧,而不像 Meta2 那样直接摆一个那么大的显示屏,简单粗暴。
液晶覆硅具有利用光效率高、体积小、开口率高、制造技术较成熟、低成本等特点,它可以很容易的实现高分辨率和充分的色彩表现。
LCoS 代表着最先进的小型投影技术,大部分的专利技术还掌握在国外公司手中。并且这项技术并不是想做就做的,面板的生产工艺和良品率问题最为重要,Intel、philips、ColoradoMicrodisplay、Zight、ThreeFive 都曾经涉足 LCoS 领域,可能没有解决好成本和良品率问题,最后退出。那么现在国外的能够真正量产的代表公司有:
Sony
JVC
Syndiant
SpatiaLight
Displaytech
AuroraSystems
而国内(包括台湾)的公司主要有:
台联电 UMC(台湾)
奇景光电 Himax(台湾)
前锦科技(台湾)
台达电子(台湾)
致伸科技(台湾)
中芯国际(大陆)
长江力伟(大陆)
鸿源数显科技(大陆)
全真光电(大陆)
(3)光学成像技术全息衍射波导光栅(HolographicDiffractionWaveguideGrating)
当搞定了微型投影仪之后,就需要考虑如何将虚拟的图像投射到人眼中了,总不至于直接对着眼睛照吧?你别说,还真有,至少 MagicLeap 就是这么弄的,当然这个神秘的公司的神秘产品至今仍未披露任何信息,咱们师母已呆吧!
另一方面,利用半透半反镜/膜的技术,在前面已经说了,成本低,技术老,效果差,那么有没有高大上一点的呢?
答案是肯定的,例如咱们正要说到的 Hololens,号称使用了 See-throughholographiclenses(waveguides)技术,听着好神奇,其实真正的学名叫做:全息衍射波导光栅。
全息衍射波导光栅整体上看原理相同(如下左图所示)。整个系统由微型投影仪,全息光栅和平板波导组成。图像经过透镜到达入射全息光栅(全息光栅1),由于全息光栅的衍射效应使平行光改变传输方向从而满足全反射条件并沿着平板波导方向向前无损传播。当光线到达出射全息光栅(全息光栅2)时,全反射条件被破坏从而使平行光出射,进入人眼。
全息衍射波导光栅其优点为:光线近似于两次 90的转折,使得该系统能够减小光线传播距离,保持光学系统的重心在头部以内(很影响人机效应),同时不需要用半透半反镜,使得系统简洁,小型化,整个系统可以非常扁平。(Hololens 这么大是因为处理器,体感设备,pCB 板,4 个结构扫描摄像头比较大,光学部分是可以跟普通眼镜一样薄)
虽然原理接近,但是实现手段各有不同。现阶段的全息衍射波导光栅有几种主流方案:
基于三色服用相差补偿全息光学技术(MAC-HOE),代表是:美国物理光学公司(physicalOpticsCorporation)
基于体全息光栅(VolumeGrating)的Q-sight 技术,代表是:英国的 BAE 公司,其为 F16,F22,F35 以及欧洲阵风战斗机提供衍射屏显产品
平板波导光栅技术,代表是:以色列威兹曼科学院
倾斜光栅技术,代表是:诺基亚
LightguideOpticalElement(LOE)器件,代表是:ThalesVisionix 公司的 Scorpion,其使用了以色列的 Lumus 公司设计生产的 LOE 器件,为A-10C 对地攻击机和F-16CBlock30 提供相关技术
全色体全息波导光栅,代表是:Sony(其产品和 BAE 公司比较接近)2009 年发布的 Eyeglass(下图,很轻薄)
通过这几家的性能对比,现在军事上的全息波导头盔的视角最好也不过 40左右,所以就不必再吐槽 Hololens 了,这个已经是现在技术的几乎最优了。
这里看了半天,貌似跟微软没什么关系啊。其实,微软早些年已经买入了诺基亚的相关倾斜光栅技术专利。但是,其在 2012 年前后,密集地申请了一堆关于全息\体光栅\波导相关的专利。(去 Googlepatent 上搜索 Microsoft+waveguide+Holographic+Grating 有很多)通过查看专利内容以及实际产品,我较为确定,微软的 Hololens 使用的是类似于 Sony 的体全息波导光栅技术。
Sony 的全色体全息波导技术为了减少相近色光的串扰,G(Green)用单独的一套平板波导和光栅,而R(Red)和B(Blue)公用另一套平板波导和光栅。所以能够实现高饱和度,大视角的彩色图像。而通过观察 Hololens 实物,可以发现相比 Sony,微软应该是将 RB 进一步分拆开,以降低串扰。整个光学通路就想左下图显示的那样。
全息波导作为 AR 头显的光学核心,重要性不言而喻。现在国外的采用该技术的民用 AR 眼镜/技术公司有:
以色列 Lumus 公司
这家原先专做军品的以色列公司,最近开始转向民用。最新一代的 DK-50全息波导 AR 眼镜,采用高通晓龙处理器(ARM 处理器),运行 android 系统,具备 720p 分辨率和 40的 FOV,并且非常轻薄,然而价钱也为 3000 美金。(如下图所示)
相比 Hololens 而言,可能就差在还不具有场景扫描,手势识别,以及 SLAM 算法。
近日宣布其B轮融资成功,达到 1500 万美元。融资主要来源于全球私募投资公司盛大集团和中国光学影像公司水晶光电。
而国内的相关公司则不多,最具代表性的有:
苏大维格
是一家位于江苏苏州的一家A股深交所创业板上市企业。之前一直致力于光电产品研发制造。
在最近,8 月 18 日,苏大维格披露称,其掌握了头戴式三维显示光场镜片的设计与制造技术,自主研发了大视场角的纳米波导光场镜片的高效纳米制备设备。这使得其股价连续 5 个交易日累计涨幅达到 48.2%。任天堂因为 pokemonGo 一周也就只涨了 56%。
它还没有披露更多的细节,笔者会进一步跟随的。如果真的能够有所突破,那么至少从价格上,将会降低 AR 头显的门槛。
灵犀微光科技
是一家北京的创业公司,创始团队则多为北大、清华毕业,来自世界一线研究院,及 Google、LVMH 等公司。
灵犀微光团队采用光波导技术和纳米级耦合光栅,在光学设计、加工工艺和算法上可以实现更轻、更薄、大视野。在其灵犀 AR 眼镜的 1 代原型机中,已实现在 1.7 毫米的镜片上显示 30视场角,720p 的 AR 影像。其样品已经能够达到未来我能够想到的 AR 眼镜的样子了,已经非常不错了。
在 2016 年 4 月 11 日,其获得 2000 万人民币的 pre-A 轮融资,投资方为东方富海、和君资本、西部优势资本。
在看完本文之后,希望大家能够对于现在的移动 AR 头显相关技术有个大致的了解。
最后,笔者还有一点想吐吐槽。
济宁IT新闻