微软总部门前,一排排高大的冷杉树耸立两旁。微软员工们坐着小巴穿越过这片繁盛的树林,眼帘中映入几十座看起来并不起眼的建筑。在华盛顿州雷德蒙德市这片 500 英亩的土地上,一座由混凝土和玻璃构建而成的 99 号大楼坐落其间这就是著名的微软研究院。Ivan Tashev 穿过安静的大厅走向他的实验室,走向他为 HoloLens 设计空间音效的地方。
微软研究院是世界第二大计算机科学机构,Tashev 是该研究院音频小组的负责人。他和他的团队现在致力于为 HoloLens(一台把数字影像叠加在现实世界中的设备)研发 3D 音频系统,以使人们戴上它之后的体验更生动,更贴近现实感觉。
和虚拟现实一样,混合现实的视觉表现力也为人们所称道。当你第一次戴上 HoloLens 头显时,逼真的全息影像会立刻吸引你所有的注意力:你会在射击游戏《 RoboRaid 》中看到外星人从墙壁中爬出来,或体验美国宇航员Buzz Aldrin漫步在火星表面的感觉。带上头显,你能看到逼真的虚拟影像,但真正骗过你的大脑,让你误以为所见为真的其实是空间音频在敌人破墙而出之前,你能听到他们的动静; Buzz Aldrin漫步于红色星球时,你能听到他在讲话。
听到四周发出的声音能让你更加确信自己身处全息图像中, 微软音频创新部门总监 Matthew Lee Johnston 表示道,全息音频越真实,身临其境的而效果就越好。
该听觉系统的设计,其实是在模仿人类大脑处理听觉信息的过程。空间听觉是我们感知生活的基础之一。我们总是在不断地接收环境中的声音,并时刻给它们定位,Johnston 说道。
我们的耳朵负责处理和解释声音,而大脑则根据耳朵输入的线索更精确地定位声源。比如,当你走在大街上注意到一辆公交车是从你的右侧驶过,这是因为声音会最先到达离它最近的耳朵,即你的右耳,所以右耳听到的声音会比左耳要大。大脑就是根据这些微小的线索给声音做精准定位。
除此之外,影响声音感知方式的还有另一个物理因素。
声波在进入耳道之前会与外耳部、头部、甚至是颈部产生相互作用。因为人体各部位的形状、大小和位置都会对接收到的声波产生影响,它们在不同个体间的差异会使每个人听到的声音都略有不同。这种效果被称为头相关变换函数(HRTF)。
而这些微小的差异正是空间听觉体验最重要的部分。要使大脑相信空间音效是真实的,就必须给它输入这些线索,而且还要精确。没有一劳永逸的解决方案,通用过滤器也使所有人的需求得到满足, Tashev 指出,让虚拟现实达到想要的效果,我们就得让设备学会因人而异。
因此,Ivan Tashev 的团队就开始在微软实验室收集各种各样的音频数据。他们采集了上百人的头相关变换函数,并给每个人建立听觉曲线。声学测量和头部 3D 精准扫描使 HoloLens 的设计更加科学,而及时和准确的校对则可匹配最适合个体的空间音效。
8 月下旬一个阳光明媚的清晨,Tashev 再次回到 99 号建筑,来到微软总部的实验室中。他身着黑色裤子和铂金灰色衬衫,这和他的发型很搭。拉开实验室沉重的大门,Tashev 走进一个隐蔽的房间中,这就是他进行声学测量的地方。房间墙壁上大面积的泡沫楔子使之与建筑物中的其他部分隔离开来。地板底部有一层吸声器和一层金属丝网这样的结构能吸收所有声音和震动,创造出一个消音室,也就是一个没有回音的空间。
但只要在这个房间待上几分钟,你就会开始感到不适。你能听到血液流过心脏的声音,感觉到愈加频繁的呼吸声。在消音室中有这种表现很正常,几十年前就已经如此早在 1943 年,为了测试广播和扬声器,哈佛电声实验室的主任 Leo Beranek 博士建立了世界上第一间消音室,并于二战期间用它来改善噪音控制。从那时起,人们就开始设计类似的消音室用于测试麦克风以及多方向音频系统的头相关变换函数。
在微软的这间消音室中间摆着一张黑色皮椅,Tashev 的这张椅子已经测量过 350 个人的头相关变换函数。测试者戴上一对很小的桔色耳机后,配有 60 个扬声器的黑色机组就会从背部慢慢升起。当该设备在测试者面前成弧度移动时,它会稍作停顿,播放连续、刺耳、像是激光一样的声音。
通过在测试者周围播放声音,研究团队能够从左右耳 400 个不同的方向收集精准的声音线索。 这个方法使头相关变换函数过滤出每一个声源。如果我们知道过滤的方向来自哪里,我们就能建立一个专属个人的空间听觉, Tashev 说道,我们能骗过你的大脑,让它以为声音是从特定方向传过来的。
为了让用户以为全息图来自于一个特定空间,我们要用到相应的音频滤波器。当 HoloLens 播放这些特定声音时,头相关变换函数就能让大脑实时感觉到声音的源头。
尽管这种技术已能产生相当逼真的效果,但它仍无法代替立体声和环绕声系统。因为,除了精准的声学测量,系统还需要持续不断地对头部进行追踪。头部所处的方向直接决定声音到达耳朵的方式。当一辆公交车朝你的方向驶来,你把头扭向一边和盯着它看所得到的听觉效果显然截然不同。
不过 HoloLens 的团队无需为解决此问题绞尽脑汁,因为全息视觉已经解决了这个问题设备配有 6 个摄像头,有 1 个专门用来监控头部运动。听觉系统只需对这些信息进行分析即可。
创建个人音频系统的公司,并非只微软一家。他们中大多数人都会采用头相关变换函数,或通过专门的研究实验室创建VR3D 听觉体验。过去几年里,美国普林斯顿大学,机械和航天工程教授 Edgar Choueiri 一直在使用入耳式耳机技术;一家基于马里兰大学研究实验室的公司 VisiSonics 也一直在测量头相关变换函数,并建立了自己的数据库。
虽然有竞争对手,但微软并不担心,因为它有自己独特的工程技术音频校准。
第一次使用设备时,设备会指导你完成眼部校准。为了测量瞳孔之间的距离,你需要闭上一只眼睛,抬起手指点击面前的投影图像;接着换另一只眼睛做同样的动作。系统则通过这样的方法计算瞳孔之间的距离。在这个过程中,系统还同时通过算法进行另一项工作:Tashev 已在此前的实验中扫描和测量了数百个测量者眼距和耳距之间的关系,并建立了一个通用的平均值。因此,结合实验结果与佩戴者的实际情况,就能通过一个人的眼距推算出耳距。
研究团队则希望信息收集的过程越隐秘越好。我想我们做到了, Tashev 说,用户在使用 HoloLens 时甚至不知道 HRTFs的个性化设置究竟从何时开始,又是如何进行的。
想要全方位模拟现实场景,研究人员不仅要在软件上下功夫,还要考虑硬件配置。不久后我们就意识到除了要听到全息图像中的声音,用户还希望能听到所处实际环境中的声响。所以我们需要一些在耳朵外部,但是靠近耳朵的扬声器,以确保声音能以某种程度到达耳朵。
Strande 表示,早期 HoloLens 配有小型管道,能把空气导入耳道中。另一种想法是把管道换成了耳机。但团队最终选用了一对轻薄的红色扬声器。
大多数人都不知道那有一个扬声器, Strande 说道,用户第一次佩戴设备听到环境中的声音时,他们会以为声音来自于房间中的扬声器。所以用这种方法模拟环境很管用。
除了 HoloLens,微软还把空间音频嵌入到操作系统中,因此,该技术可兼容所有使用 Windows 10 的设备。在 10 月举办的 Surface 发布会上,微软还为其 Windows 系统发布了新的 VR 头显。可能以后,空间音频技术将从全息混合现实转移到完全沉浸式的虚拟空间中。
Strande 说:音频在混合现实和虚拟现实中都很重要,因为它和用户体验直接相关。但游戏和软件开发商不够足够重视该问题。如果没有音频,用户就会立刻怀疑体验的真实性。因此为了让体验变得更真实生动,必须要加入空间音频这一因素,特别是当用户看到不断移动的全息图像的时候。
via:engadget
济宁IT新闻