在20世纪60年代人类开启了计算历史上的第一次大浪潮,现在人类在努力用AR/VR开启人类计算历史上的第二次大浪潮。
一周前,我们映维网发表了名为《2019,AR/VR行业新起点!奠定未来五年,新入局者再无先发优势机会》的文章,简单地分享了我们对AR/VR未来的期望。为了更好地更专业地更系统地描述AR/VR的蓝图,展现出AR/VR的的颠覆性潜力。我们映维网找来了Oculus首席科学家迈克尔·亚伯拉什对AR/VR世界的愿景描绘。
为了给Oculus Research(现已经更名为Facebook Reality Labs)招收更多优秀的研究人员,Oculus首席科学家迈克尔·亚伯拉什在一年前撰写了一篇《Inventing the Future(发明未来)》的文章,并详述他们在如何努力开启人类计算历史上的第二次大浪潮。
下面是迈克尔的全文内容。
我正坐在一间小小的面试室里,而对面坐着的是我今年(2017年)为止面试过的数百名Oculus Research求职者中最聪明的其中一位。她的能力无容置疑,但这只是一半。我不确定她是否会享受这份工作。所以我问了一个此前已经问过数百次的问题:“你是否会对接下来数年的工作感到兴奋?”
以往的回答往往没有什么太大问题,平淡的面试回答:“做有挑战性的工作”,“创造新事物”,“与能够向其学习的聪明人一切工作”。但这一次我的耳朵却传来了一个从未听过的答案:
我希望发明未来。
我顿时明白,这正是她要来的地方。
从太空旅行到医学,再到互联网,我们的世界不断在很多方面得到彻底改造。对于我们正在创造的未来,真正以人为本的沉浸式计算将成为数十亿人日常生活中不可或缺的一部分。这个未来包括虚拟现实和增强现实,其中VR基于头显,如Oculus Rift和三星Gear VR,它们阻挡所有外部光线并渲染纯粹的计算机生成场景;而AR则涉及包含透视镜片的眼镜和头显,并将虚拟图像叠加到现实世界之中。在今天,AR和VR是非常不同的体验,但随着它们在未来十年内不断走向成熟,这两者将会实现融合,而将虚拟现实和增强现实联合起来的核心体验是能够自由混合真实世界和虚拟世界的能力。
就像曾经的计算机和智能手机那样,VR和AR将从根本上改变我们的生活,甚至可能产生更广泛,更深远的影响。在过去的40年里,个人电脑,智能手机和平板电脑支持我们通过2D屏幕不断地,近乎瞬时地访问数字世界,并在这个过程中几乎触及了我们生活的方方面面。在接下来的40年时间中,AR和VR将允许我们真正生活在现实世界和虚拟世界的混合体中,而这将再次彻底改变我们工作,娱乐和沟通的方式。
科幻作家亚瑟·查理斯·克拉克爵士(《童年的终结》、《月尘飘落》和《2001太空漫游》等)曾说过:“任何足够先进的技术都将与魔术别无二致”,而成熟的AR和VR将带来真正神奇的体验。比如说AR眼镜,它将支持你超越空间,随意召唤物体和装置,并将你的感知,记忆和认知放大到超人般的水平。
想象一下戴着这样一副眼镜,无论身在何处你随时都能探望父母,在午休时间游览卢浮宫,与地球另一边的朋友共同散步,仿佛他们真的就在你身边一样。想想我们选择居住的地点将如何发生变化。想象一下,你的眼镜可以用虚拟版本来替换掉你所有的电子设备,包括手机,电视,电脑,电子书阅读器,游戏主机,而且在这个过程中将能大大降低它们的哦成本,并可立即升级。你只需支付数元钱即可购买虚拟大屏幕电视,而不是在客厅安装昂贵的实体版本。想象一下,这款眼镜可支持低光,嘈杂环境,记住人们的名字,确定到达目的地的最快方式,并为世界另一边的朋友留下虚拟便笺。想象一下,无论你做什么,眼镜都能自动为你提供相关的信息 – 穿上它们你就可以在智力竞赛游戏节目“Jeopardy(危险边缘)”中击败著名人类选手肯·詹宁斯(Ken Jennings)。当然,它们可以做到今天智能手机所能做到的一切,但总是能立即实现。
谁不会马上戴上这样的眼镜呢?
当然,今天尚无法实现,因为技术还没有成熟。我们正在努力,但现在实现AR的魔力只是一个愿望。在另一方面的,虚拟现实已经不仅只是憧憬而已。相关产品已经发货,而它们绝对存在一定的魔力。但是,今天的头显仅仅只是开始。在不远的未来,虚拟现实会将我们沉浸在视觉,音频,甚至是触觉的清晰世界之中,而当我们不是在行走中时,VR将成为工作,娱乐和通信的首选环境。
然而,VR最重要的一步将是将现实世界导入虚拟世界的能力。VR头显可以配备能够实时重建现实世界模型的传感器,然后可以对其进行装饰,修改,增强和共享。虚拟图像可以与现实世界混合以增强现实世界,而反映真实人物外形,运动和独特特征的虚拟化身可以共享这个空间。这是与透视AR非常不同的技术,但结果殊途同归,虚拟和真实的融合创造了比两者任何一个都要强大的现实。
AR和VR一起构成了这样一个广阔的平台,它将以非常不同的方式改善我们的生活。我本人已经是迫不及待地想要走进个人虚拟工作空间,我希望在我的职业生涯结束之前能够在这里完成大部分的工作。与来自世界各地的其他人合作将是其中的重要部分,单单是能够与匹兹堡实验室的亚瑟·谢赫(Yaser Sheikh)分享虚拟白板都将是一次巨大的胜利。在工作空间之间即时切换的能力将带来颠覆性的改变。但真正的关键是,经过30多年的发展,我终于能够拥有一直所渴望的(虚拟)大屏显示器。
在过去30年里,VR都一直接近于成为下一个划时代的产品。但最近许多事情已经发生了改变,而这在很大程度上是得益于摩尔定律和为智能手机开发的技术。“这一次已经有所不同”是一种冒险的说法,但这一次确实可能已经有所不同。数以百万计的VR头显已经发货,而大家都在竞相开发第一款真正的AR眼镜(针对消费端)。AR和VR有可能已经准备好开始腾飞,而当那一刻来临时,这将会以我们无法想象的方式来颠覆我们的生活。虚拟世界有可能在更大的范围内提供如同现实世界般丰富的体验。毫不夸张地说,VR和AR有可能极大地扩展人类全方位的体验。
但是,我们才刚刚开始实现这种潜能,而从光学和显示器到计算机视觉和音频,再到用户界面和体验等等,我们在未来还有很多工作要做。Oculus Research的目标是发展所有这一切,并将它们整合在一起,从而令VR和AR成为未来的平台。要实现这一点将需要多年的时间,以及大量的创新,所以我们要有远见和资源,而且最重要的是,我们需要非凡的人才。
道格拉斯·兰曼(Douglas Lanman)标志性的正能量随着他独特的声线(口音暗示着他是在俄克拉荷马州长大)散发至整个房间。
他说:“那天我有个主意。”
他专长于计算机成像,你会感觉到他总是在思考如何将光学与计算整合在一起的新方法。他的工作是将合适的光子带到你的眼睛,从而产生最接近的现实。这是他在麻省理工学院媒体实验室、英伟达和现在Oculus Research所追求的目标。
道格拉斯对支持用户能够一整天地舒适使用VR尤为感兴趣。其中一个重大的挑战是,当前的VR头显是在固定距离下聚焦,而这有可能产生视觉疲劳和不舒适。这个问题存在一系列可能的解决方案,包括全息图,多焦显示器,多透镜光场显示器和变焦显示器,但它们至今都尚未走出研究阶段。
道格拉斯探索了上述提到的每一种解决方案。事实上,他最近发布文章讲述了这样一种焦平面显示器,相信你已经读过相关的报告。他最终认为,变焦显示器的前景足以支持下一阶段的研究,并组建了一支大约40人的跨学科团队来构建一个能够证明其有效的原型,而这最终将能带来可以解决景深问题的头显。
研究实验室的DNA涵盖了从蓝天到高级产品开发的各个方面。Oculus Research则位于中间位置,希望在存在深远影响力的尚未真正被解决的问题上取得突破,但同时始终着眼于将结果带给世界。道格拉斯是作为一名世界级研究人员来到Oculus Research。他继续做世界级的研究和发表论文,但他与团队所做的研究或许有一天能够支持数以百万计的人们轻松操纵虚拟对象,并在VR中进行阅读。令道格拉斯惊讶的是,这种组合比纯粹的研究更有价值。
道格莱斯的研究只是我们编织的数十个技术挂毯中的一个。为了令VR和AR成为日常生活的一部分,我们需要整合计算机视觉,光学,显示,用户界面,用户体验,音频,触觉,感知科学,材料科学,硅,操作系统,纳米加工,动画,渲染,手部追踪,眼动追踪,语音识别,以及更多能够提供神奇体验的系统。当然,这需要道格拉斯这样优秀的研究人员。但我们同时需要其他东西:将研究转换成可行设备的能力。
从一开始,Oculus Research就围绕着完整硬件/软件堆栈的快速迭代而构建。我们拥有开发VR和AR原型系统所需的一切,而由于硬件开发的时间总是更长,所以我们把更多注意力放在尽快构建所需的元素。
快速迭代需要一个包罗万象的商店。这里同样有你进行快速建模所需的一切,包括3D打印机,镭射激光和喷水式裁剪机等等。而且我们有一支优秀的工程团队来管理它们。
这一切赋予了我们快速迭代和控制每一个环节的能力。因此,我们能够在内部构建出道格拉斯提出的变焦显示器。
从世界上最优秀的隔音室到Sausalito动捕设备,到先进的制造设施,再到爱尔兰科克研究工作室的微组装能力,Oculus Research为每一个研究团队提供了快速行动所需的一切。
软件当然同样重要,变焦显示器项目依赖于实时固件来控制硬件,全新的渲染技术可以产生正确的焦点 ,一些优秀的演示行编程可以证明体验,而用户学习软件可以确定变焦显示器实际带来的不同。
从固件到驱动和API,再到操作系统,演示,模拟,网络,数据库,机器学习,GPU,计算机视觉,应用程序,测试套件,游戏和其他,Oculus Research涵盖的软件工程范围很广。举一个例子,对于AR,从驱动程序和图形管道到应用程序模型,整个操作系统堆栈将不得不围绕续航能力来重新考虑和重新构建。在我的职业生涯中,我在所述的每个领域都编写过代码,而且非常喜欢这项工作。当然,这些日子我的工作几乎不涉及编码,但Oculus Research是我的终极选择。
VR和AR有很多方面,但大多数人想到的第一件事情是看到虚拟对象。实际上,它同时是实现优秀虚拟体验最困难的部分之一。
为了解决这个问题,我们组建了世界上最优秀的光学团队之一,并配备了各种设施,从而支持他们来推动各项技术的发展。例如,AR眼镜中一些最有前景的方法涉及波导,其中光线可以注射至平整玻璃或塑料片,沿纵向反射,并最终偏转进入瞳孔。由于波导十分扁平和细薄,所以适用于类似眼镜这样的形状因子,但图像质量,透视质量,视场,景深,效率和可制造性方面非常复杂。解决所述问题需要复杂的计算,并结合各种新兴方法来快速进行实验,因此我们建立了一个最先进的,为纳米制造光学结构而设计的洁净室,专门用来构建我们自己的定制波导。
设备和团队共同实现跨学科新技术的快速端到端开发。例如,当感知科学家玛丽娜·赞诺丽(Marina Zannoli)还是是伯克利大学的博士后研究员时,她就曾梦想建立一个可以统一研究众多不同显示技术的景深的测试平台,比如说道格拉斯提出的变焦系统。作为博士后,玛丽娜无法将所需的光学和工程专业知识汇集在一起,但在来到Oculus后,玛丽娜与光学科学家尤素福·苏来(Yusufu Sulai)进行了合作,而后者刚刚完成了视网膜成像领域的博士后学习。尤素福和玛丽娜共同设计了同类第一款用于探测人类视觉系统极限的工具,而且尤素福在一年之内构建了完整的系统,按规范运行并部署于实验之中。
光学团队的组建者是斯科特·麦克尔唐尼(Scott McEldowney)。他是一位从业30年的资深人士,而且每天坚持骑自行车上班。这些年来,斯科特非常谨慎地组建了一支独特的团队,人人都具备能够执行和开发先进技术所需的一切。斯科特曾说过这样一句话:“为了成就一番伟大的事业,你就不能满足于一个个的优秀。”
我们有幸拥有了足够的设备,以及足够的人才来实现一番伟大的事业。
从加州理工学院研究生毕业后,肖恩·凯乐(Sean Keller)就成为了史上最低功耗抗辐射微处理器(量级足足降低了两倍)的设计师。他发明了一种新型电路分析来实现这一目标。至少可以说,肖恩并不害怕走进一个全新的,未经开拓的开发领域。
这十分幸运,因为他已经接受了另一个不同的挑战,并领导着用户界面团队,而这可能是AR面临的最大挑战。不是说其他挑战并不严峻,只是在AR中要把正确的光子带到你的眼睛里真的异常困难,令计算机视觉在眼镜功率和重量预算下正常运行同样困难,但至少它们是较为明确的问题。
无论标准的AR用户界面最终是什么(而且它将在多年之后才能确定),这都将是一个全新的元素,因为基于鼠标/GUI的界面来自穿孔卡片,计算机打印输出和电传打字机。你必须能够任意情景下与AR眼镜进行交互,因此界面必须支持多模式。手势操作很好,但当你与某人面对面时,你可能不太可能使用它们。如果你手上拿着东西,你同样无法使用它们。语音是另一个不错的选择,但在会议或嘈杂的房间里,它显然不是一个很好的选择。手持式控制器可以非常有效,但只有当你拿着它的时候才是,并且只有当你能够腾出双手,以及在社交情景上可以进行使用时才是。每种交互模式都有其优势,但没有一种模式可以满足所有的需求,而挑战在于设计一个可以在它们之间无缝切换,并在任何给定时刻决定使用哪种模式的界面。
因为AR眼镜可以提升你的感知,记忆和认知,它们还需要预测你想要什么,以及同样重要的是,你不想要什么。正如我前面提到那样,如果你不记得某人的名字,戴上眼镜后它就会提醒,这很棒。与此同时,在上班时如果眼镜坚持告诉你每个人的名字,你将永远都不会再佩戴这款设备。AR最终需要成为一整天围绕着你的推理云,能直截了当地为你提供帮助,以至于当你摘下眼镜时,你会觉得大脑的一部分已经入睡。
你可能很想知道为什么是肖恩在领导用户界面团队,而不是一个知名的UI研究员。根据我的经验,实现跨世代飞跃的关键是让伟大的问题解决者处理问题,不要以经验几何论英雄。正如托马斯·库恩在《科学革命的结构》中观察到的那样,是新面孔尝试了与现有方法不同的解决方案,并最终带来了范式转变。事实上,VR和AR的发展非常迅猛,以至于现在根本不存在所谓的专家,只有聪明绝顶的人才能运用他们的技能和创造力来解决最困难和最有趣的多学科问题之一。
探索新的、有风险的方法需要坚如磐石的组织支持,而对于Oculus Research,公司管理层给予了坚定的承诺。马克·扎克伯格经常将VR和AR描述为下一个计算平台,并将其作为Facebook未来10年战略的关键。你可以关注他在过去几次的F8大会主题演讲(F8 2017,F8 2016)或者季度财报电话会议。事实上,我们的AR计划是马克愿景的直接结果。项目之所以能够开始的原因是,马克认为这是我们需要做的长期投资。
马克的愿景非常合理,因为AR和VR能无缝融入Facebook的使命:亦即拉近世界的距离。即使在这个早期阶段,像Facebook Spaces这样的社交VR已经说明了虚拟社区的潜在力量。无论他们身在何处或正在做什么,AR将使人们更紧密地联系在一起。
老实说,当马克第一次提到AR的话题时,我当时表示自己不太确定它有何用处。大家脸上都出现了一种难以置信的表情,而这激励着我更多地思考AR的潜力。三年后,我完全相信我们未来都会佩戴AR眼镜,包括我自己。但确实,最初是马克的愿景令我思考这个方向,并说服我要努力令AR成为现实。
尽管AR眼镜有可能成为21世纪中最为重要的技术之一,但除非我们能够解决一些非常具有挑战性的限制,否则它们将无法成为现实。它们必须轻盈舒适,足以全天佩戴;每一次充电后都可支持非常长时间的续航,同时不会出现过热问题。能够支持阳光充足和黑暗的环境;并且提供出色的视觉和音频质量,这包含虚拟和真实。它们必须完全被社会所接受,事实上,它们必须足够时尚。AR需要一个全新的用户界面。最后,支持虚拟对象,远程呈现和感知/心智超能力所需的渲染,显示,音频,计算机视觉,通信和交互功能必须在整合至一个能够满足上述约束条件的系统。
目前的现有技术都无法满足所有这些要求。事实是,物理定律可能令我们无法构建出真正的全天候AR眼镜。光学,电池,重量或散热方面没有摩尔定律。我的猜测是,它实际上是有可能实现(显然如此,否则我将不会做无用功),而如果确实有可能,我认为全天候AR眼镜很有可能在未来十年内发生。但这是一项艰巨的技术挑战,需要我们取得一系列的突破。
AR在很大程度上是一片未经探索的空间,所以没有办法事先知道什么样的体验会令AR眼镜值得一整天穿戴。所有这些都意味着涵盖上述方面的AR眼镜项目实际上是,研究,工程和体验原型制作的持续性联合演变。因此,尽管这里取名为Oculus Research,但AR项目实际上是研究,孵化和产品开发的混合体。
解决这样一个庞大,雄心勃勃,多方面的项目需要紧密的团队合作和不断的沟通,同时需要大量,多样化的专家和通才,涵盖用户体验,硬件,软件,光学,显示,传感,硅,感知科学,计算机视觉,音频,用户界面,操作系统,系统架构,程序管理等等。我们还需要在各个专家和子项目之间培育出创新能力,同时仍然维持实现总体目标所需的纪律。对此,这种微妙的平衡行为非常适合AR孵化部门的总经理萝拉·福莱尔(Laura Fryer)。
萝拉是一位直言不讳,永远乐观的游戏行业资深人士,拥有数十年的管理与制作经验。她曾参与的项目包括《战争机器》和最初的Xbox主机等等,同时在WB Games担任过四年副总裁,制作过2014年的年度最佳游戏《《中土世界:暗影魔多》,并且创建了Epic西雅图办公室。我是在供职微软期间认识了萝拉,并抓住机会说服她加入Oculus Research,因为我知道我们需要她的优秀人际交往能力和责任感。她的领导风格是糅合一系列不同性格和富有自我主义的研究人员和工程师团队的关键,令他们不仅能够共存,而且能够超出各部分之和,成为一支能够比个人做出更好决定的团队。
萝拉的首要任务始终是用户体验,这是在制作过数十款游戏后所学习到的一课。她说道:“玩家购买的是体验,而不是技术。”对于AR这个在很大程度上都未经挖掘的领域,她强调技术和体验都不能单独成为解决方案,两者之间的创造性对话将成为关键。
对于令Oculus Research如此独特的人文,萝拉有一个有趣的观察:“在这里,你周围都是比自己更聪明的人才(至少在他们的专长学科),而且他们真的会质问所有事情,我们也非常鼓励这一点,因为不这样就无法解决AR眼镜的问题。如果你习惯于成为最聪明/最合适的人才,你在这里可能会比较难以做到,但这是我见过的最适合个人成长和职业发展的地方。”
制作AR眼镜异常困难。要取得成功,我们需要相应的优秀人才,而萝拉是将他们捏成一股绳的强大力量。
老实说,我最初低估了推进所有这一切需要的元素。当我加入Oculus的时候,我只是要组建一个30人到50人的研究团队而已。
幸运的是,我同时低估了其中的有趣程度。
在过去的两年里,理查德·纽科姆(Richard Newcombe)可能有一天是失去了那炽热的活力,但如果确实是这样,我可能恰巧错过了那一天。他会在半夜给我发信息。他必须要睡觉休息,但我不知道是什么时候。他是一个人类发电机,所有的能量都集中在一件事上,亦即开发能够感知和理解世界状态的技术。
一个例子是可以扫描房间并从中构建数字模型的系统,然后这个系统可以用于在VR中渲染房间,从而能够混合真实世界和虚拟世界。大多数人都会将其称之为计算机视觉,但在理查德的脑海中,计算机视觉只是机器感知的一部分基础。机器感知将各种追踪系统,即时定位与地图构建(SLAM),机器学习,分布式网络,数据库和AI融合到可以构建和维护动态世界模型的系统之中,并实现可以开始理解世界对你而言至关重要的部分的个性化情景AI,而这正是AR眼镜为令你变得更聪明而需要的一切。
跟其他基于数据的现代技术一样,机器感知越先进,它所使用的数据就越多。挑战始终是如何获得足够的数据来开启更多数据的良性循环。为了引导这个过程,理查德和他的Surreal Vision团队构建了一个完整的公寓,精确地测量了其中的所有内容,并构建了在一个典型日子里可能与它们交互情况的详尽内容清单。然后,这可以用于观察人们在生活空间中的真实情况(与人工研究设置相反),以及用于衡量各种机器感知方法的性能。
当理查德穿上粗花呢绒布外套时,他看上去就像是一位牛津大学的教授,而他的英国口音更是强化了这一点。他是世界上最优秀的计算机视觉研究人员之一,曾在2015年赢得了CVPR的最佳论文奖。尽管如此,他不是一位象牙塔学者。Surreal团队专注于开发最先进的技术,然后将其推向世界各地,用于VR头显,用于AR眼镜,用于智能手机,总之用于存在用武之地的地方。
最终,Surreal团队的所有研究都是为了回答一个基本问题:有什么可以了解这个世界?过去发生了什么;我们对现在知道什么;我们是否可以预测未来?假设我们不是生活在《黑客帝国》之中,确确实实存在一个真实世界,但我们只通过各种信息来了解它们,例如传递至眼睛,耳朵和鼻子的光子,声波和气味和光子等等。理查德的兴趣在于,从这些痕迹中提取最大量的信息。这就是计算机视觉的真正含义:感知来自现实世界的能量,然后评估世界感测区域的各种可能状态概率,以便重建最有可能的状态(这正是我们自己的感知系统所做的事情;光幻视这个例子是最有可能的状态恰好是错误的状态。)。因此,重建世界状态的过程有时被称为“瓦解概率分布”。
当我第一次见到理查德时,我认为计算机视觉只是追踪头显的一种方式,因为这样可以绘制正确的虚拟场景。当我们彼此了解时,他逐渐教会了我更多关于机器感知的知识,但他是在一年半前才透露了他的目标。我记得十分清楚,他当时身体微微前倾,而眼中闪过一丝光芒,他说道:“我真正想弄清楚的是,如何瓦解整个宇宙的概率分布。”
我绝对不会与他进行打赌。
在60年前,一位名为J。 C。 R。 Licklider(约瑟夫·利克莱德)的心理学家提出了这样一个愿景:在未来的世界中,人类将能够直接与计算机进行交互以提升人类的能力。在20世纪60年代,他通过ARPA(美国国防部高级研究计划署)培育了这一愿景(他同时在那里设计了互联网的初期架构)。他在ARPA的助手和最终继任者鲍勃·泰勒(Bob Taylor)后来领导了施乐公司帕洛阿尔托研究中心的计算机科学实验室。他们在20世纪70年代将所有一切都整合起来,并带来了激光打印机,以太网,以及第一台真正意义上的个人计算机,Mac、Windows、平板电脑和智能手机的“祖先”Alto。得益于利克莱德和Xerox研究中心的成果,现在无论我们走到哪里,我们都可以随时随地通过2D表面来与虚拟世界交互。
这是人类计算历史上的第一次大浪潮,它几乎改变了我们生活的方方面面,但这并不是故事的结局。只有当我们生活在一个由虚拟和真实交织在一起的世界中时,以人为本的计算才能真正发挥出完全的潜力,而不是说通过平面端口来与虚拟世界交互。这就是AR和VR的全部意义所在。这将成为第二次大浪潮,除非事实证明我们几乎不可能创造出足够好的虚拟体验,否则增强现实和虚拟现实就是未来,就像个人计算机一样。
这并不意味着VR和AR将自动发生,它们需要非常复杂的技术和跨越多个领域的突破。这种魔力只有在大量的人才和资源聚集在一起时才会发生,就像45年前的施乐帕洛阿尔托研究中心所那样。世界上只有少数几个地方同时整合了实现这一目标的愿景,资源,商业模式和人才,而达到临界点的则少之又少。
而你在上文刚刚看到了其中一个。
来源:yivian