《VR/AR的技术路径选择》

Zmflc 2016-05-18

展开全文

《VR/AR的技术路径选择》

这么多年来，我们分析所有的这些跟图形、跟视觉相关的内容产生的这个流水线的话，大家会很悲哀的发现，虽然internet时代、大数据时代，一代又一代的PC、计算机在发展，但是我们内容产生其实并没有什么本质性的变化。我们基本的流水线是一些大的公司，一些非常专业的人他们组成团队，他们产生一些非常高质量的内容，然后他们通过特定的渠道把这些内容分发给大家，大家来消费这些内容，基本上是这样的一个模式。

大家可以知道，这个原因就是因为我们觉得产生一个高质量的内容还是一件非常困难的事情。在研究院里我们开玩笑说，我们要有一些愿景或者说大家现在都讲究情怀对吧，我们说我们想做一件什么事呢？我们一直从我们学组成立以来，我们想做的一件事情就是说我们如何能够帮助大家，打破一个现实世界和虚拟世界之间的一个界限。一个很重要的任务就是我们希望帮助每一个人能够轻松的产生分享和享受这些三维的内容，让大家能够很自由的在虚实世界之间的这个交互变得很自如，然后能够实现每一个人的想象。

比如说你回家，当你有一天想给你的小孩讲一个童话故事的时候，是不是很容易能够产生一个自己的动画片出来，我们希望有一天可以做到这件事情。

那么，为了做这件事我们就涉及到一个问题，就是我们怎么帮助用户去产生一些三维的图形的内容，包括放在VR、AR这样的应用里面。那么，一个最简单的方式我们就看看，因为我们要做VR、AR一个很重要的原因是我们的真实世界是三维的对吧。那么，就引出一个问题就是说我们看看先别说创作了，我们能不能帮助最终用户，最容易的去捕捉我们真实世界来做这个东西。

其实在我们的这个所有的娱乐产业中，实际上大家研发了很多专业的设备来做这样的事情，比方说大家都知道三维扫描仪对吧，可以扫描所有的形状，用来采集大家所有的材质、丰富的外观来做一些很重要的应用。那么这些设备大家可以看看它们的好处是什么呢？随着大家在的研发，它们可以产生非常非常高质量的结果，这是毫无疑问的。

但是大家如果稍微用过一些设备，大家会发现一些问题，这些东西非常的昂贵，它们每个可能造价几十万美金，甚至几百万美金。同时，最麻烦的问题，它们非常难使，可能需要一个专业的团队来维护它，来使用它，来把数据最后做处理才能让你使用。最重要的它的设备的使用和配置需要一个专门的空间，那么你不能说随便在那使，你可能要把演员送到那个地方去，它才能做这个运动捕捉备。

我们想做到事情是，当市面上出现了新一代的便宜的动作捕捉设备之后，我们能不能用这些视频和设备来帮我们做一些高质量的AR效果出来，我们希望做到又便宜又好使。

当我们想捕捉真人世界的时候，我们可以把真人世界分成三部分：一是周围的环境，二是物品，三是人。首先来看下环境，微软有项技术kinect，基于深度摄像头。我们拿深度摄象头来扫一间屋子已经变得很容易，我们可以把它放在游戏引擎里面，自由编辑。但是也有些问题，深度摄像头的分辨率不高，图像质量不行。

还有一项技术是我们基于图象绘制技术的一个改进，我们叫做基于图象的重光照。这个技术能够对一个场景不止拍一张图片，我希望在一些特定的光照条件下拍一组图片，当有了这组图片之后，我来做什么呢？我希望我可以对这个场景不需要任何其他的支持，我可以对它进行任何复杂的光照，希望能够再现出真实的效果出来。

比如说这边我拍了一套金属的很多零件摆在一起的情况，我现在可以拿不同的各种颜色的光照它，但是可以看右边会产生出非常丰富的光影效果出来，我希望需要的输入就是图象。当然这种技术也存在一定问题：第一，为了做这件事情我需要非常多的图象，比如说上万幅甚至上十万幅。第二件，光不能随便打。

我们想做的一件事情，希望做一个基于图象的重光照技术。第一我们希望这个设备捕捉尽可能简单。我们希望一个人拿一个普通的台灯在这晃一晃，我们希望就能够可以了，不再需要一些专用的设备。第二，我们希望在捕捉的过程中足够的简单，不再需要一些太多的图片了，越少越好，大家随便拍点就好了。

我们确实做到了这一点，我们的设备大家可以看到变得很简单，我们在桌上放了三个定标的小球，实际上就是一个台球，那么我们放了镜头之后，我们可以捕捉这个场景了，大家可以拿一个灯泡或者拿一个点光源在这里面随便晃一晃就可以了。那三个小球只是为了帮助大家决定光源在什么位置就可以了。捕捉了这样的一系列的图片之后，我们就可以做一些重光照的效果，大家可以看一些效果。

《VR/AR的技术路径选择》

在PPT演示的场景中，当我拍了一些简单的比如上百幅图象之后，我现在可以让这个光源在我的屋子里随便转，大家可以看到所有这个场景中的光影效果是非常非常真实的，如果大家自己看，大家可以注意看到一些细节。大家注意看，大家可以看到水瓶上的高光反光，还有很复杂的这个树阴影都可以完美的再现出来，但是这个捕捉我只需要图片，不需要任何的三维重建，所有这些复杂的技术都不需要。

大家再看下面一个场景，就是刚才我们说过这个场景，这个场景中有很丰富的各种金属互相的反光非常复杂的这个东西，同样我们可以把所有的阴影，这些光照效果很真实的再现出来，同样也只需要几百张图片，大家拿着灯照一照就可以了。我们希望这样的技术对达到产生一些高质量的影视内容，能够有一些帮助，简化大家的设置，能够让每一个，大家可能成本不太高，就能产生出一些高质量的内容出来，这是关于场景捕捉方面。

下面我们来看看，我们怎么捕捉一个真实的物体？当我们想捕捉身体的物体的时候，我们想说我们要做几件事。首先，我们希望能知道这个物体的形状，因为我们可能需要把这个物体展示。

不光有了这个形状，我们说我们还需要它的材质，这个材质不仅包含大家简单的讲是说我这个东西的颜色是什么，同样我们大家看右边，包含它的反光是什么样的。比如说如果我给你一个酒瓶子，只有当它有一个非常好的漂亮的反光的时候，你才知道这是玻璃。那么这个东西大家可以知道，在所有的电子商务中可以说有非常重要的应用。

我们研发了两项技术。第一是关于这个形状方面的，我们有一个基于手机的一个三维几何的获取系统，基本上我们只需要大家用的手机做一些捕捉就可以做了。基于大家手机捕捉的图象我们首先给大家提供一个粗糙的模型，同时我们把这些数据上传到网络上去，生成一个更精细的模型。

我们把我们拍摄的东西上传到网上去，把所有素材上传到网上去之后，这个粗糙的模型就可以得到一个很精细的模型，大家看看所有的这些颜色都在上面，可以说栩栩如生。下面大家实际上就可以直接上传到网上去或者直接上传到三维打印机上进行打印，都可以。

这是一个三维形状获取的，在材质获取方面我们也做了一个新的技术，我们是世界上第一个可以不依赖于任何特殊的设备，完全只依赖于大家所用的这个手机也好或者什么也好这个摄象头拍的图象的序列来恢复材质的这样的一个技术，这是世界上首个这样的技术。

这项技术大家可以看到，假设我们已经用其他的三维扫描仪扫描到它的形状了，我们需要知道形状。那么假设像左边这个池的鸭子，我们拍摄了这样一段视频之后，从这个视频中，我们就能恢复它所有的表面材质，我们就可以把它放到一个虚拟的新的环境中去，大家看右边那个环境中，把它做一个重新的绘制，让它所有的光影效果和这个环境是完美的结合到一起的。

大家也可以看到更多的例子，比如说大家可以看到那个酒瓶子，包括金属的那个茶壶还有这个鸭子，还有像一个水杯这样所有的东西，它们表现所有的高度的反光和这个表面材质丰富的变化大家可以看到，用的技术可以非常真实的重现出来。

基于这个技术，实际上我们也研发了简单的几个小样，比如说第一个我们可以看到，我们可以把这个东西放到一个真实的环境里做一个AR的一个小样，大家可以看到这里面实际上这个鸭子是虚拟的绘制的，旁边的所有东西就是我们一个普通的桌面，我们把它融合到一起，大家可以看到显得非常的自然，就像你的东西真的放在那里，你不会觉得有任何违和感，所有的这些光影什么都是非常一致的。

大家可以看到同样的我们可以把它比如说E-shopping，我们把它放到一个超市或者类似的一个环境里。你带上相应设备后，你可以看所有的这些栩栩如生的效果，包括做一些购物，从各个方面看它的东西，甚至把它放到一个特殊的环境中，看看它摆在那合适不合适，所有这些东西都可以在一个VR的环境里来进行。我们希望这样能够进一步的提升大家在VR环境里一个体验，能给大家带来，很多时候你看这个东西不光看一张图片了，你真的可以看的东西大小有多少。

接下来讲我们怎么对人进行捕捉？当做人类捕捉的时候，我们知道人面部表情最为细微。我们想把人做的最真实实际上很难。我们希望捕捉所有的你的脸和你的头发所有这些几何的细节，我们能够捕捉下来，同时我们希望把你的头发和你人脸所有运动的细节也能够捕捉下来。这些东西可以说对产生一个虚拟的形象来说是非常非常关键和重要的。同时，我们希望这些技术不需要有一些人工再次操作最好。

我们来看看我首先给大家演示一个技术，是我们在2014年完成的一个技术。通过这个技术，我们优酷上下载一个视频，然后通过一个系统全自动的处理，来产生这个人的三维的人脸的所有的形状和他的动态的所有的细节都产生出来。

有了这个东西可以做什么呢？我们来看我们可以做很多有意思的事情。比如我们可以做一个微视频的编辑。那么我们的系统完全可以自动生成非常非常高度、真实的真假难辩的视频出来。此外，我们还可以做更多的事情，比如说这个视频，我们做一个视频上的人脸的去皱，不光能去皱，我们可以决定你要去什么地方。

比如说我可以把额头去掉，这个人的酒窝很可爱，就可以把它保留下来对吧，接着留着没有问题。这个同样我们只需要在第一针做一个处理就可以了，剩下我们系统会自动的帮助大家把后面的所有针中动弹的时候，不管你动到哪，这个皱纹都会帮你自动减掉。

《VR/AR的技术路径选择》

那么有了这个东西之后，我们看看我们怎么捕捉头发？头发是一个非常非常具有挑战性的题目。这边我们做了一个结果，大家看左边实际上是我们的实验室一个假发，被风吹一吹有一个动态，右边是我们重构的一个结果。为了做这个事情，因为头发这个事情坦白讲动态的东西之前都没有人做过，所以我们开始要从一个比较难一点的，我们用了21台运动捕捉相机来围绕着这个人进行捕捉。

做了这个之后，我们的系统就会全自动的把后面所有的东西都做了，大家看这是捕捉的视频，从21个不同的视点捕捉的头发的，短发的一个视频。有了这个视频之后，我们来看看我们能做成什么样子？大家可以看到一个头发慢动作被风吹起来了，那我们就可以把他三维的这个头发完全的恢复出来，一旦恢复出来有一个好处，我们现在可以从任何视点，用任何光照去体现这个头发，同时这个头发一旦恢复出来，艺术家可以很容易的做一些编辑，让它飞得更厉害或者飞得更少一点，都可以做到了。那么大家可以看下面一个短发的结果，我们的系统同样可以很好的让大家把这个运动很真实的恢复出来。

我给大家演示了我们最近几年在这些方面所做的一些新一代的研究工作。下面你们想做什么？下面应该怎么做呢？我完全从一个技术观点来谈谈我的一些想法。

第一点，我觉得很有意思的事情，就是VR和AR我觉得会让很多原有的大家在10年前甚至5年前研发的一些图形学的技术重新焕发新生，那么但是这些技术并不是大家直接就用上的，由于有了VR和AR的一些新的需求，大家可能需要把这个技术做一些改变来应用到这里面，让它变得更快、更高质量、更便宜。比如说我们传统上说的基于图象的绘制技术。

大家现在能看到的很多人在研发的多镜头的相机，那是一个我们叫做全景视频，那是一个最简单或者说大家最成熟的一个东西。最右边大家也可以知道，有所谓的光长捕捉技术，很高大上的东西，我捕捉所有的光线非常昂贵，还不现实。我坚信，从我个人来讲我坚信在这中间存在着一些新的技术，突破点，可以产生一种能给大家带来比全景视频更好的体验，同时造价并不高的一些技术，坚信在这方面存在着很多的机会，技术上的研发的机会或者成功的机会。

第二点，随着捕捉技术的发展，我是觉得大家可以看到通过结合一个低质量的设备，低造价的设备加一些非常新颖的算法，可以产生一个新的内容。以前我只能组一个班子投资几个亿才能做出一个片子，现在我有了这些设备，这些算法之后，我完全可能几个人我就可以产生出一个相对来说质量比较高、故事比较好的影片。这样这个市场很可能会和专业的电影并存，但是这个会给大家提供很多的机会。

最后，我们所有的这些技术，今天我没有讲所有的技术细节。那么所有这些技术，大家说为什么你现在能做到这个东西呢？我说所有的东西来自于数据，就是说这些算法的根本在于我们事先捕捉了大量的数据，通过对这些数据进行分析，我们找到了数据中内涵的规律，我们用这些规律来指导我们算法，才能获得现在的结果，我们输入的质量下降了，但是我们获得结果的质量没有下降，给我这几年体会最深的就是数据为王，现在高质量的数据，高质量的三维数据和所有的这些数据非是一个非常非常重要的一个关键。如果大家想在这方面有一些突破的话，如果你一个企业或者一个什么公司，如果他没有高质量数据的话，基本上没有成功的可能性。大家看到在传统的图形学中，大家都是用一些基于物理模拟的方法，大量的计算来做的。