李飞飞最新采访：AI教母携手高徒揭示AI的下一个前沿领域

非著名问天 2024-09-23 发布于内蒙古

展开全文

AI教母李飞飞最近重回工业界，携手高徒贾斯汀·约翰逊（Justin Johnson：李飞飞学生，加州理工本硕博，深度学习和计算机视觉专家，图像生成和3D视觉大佬）创办了World Labs公司，刚刚，他们接受了a16z普通合伙人Martin Casado采访，首次系统探讨了他们将要做的事：

从早期AI寒冬到深度学习兴起以及多模态AI快速扩张的历程。从ImageNet等基础性进步到空间智能的前沿领域，李飞飞和约翰逊分享了塑造AI格局的突破性进展，并揭示了World Labs未来的创新方向

如果你好奇AI如何超越语言模型，进入一个全新的3D生成世界，那么这篇采访不容错过

以下采访的主要内容

1.算力的作用

2.数据作为关键驱动力

3.定义AI的终极目标

4.什么是空间智能？解锁AI对3D世界的理解

5.模型比较：空间智能 vs. 基于语言的AI

6.1D vs. 3D

7.利用空间智能构建沉浸式世界

8.从静态场景到动态世界

9.VR和AR的未来

10.创建深度科技平台

11.打造世界一流团队

12.衡量成功：空间智能的里程碑

全文：

“AI的未来就在这里” — 李飞飞揭示AI的下一个前沿领域

空间智能：新前沿

李飞飞： 视觉空间智能非常基础，就像语言一样基础。我们现在有了算力、对数据更深入的理解，以及算法方面的一些进步，正是时候全力以赴，解锁空间智能。

马丁·卡萨多： 过去两年，我们看到各种面向消费者的AI公司和技术如雨后春笋般涌现，这真是太不可思议了。但你们已经在这个领域深耕数十年了，能不能简单回顾一下我们是怎么走到今天的？以及你们在这一路上的主要贡献和见解？

李飞飞： 现在确实是激动人心的时刻。回顾过去，AI正处于一个非常激动人心的阶段。我个人已经在这个领域研究了二十多年。我们已经走出了上一个AI寒冬，见证了现代AI的诞生，然后深度学习开始腾飞，向我们展示了各种可能性，比如在下棋方面。之后，我们开始看到这项技术的深化，以及工业界对早期的一些成果的应用，比如语言模型。现在，我认为我们正处于一场寒武纪生命大爆发的时代，这几乎是字面意义上的，因为现在除了文本之外，你还会看到图像、视频、音频，所有这些领域都可能出现AI应用和模型。所以，这是一个非常激动人心的时刻。

扩展AI：ImageNet对计算机视觉的影响

马丁·卡萨多： 我很了解你们两位，很多人也很了解你们，因为你们在该领域非常杰出。但并不是每个人都像是在AI领域长大的一样，所以也许值得简单介绍一下你们的背景，以便让听众了解一下。

贾斯汀·约翰逊： 好的。我第一次接触AI是在本科快结束的时候。我的本科专业是加州理工学院的数学和计算机科学，那段经历很棒。但快毕业的时候，我看到一篇论文，一篇当时非常有名的论文——“猫”论文，作者是吴恩达、Hinton等人，他们当时在谷歌大脑工作。那是我第一次接触到深度学习的概念。对我来说，它就像一项神奇的技术。那也是我第一次接触到这个定义了我之后十多年的“秘诀”，那就是：你可以得到这些非常强大的通用学习算法，将它们与强大的算力结合起来，再与大量的数据结合起来，当你把这些要素结合在一起时，就会发生神奇的事情。我第一次接触到这个想法是在2011年或2012年左右，当时我就想：“天哪，这就是我想要做的事情。”很显然，我得去读研才能做这些东西。然后我发现李飞飞在斯坦福，她是当时世界上少数几个投身于这个领域的人之一，那真是一个研究深度学习，尤其是计算机视觉的绝佳时机。因为那真是一个从最初的技术萌芽，发展到真正成型并应用到大量不同领域的时代。所以在那个时期，我们看到了语言建模的兴起，看到了判别式计算机视觉的兴起，你可以拍摄照片并通过很多不同的方式理解照片中的内容。我们也看到了一些我们现在称之为“生成式建模”的早期成果，生成图像，生成文本。许多这些核心的算法实际上是在我读博期间由学术界搞定的，那时候我每天早上醒来都会去arXiv上查看新的论文，就像过圣诞节一样，每天都有新的发现，新的应用或算法在世界各地涌现。过去两年发生的事情是，世界上其他所有人也突然意识到了这一点——用AI来获得新的圣诞礼物。但我认为，对于我们这些已经在该领域工作了十年或更久的人来说，我们很早就体会到了这种感觉。

李飞飞： 显然，我比贾斯汀老得多。我从不同的角度接触到AI，那就是物理学，因为我的本科背景是物理学。但物理学是一门教你思考大胆问题的学科，思考世界上还有什么未解之谜。当然，在物理学中，这些问题是关于原子世界、宇宙等等的。但不知何故，这种思考方式让我对一个真正抓住我眼球的大胆问题产生了兴趣，那就是智能。所以我在加州理工学院攻读了人工智能和计算神经科学的博士学位。贾斯汀和我实际上没有在时间上重叠，但我们有相同的母校——加州理工学院。

贾斯汀·约翰逊： 哦，还有相同的本科导师。

李飞飞： 是的，相同的本科导师，也是我的博士导师Pietro Perona。我的博士生涯和你的博士生涯很相似，那时候AI在公众眼中还处于寒冬，但在我的眼中却并非如此，因为它像是在冬眠，充满了生机。机器学习、统计建模的力量正在增强。我认为我算是机器学习和AI领域的“土著”一代，而我把贾斯汀这一代看作是深度学习领域的“土著”一代。所以机器学习是深度学习的先驱，我们当时在尝试各种模型。但在我博士生涯的末期和助理教授生涯的初期，我发现AI中有一个被忽视的元素，它在数学上对推动泛化至关重要，但整个领域都没有这样想，那就是数据。因为我们当时在考虑贝叶斯模型的复杂性，或者核方法等等。但我和我的学生们意识到，也许比大多数人更早意识到，如果你让数据驱动模型，你就能释放出我们从未见过的那种力量。这就是我们孤注一掷地投入到ImageNet的原因，那时候的数据规模跟现在看到的动辄数千个数据点根本没法比。当时自然语言处理社区有他们自己的数据集，我记得加州大学欧文分校的数据集，或者自然语言处理领域的一些数据集，跟现在比起来都很小。计算机视觉社区也有他们自己的数据集，但规模都在几千或几万的量级。我们当时就想，我们需要把它扩展到互联网的规模。幸运的是，那也是互联网的兴起时代，所以我们乘上了这股浪潮，我就是在那时候来到斯坦福的。

算力的作用

马丁·卡萨多： 我们经常谈论这些时代，比如ImageNet时代显然创造了（或者说至少让它变得流行和可行）计算机视觉。我们谈论生成式AI浪潮的时候，会提到两个关键的解锁因素：一个是Transformer论文，也就是注意力机制；另一个是Stable Diffusion。这种说法准确吗？就是说有两个来自学术界或谷歌的算法解锁，然后一切都是从那里发展出来的？还是说发展过程更加刻意？或者还有其他我们没怎么谈论过的重要解锁因素？

贾斯汀·约翰逊： 我认为最重要的解锁因素是算力。我知道AI的故事就是算力的故事，但无论人们谈论它多少次，我认为人们都低估了它。过去十年我们看到的算力增长是惊人的。第一篇真正被认为是计算机视觉深度学习领域突破性论文的是AlexNet，那篇2012年的论文里，一个深度神经网络在ImageNet挑战赛上表现出色，完爆了当时所有其他的算法。当时李飞飞在读研时研究的那些算法，AlexNet是一个包含6000万参数的深度神经网络，它在两张GTX 580显卡上训练了6天，GTX 580是当时顶级的消费级显卡，2010年发布的。我昨晚看了一些数据，只是为了让大家对这些数字有个概念。英伟达最新最强大的显卡是H100。你们两位要不要猜猜GTX 580和H100之间原始算力差距有多大？

马丁·卡萨多： 我不敢猜。

贾斯汀·约翰逊： 猜猜看！

李飞飞： 几千倍？

贾斯汀·约翰逊： 我昨晚算了算，在两张GTX 580上训练6天的那个任务，如果换成H100，只需要不到5分钟就能完成。

李飞飞： 贾斯汀说得对。2012年AlexNet在ImageNet挑战赛上的论文实际上是一个非常经典的模型，那就是卷积神经网络模型，它在20世纪80年代就被发表了。我记得我作为研究生时学到的第一篇相关论文，它或多或少也有六七层。AlexNet和卷积神经网络之间的唯一区别是什么？

贾斯汀·约翰逊： 区别在于GPU，两张GPU，以及大量的数据。

马丁·卡萨多： 我正想说这个。

数据作为关键驱动力

马丁·卡萨多： 我想现在大多数人都熟悉“惨痛教训”，惨痛教训是说，如果你要设计一个算法，不要耍小聪明，只要确保它能利用现有的算力，因为算力总会提升。所以一方面是这样，但另一方面，还有一种说法在我看来也同样可信，那就是新的数据源解锁了深度学习。ImageNet就是一个很好的例子，但很多人会说，Transformer带来的自注意力机制很棒，但他们也会说，这是一种可以利用人类数据标注的方式，因为是人类把结构放入了句子中。如果你看看CLIP，他们会说，我们利用互联网让人类用alt标签来标注图片。所以这是一个关于数据的故事，而不是关于算力的故事。所以答案是两者兼而有之吗？还是说其中一个比另一个更重要？

贾斯汀·约翰逊： 我认为两者兼而有之，但你提出了另一个非常好的观点。我认为这里实际上有两个在我看来截然不同的时代。ImageNet时代实际上是监督学习的时代。在监督学习时代，你有很多数据，但你不知道如何利用数据本身。当时对ImageNet和其他数据集的期望是，我们会得到很多图像，但我们需要人来标注每一张图像。我们训练的所有数据，都必须由人类标注员看过，并对图像做出一些描述。

马丁·卡萨多： 作为一个没有AI背景的门外汉，在我看来，如果你们用人类数据进行训练，就像人类已经给它打了标签，只是没有明确地标注出来。

贾斯汀·约翰逊： 我知道你会这么说，马丁，我知道。

李飞飞： 从哲学上讲，这是一个非常重要的问题，但这实际上更适用于语言而不是图像。

马丁·卡萨多： 说得对，完全正确。

贾斯汀·约翰逊： 是的，是的，是的，是的。但我确实认为这是一个重要的观点，它仍然是人类标注的，只是更加隐含而不是明确。区别在于，对于这个监督学习时代，我们的学习任务更加受限。你必须想出一个我们想要识别的概念本体。如果你在做ImageNet，李飞飞和她的学生们当时花了很多时间思考ImageNet挑战赛应该包含哪一千个类别。当时的其他数据集，比如用于目标检测的COCO数据集，他们也仔细思考过应该包含哪80个类别。

李飞飞： 我们来谈谈生成式AI。

贾斯汀·约翰逊： 在我读博之前，也就是你来之前，我上了吴恩达的机器学习课程，然后上了Yann LeCun的一些非常复杂的课程，对我来说非常复杂。很多内容都只是预测建模。我记得你解锁的那些视觉方面的东西，但生成式的东西，我觉得是最近四年才出现的，这对我来说很不一样。你不是在识别物体，你不是在预测什么，你是在生成什么东西。所以，能不能简单介绍一下让我们走到这一步的关键解锁因素？然后，为什么它不一样？我们应该用不同的方式看待它吗？它是连续发展的一部分吗？还是说不是？

李飞飞： 这很有意思，即使在我读研的时候，生成式模型就已经存在了。我们想做生成，但没人记得，即使是字母和数字，我们也都在尝试做一些生成。Hinton发表过关于生成论文的论文，我们也在思考如何生成。事实上，如果你从概率分布的角度思考，你可以在数学上生成它，只是我们生成的任何东西都不会让人印象深刻。所以，生成的概念在数学上、理论上是存在的，但没有一个方法真正有效。然后，我想说说贾斯汀的博士论文，贾斯汀说他被深度学习迷住了，所以他来到我的实验室。贾斯汀的博士论文，他的整个博士生涯，几乎就是这个领域发展轨迹的一个缩影。他的第一个项目是关于数据的，我强迫他做的，他不喜欢。

贾斯汀·约翰逊： 现在回想起来，我学到了很多非常有用的东西，我很高兴你这么说。

李飞飞： 然后我们让贾斯汀转向深度学习，当时的核心问题是从图像生成文字。实际上，我认为这里有三个不同的阶段。第一个阶段实际上是匹配图像和文字。

贾斯汀·约翰逊： 对，对，对。我们有一张图像，我们有一些文字，我们能不能判断它们有多匹配？实际上，我的第一篇博士论文，也是我的第一篇学术论文，就是关于用场景图进行图像检索的。

李飞飞： 然后我们进入生成阶段，输入像素，生成文字。贾斯汀和吴恩达在这方面做了很多工作，但这仍然是一种非常低效的生成方式，以及从像素世界中获取信息的方式。然后，贾斯汀做了一个非常有名的工作，那也是第一次有人实现了实时生成。

贾斯汀·约翰逊： 对，对，对。

李飞飞： 当时的情况是，2015年出现了一篇论文，叫做“艺术风格的神经算法”，主要作者是Leon Gatys。这篇论文一发表，他们就展示了这些现实世界的照片，他们把这些照片转换成梵高的风格。我们在2024年可能已经习惯了看到这样的东西，但这可是在2015年。这篇论文突然出现在arXiv上，让我大吃一惊。我当时就想：“天哪，我需要理解这个算法，我需要玩玩它，我需要把自己的照片变成梵高的风格。”然后我读了这篇论文，在一个长周末里，我重新实现了这个算法，并让它成功运行。它实际上是一个非常简单的算法。我的实现代码只有300行Lua代码，因为当时还没有PyTorch，我们用的是Lua Torch。但它很慢。它基于优化，每张你想要生成的图像，你都需要运行这个优化循环，运行这个梯度下降循环。生成的图像很漂亮，但我希望它能更快。然后贾斯汀就做到了。

李飞飞： 我当时为贾斯汀感到非常自豪，但还有一件事让我更加自豪，那就是把这项成果与生成式AI联系起来。在世人了解生成式AI之前，贾斯汀的博士论文的最后一部分工作（我知道这件事，因为是我强迫你做的）实际上是输入语言并生成完整的图像。

贾斯汀·约翰逊： 那很有意思。

李飞飞： 那是最早的生成式AI工作之一，它使用了生成对抗网络（GAN），GAN当时很难用。但问题是我们还没有准备好使用自然语言。贾斯汀之前说过，他研究过场景图，所以我们必须输入一个场景图，一个语言结构，比如“羊”、“草”、“天空”，以图的形式输入。

贾斯汀·约翰逊： 它实际上就是我们的一张照片。

李飞飞： 然后他和另一位非常优秀的硕士生Grim让GAN成功运行了。所以你可以看到，从数据到匹配，到风格迁移，再到生成图像，我们开始看到你问的这个问题，这对我们这样的人来说是不是一个突变？它其实一直在发生，是一个连续的过程。但对世界来说，结果更加突然。

定义AI的终极目标

马丁·卡萨多： 我读过你的书，各位听众，那是一本很棒的书，我强烈推荐你们读一读。你（李飞飞）的很多研究和方向似乎一直都与空间、像素和智能有关。现在你在做World Labs，它也与空间智能有关。所以，能不能谈谈这对你来说是不是一段漫长的旅程？你为什么决定现在做这件事？是因为技术上的突破，还是个人原因？能不能带我们从AI研究的那个时代走到World Labs？

李飞飞： 对我来说，这既是个人原因，也是智力上的原因。你说到我的书，我的整个intellectual journey实际上就是对寻找“北极星”的热情，同时也相信这些“北极星”对我们领域的进步至关重要。一开始，我记得研究生毕业后，我认为我的“北极星”是讲述图像的故事，因为对我来说，这是视觉智能中非常重要的一部分，也是你所说的AI或AGI的一部分。但当贾斯汀和吴恩达做到这一点时，我想：“天哪，那可是我的毕生梦想，我接下来该怎么办？”它比我想象的要快得多，我以为这需要100年的时间才能做到。但视觉智能是我的热情所在，因为我相信，对于每一个智能生物，比如人、机器人或其他形式的生命，知道如何看世界、推理世界、与世界互动，无论你是导航、操控还是创造事物，你甚至可以在此基础上建立文明，视觉空间智能都至关重要，它与语言一样基础，甚至可能更古老，在某些方面也更基础。所以对我来说，World Labs的“北极星”是解锁空间智能，这很自然。对我来说，现在正是做这件事的时候。就像贾斯汀说的，算力，我们已经有了这些要素，我们有了算力，我们对数据的理解也比ImageNet时代更深刻，我们也更加成熟了，我们也取得了一些算法上的进步，包括World Labs的联合创始人Ben Mildenhall和Christoph Lassner，他们站在NeRF技术的前沿。我们正处于一个合适的时机，去真正下注，去专注，去解锁它。

什么是空间智能？解锁AI对3D世界的理解

马丁·卡萨多： 我只是想为各位听众clarify一下。你们成立了这家公司World Labs，空间智能是你们对要解决的问题的总体描述。能不能更清晰地描述一下这意味着什么？

李飞飞： 空间智能是指机器在3D空间和时间中感知、推理和行动的能力，理解物体和事件如何在3D空间和时间中定位，世界中的交互如何影响这些3D位置，4D位置在时空中的变化。它包括感知、推理、生成、互动，真正让机器走出大型机或数据中心，进入现实世界，并理解这个充满丰富性的3D、4D世界。

马丁·卡萨多： 澄清一下，我们是在谈论物理世界，还是仅仅是在谈论一个抽象的世界概念？

贾斯汀·约翰逊： 我认为可以两者兼而有之，这包含了我们的长期愿景。即使你在生成世界，即使你在生成内容，在3D空间中进行定位也有很多好处。或者，如果你在识别现实世界，能够将对3D世界的理解应用到现实世界中，这也是其中的一部分。

马丁·卡萨多： 很好。其他两位联合创始人，Ben Mildenhall和Christoph Lassner，都是该领域的传奇人物，跟你们两位一样厉害。这四位决定一起出来创办这家公司。所以我想深入了解一下，为什么现在是合适的时机？

贾斯汀·约翰逊： 对我来说，这又是一个漫长的发展过程的一部分。但在我读完博士之后，我真的想发展我自己的独立研究方向，为我以后的职业生涯做准备。我当时就在思考，AI和计算机视觉领域有哪些重大问题？我得出的结论是，过去的十年主要是在理解已经存在的数据，但接下来的十年将是关于理解新数据的。如果我们想想已经存在的数据，那就是网络上所有已经存在的图像和视频。接下来的十年将是关于理解新数据，人们有智能手机，智能手机上有摄像头，摄像头有新的传感器，摄像头位于3D世界中。我们不再只是从互联网上获取一堆像素，对它们一无所知，然后试图判断它是猫还是狗。我们希望将这些图像视为通往物理世界的通用传感器，我们如何利用它来理解物理空间或生成空间的3D和4D结构？所以我博士毕业后，转向了3D计算机视觉领域，与我当时在FAIR的一些同事一起预测物体的3D形状。后来，我被“通过2D学习3D结构”这个想法深深吸引了。因为我们经常谈论数据，3D数据本身很难获取，但因为这里有一个非常强大的数学联系，我们的2D图像实际上是3D世界的投影，这里有很多我们可以利用的数学结构。所以即使你有很多2D数据，也有很多人做了很棒的工作，研究如何从大量的2D观察中反推3D世界结构。2020年，你问到突破性时刻，那时出现了一个真正的突破性时刻，来自我们的联合创始人Ben Mildenhall，他发表了NeRF（神经辐射场）的论文。那是一种非常简单、非常清晰地从2D观察中反推3D结构的方法，它点燃了整个3D计算机视觉领域的热情。

贾斯汀·约翰逊： 我认为这里还有另一个方面，也许领域外的人不太了解。那也是大型语言模型开始兴起的时期。所以很多关于语言建模的东西实际上是在学术界发展起来的，甚至在我读博期间，我就在2014年和吴恩达一起做了一些早期的语言建模工作，LSTM，我仍然记得LSTM、RNN，这些都是Transformer出现之前的东西。但在某个时候，大概在GPT-2出现的时候，你在学术界已经无法做这种规模的模型了，因为它们需要的资源太多了。但NeRF方法有一个非常有趣的地方，你可以在一个GPU上用一两个小时训练它们。所以我认为，当时出现了一种趋势，那就是很多学术研究人员最终都把注意力集中在这些问题上，因为有一些核心的算法问题需要解决，而且你可以在没有大量算力的情况下做很多事情，你可以在单个GPU上获得最先进的结果。由于这些因素，学术界有很多研究人员开始思考，我们怎样才能从算法层面推动这个领域的发展？然后我最终和李飞飞聊了更多，我意识到，我们实际上……

李飞飞： 她很有说服力，她很有说服力。

贾斯汀·约翰逊： 是这样的，但我们一直在谈论如何摆脱导师的指导，找到自己独立的研究方向。结果我们最终都得出了类似的结论。

李飞飞： 从我的角度来说，我想和最聪明的人交谈，我说的就是贾斯汀，这毫无疑问。我想谈谈一个非常有趣的技术问题，或者说一个关于像素的技术故事，大多数研究语言的人都没有意识到。在深度学习时代之前，在计算机视觉领域，我们这些研究像素的人，在3D重建领域有着悠久的历史，它可以追溯到20世纪70年代。你可以拍摄照片，因为人有两只眼睛。所以通常从立体照片开始，然后你试图三角化几何形状，并从中构建3D形状。这是一个非常非常困难的问题，直到今天也没有从根本上解决，因为存在对应问题等等。然后，整个领域，这种关于3D的旧的思维方式，一直在发展，并且取得了非常好的进展。但当NeRF出现的时候，当NeRF在生成式方法的背景下，在扩散模型的背景下出现的时候，突然之间，重建和生成开始真正融合了。现在，在很短的时间内，在计算机视觉领域，很难再区分重建和生成了。我们突然之间有了一个时刻，如果我们看到什么东西，或者如果我们想象什么东西，两者都可以汇聚到生成它。

贾斯汀·约翰逊： 对。

李飞飞： 对我来说，这在计算机视觉领域是一个非常重要的时刻，但大多数人错过了它，因为我们没有像讨论大型语言模型那样频繁地讨论它。

马丁·卡萨多： 所以在像素空间中，有重建，你重建一个真实的场景，然后如果你没有看到这个场景，你就使用生成技术。

李飞飞： 对。

马丁·卡萨多： 所以这些东西在整个过程中都非常相似。

模型比较：空间智能 vs. 基于语言的AI

马丁·卡萨多： 在整个对话中，你一直在谈论语言，你一直在谈论像素。所以也许现在是时候谈谈空间智能和你正在做的工作与现在非常流行的语言方法有什么不同了。它是互补的关系，还是正交的关系？

贾斯汀·约翰逊： 我认为它们是互补的。

马丁·卡萨多： 我无意误导大家。也许只是简单对比一下它们。每个人都说：“我了解OpenAI，我了解GPT，我了解多模态模型。”你谈论的很多内容是，它们有像素，它们有语言。这难道不能实现我们想要的空间推理吗？

贾斯汀·约翰逊： 所以我认为，要做到这一点，你需要稍微打开这些系统内部的黑匣子，看看它们是如何工作的。对于语言模型和我们现在看到的多模态语言模型，它们底层的表示是一维的。我们谈论上下文长度，我们谈论Transformer，我们谈论序列，注意力机制，从根本上说，它们对世界的表示是一维的。所以这些东西基本上是在一个一维的token序列上进行操作。当你谈论语言时，这是一种非常自然的表示方式，因为书面文本就是一个一维的离散字母序列。这种底层表示方式导致了大型语言模型的出现，以及我们现在看到的多模态大型语言模型。你最终会把其他模态塞进这个一维token序列的底层表示中。当我们转向空间智能时，情况就反过来了。我们认为，世界的三维特性应该在表示中占据核心地位。从算法的角度来看，这为我们以不同的方式处理数据、从数据中获得不同类型的输出以及解决稍微不同的问题打开了大门。即使在粗略的层面上，你看看外面，你会说：“哦，多模态大型语言模型也能看懂图像。”它们确实可以，但我认为它们的核心方法中没有那种基础的3D表示。

李飞飞： 我完全同意贾斯汀的观点。我认为，谈论1D与基础3D表示之间的区别是最核心的区别之一。还有一点，它有点哲学意味，但至少对我来说非常重要。语言从根本上说是一种纯粹生成的信号，自然界中没有语言，你不会走到户外，看到天空中写着文字。你输入的任何数据，你几乎都能以足够强的泛化能力输出相同的数据。这就是语言到语言。但3D世界不是这样的。有一个3D世界存在于那里，它遵循物理定律，它有自己的结构，这些结构是由材料和其他很多东西决定的。从根本上反推这些信息，能够表示它，能够生成它，这完全是一个不同的问题。我们会借鉴语言和大型语言模型中的一些想法，一些有用的想法，但从哲学上讲，对我来说，这是一个根本不同的问题。

1D vs. 3D

马丁·卡萨多： 所以语言是一维的，它可能无法很好地表示物理世界，因为它是由人类生成的，而且它可能是有损的。还有另一种生成式AI模型，那就是像素，这些是2D图像和2D视频。有人可能会说，如果你看一段视频，它看起来……你可以看到3D的东西，因为你可以平移摄像机等等。那么，空间智能与2D视频有什么不同呢？

贾斯汀·约翰逊： 当我思考这个问题时，我觉得区分两件事很有用。一个是底层表示，另一个是你拥有的面向用户的affordances。这里可能会让人感到困惑，因为从根本上说，我们看到的是2D，我们视网膜是身体中的2D结构，我们有两个视网膜。所以从根本上说，我们的视觉系统感知的是2D图像。但问题是，根据你使用的表示方式，可能会有不同的affordances，有些更自然，有些则不那么自然。所以即使你最终看到的是2D图像或2D视频，你的大脑也会把它感知成3D世界的投影。所以你可能会想做一些事情，比如移动物体，移动摄像机。原则上，你可能可以用纯2D表示和模型做到这些，但这与你希望模型执行的任务不匹配。对一个动态3D世界的2D投影进行建模，这可能可以做到，但通过将3D表示置于模型的核心，模型正在处理的表示类型和你希望模型执行的任务类型之间就会有更好的匹配。所以我们的赌注是，通过在底层加入更多3D表示，将为用户带来更好的affordances。

李飞飞： 这也回到了我的“北极星”。为什么是空间智能，而不是平面像素智能？因为我认为智能的轨迹必须走向贾斯汀所说的affordances。如果你看看进化过程，智能的轨迹最终使动物，尤其是人类，能够在世界中移动，与世界互动，创造文明，创造生命，制作三明治，你在这个3D世界中做的任何事情。将这种能力转化为一种技术，这种技术天生就是3D的，这对各种可能的应用来说至关重要，即使其中一些应用看起来是2D的，但它们天生就是3D的。对我来说，我认为这实际上非常微妙，而且非常关键。

马丁·卡萨多： 我完全同意。所以我想深入探讨一下，一个很好的方法就是谈谈用例。

利用空间智能构建沉浸式世界

马丁·卡萨多： 简单介绍一下，我们正在谈论开发一种技术，我们称之为模型，它可以实现空间智能。那么，它可能是什么样的？更具体地说，它有哪些潜在的应用场景？

贾斯汀·约翰逊： 我认为，我们设想这些空间智能模型随着时间的推移能够做的事情有很多种。其中一个我非常兴奋的是世界生成。我们都习惯了文本到图像生成器，或者开始看到文本到视频生成器，你输入一段文本，就会生成一张令人惊叹的图像或一段令人惊叹的2D视频。但我认为你可以想象更上一层楼，生成3D世界。我们可以想象，空间智能在未来可以帮助我们提升这些体验，让它们进入3D世界，我们不再只是生成图像或视频，而是生成一个完整的、充满活力和交互性的3D世界。

马丁·卡萨多： 也许用于游戏？

贾斯汀·约翰逊： 也许用于游戏，也许用于虚拟摄影，等等。我认为，即使你做到了这一点，在教育领域也会有大量的应用。

马丁·卡萨多： 用于教育。

贾斯汀·约翰逊： 我的想法之一是，从某种意义上说，这开启了一种新的媒体形式。因为我们已经能够创造虚拟的交互式世界，但这需要花费数亿美元和大量的开发时间。因此，人们运用这种技术能力的地方就是电子游戏，因为如果我们作为一个社会有能力创造出极其细致的虚拟交互式世界，给你带来奇妙的体验，但因为它需要如此多的劳动才能做到，所以在今天，这种技术的唯一经济可行的用途就是游戏，可以以70美元的价格卖给数百万人，以收回投资。如果我们有能力创造出同样充满活力、交互式的虚拟3D世界，你就会看到它的很多其他应用，因为如果你降低了这种内容的制作成本，人们就会把它用于其他事情。如果你能拥有一种个性化的3D体验，它像那些花费数亿美元制作的3A级电子游戏一样优秀、丰富、细致，但它可以满足一些非常niche的需求，也许只有几个人想要那种特定的东西。这不是一个特定的产品或路线图，但我认为这是一种新的媒体形式，它将由生成式AI领域的空间智能所实现。

从静态场景到动态世界

马丁·卡萨多： 当我想到一个世界时，我想到的不仅仅是场景生成，我还想到运动和物理之类的东西。所以，最终这些东西会包括在内吗？第二点是，如果我与它互动，它是否有语义？我的意思是，如果我打开一本书，里面有页面吗？里面有文字吗？它们有意义吗？我们是在谈论一种完全沉浸式的体验，还是在谈论一种静态的场景？

贾斯汀·约翰逊： 我认为这项技术会随着时间的推移而发展。构建这些东西真的很难，所以我认为静态问题会更容易一些。但最终，我们希望它是完全动态的，完全交互的，你刚才说的所有东西。

李飞飞： 这就是空间智能的定义。

贾斯汀·约翰逊： 所以会有一个发展过程，我们会从更静态的东西开始，但你说的所有东西都在空间智能的路线图上。

李飞飞： 我的意思是，这在公司名称World Labs中有所体现。World Labs就是关于构建和理解世界。这实际上有点像内部术语。我意识到，在我们把这个名字告诉别人之后，他们并不总是理解它。因为在计算机视觉、重建和生成领域，我们经常会区分你能做的事情的类型。第一层是物体，比如麦克风、杯子、椅子，这些是世界上独立的东西。李飞飞研究的很多ImageNet风格的东西都是关于识别世界中的物体。然后，比物体更高一层的是场景，场景是物体的组合。比如现在我们身处的这个录音棚，有一张桌子、麦克风、椅子上的人，这是一种物体的组合。但我们 envision worlds as a step beyond scenes. 场景可能是独立的东西，但我们想打破边界，走出这扇门，离开桌子，走出这扇门，走在街上，看到汽车驶过，看到树上的树叶飘动，并能够与这些东西互动。

贾斯汀·约翰逊： 另一个令人兴奋的地方是，李飞飞提到了“新媒体”这个词。有了这项技术，现实世界与虚拟想象世界、增强现实世界或预测世界的界限都变得模糊了。现实世界是3D的，所以在数字世界中，你必须有一个3D表示才能与现实世界融合。你不能用2D，你不能用1D，才能有效地与真正的3D世界互动。有了这个，它就解锁了这种可能性。所以，用例可能是无限的，因为这一点。

VR和AR的未来

马丁·卡萨多： 贾斯汀谈到的第一个用例是为各种用途生成虚拟世界。你刚才提到的更像是一种增强现实，对吧？

李飞飞： 就在World Labs成立的时候，苹果发布了Vision Pro，他们使用了“空间计算”这个词。我们几乎……他们几乎偷走了我们的……但我们是“空间智能”。

贾斯汀·约翰逊： 空间计算需要空间智能，说的没错。

李飞飞： 所以我们不知道它会采用什么样的硬件形式，可能是眼镜，可能是隐形眼镜……

马丁·卡萨多： 隐形眼镜。

李飞飞： ……但真实世界和你可以在上面做什么之间的接口，无论是帮助你增强能力，比如修理汽车，即使你不是一个训练有素的机械师，或者只是为了娱乐，就像一个更强大的Pokémon Go。突然之间，这项技术将成为AR/VR的“操作系统”。

贾斯汀·约翰逊： 最终，AR设备需要做什么？它是一个始终开启的东西，它和你在一起，它在观察世界，所以它需要理解你看到的东西，也许还能帮助你完成日常生活中的任务。但我对虚拟和现实之间的融合感到非常兴奋，如果你能够完美地实时理解你周围的3D世界，这一点就变得至关重要。它实际上也开始取代现实世界中的很大一部分。比如现在，我们每个人为了不同的用途拥有多少不同尺寸的屏幕？太多了，对吧？你有你的手机，你有你的iPad，你有你的电脑显示器，你有你的电视，你有你的手表。这些基本上都是不同尺寸的屏幕，因为它们需要在不同的环境和不同的位置向你展示信息。但如果你能够无缝地将虚拟内容与物理世界融合在一起，它就消除了对所有这些屏幕的需求。理想情况下，它可以无缝地将你需要知道的信息与正确的呈现方式融合在一起。

李飞飞： ### VR和AR的未来

李飞飞： 能够将数字虚拟世界与3D物理世界融合的另一个重要用例是，让任何智能体能够在物理世界中做事情。如果人类使用这种混合现实设备来做事情，就像我说的，我不知道如何修理汽车，但如果我必须这么做，我戴上这个眼镜，突然之间，我就被引导着去做了。但还有其他类型的智能体，也就是机器人，任何类型的机器人，不只是人形机器人。它们的接口天生就是3D世界，但它们的计算能力，它们的大脑天生就是数字世界。那么，是什么将机器人的大脑与现实世界的大脑连接起来，从学习到行为？那就是空间智能。

创建深度科技平台

马丁·卡萨多： 你谈到了虚拟世界，你谈到了增强现实，现在你谈到了纯粹的物理世界，基本上可以用于机器人技术。对于任何公司来说，这都是一个非常庞大的任务，尤其是在你要进入每一个不同的领域的情况下。那么，你是如何看待深度科技与这些特定应用领域的关系的？

贾斯汀·约翰逊： 我们把自己看作是一家深度科技公司，一家平台公司，提供模型来服务于这些不同的用例。

马丁·卡萨多： 在这三个领域中，你认为哪一个在早期更自然，更容易让人们期待公司倾向于它？或者……

贾斯汀·约翰逊： 我觉得现在设备还没有完全准备好。我读研的时候就有了我的第一个VR头显，那是一种变革性的技术体验。你戴上它，你会觉得：“天哪，这太疯狂了。”我认为很多人第一次使用VR时都会有这种体验。所以我对这个领域很感兴趣，我很喜欢Vision Pro，我熬夜订购了第一批Vision Pro之一。但现实情况是，作为一个大众市场平台，它还没有完全成熟。所以很有可能，作为一家公司，我们会进入一个更成熟的市场。

李飞飞： 我认为，在普遍性中可能存在着简洁性。我们有“成为一家深度科技公司”的理念，我们相信有一些基本问题需要很好地解决，如果解决得很好，就可以应用到很多不同的领域。我们真的把公司的长期发展看作是构建和实现空间智能的梦想。

马丁·卡萨多： 这需要构建很多技术，在我看来。

贾斯汀·约翰逊： 我认为这是一个非常困难的问题。我认为，有时候，那些不是直接从事AI工作的人，他们只是把AI看作一个无差别的巨大概念。而对于我们这些在这个领域工作了更久的人来说，我们意识到，在AI领域，尤其是这个领域，需要很多不同类型的人才聚集在一起，才能构建任何东西。我们已经谈到了数据问题，我们已经谈到了一些我在读博期间研究的算法，但还有很多其他事情我们需要做。你需要真正高质量的大规模工程，你需要对3D世界有非常深刻的理解，你需要……实际上与计算机图形学有很多联系，因为他们一直在从相反的方向解决很多相同的问题。所以当我们考虑团队建设时，我们考虑的是如何找到专家，在每一个构建这个难题所需的子领域中找到绝对世界顶尖的专家。

打造世界一流团队

李飞飞： 当我思考如何为World Labs组建最好的创始团队时，首先必须有一群非常棒的多学科背景的创始人。当然，贾斯汀对我来说是很自然的选择，贾斯汀是我最优秀的学生之一，也是最聪明的技术专家之一。但还有两个人，我一直都知道他们的名字，其中一个贾斯汀还合作过，我一直很欣赏他们。一个是Ben Mildenhall，我们谈到了他在NeRF方面的开创性工作。另一个人是Christoph Lassner，他在计算机图形学领域享有盛誉，尤其是有远见地在高斯 splatting 表示方面做了很多工作，那是3D建模的一种先驱方法，比高斯 splatting 流行起来早了五年。当我们听说有可能和Christoph Lassner合作时，贾斯汀激动得跳了起来。

马丁·卡萨多： Ben和Christoph都是传奇人物。能不能简单谈谈你是如何考虑团队其他成员的组建的？因为这里有很多东西需要构建，很多工作要做，不仅仅是AI或图形学，还有系统等等。

贾斯汀·约翰逊： 这是我个人迄今为止最自豪的事情，那就是我能够与一支强大的团队合作，与我职业生涯中遇到的最聪明的年轻人一起工作，他们来自顶尖大学。作为斯坦福大学的教授，我在那里也遇到过很多优秀的学生。但在World Labs，我们聚集的人才真是太棒了，我从未见过如此高密度的人才。我认为最大的区别在于，我们都相信空间智能。所有这些来自不同学科的人才，无论是系统工程、机器学习基础设施，还是生成式建模、数据、图形学，我们所有人，无论是我们的个人研究经历、技术经历，还是个人爱好，我们都相信空间智能必须在这个时刻，由这群人来实现。这就是我们组建创始团队的方式，这种专注的能量和人才真的让我感到非常荣幸，我太喜欢它了。

衡量成功：空间智能的里程碑

马丁·卡萨多： 我知道你一直以“北极星”作为指导，但“北极星”的问题在于，你永远无法真正触及它们，因为它们在天上。但它是一个很好的指引方向的方式。那么，你如何知道你何时完成了你的目标？或者说，这是一件终身的事情，会无限地持续下去？

李飞飞： 首先，有真正的“北极星”，也有虚拟的“北极星”。有时候你可以触及虚拟的“北极星”。

马丁·卡萨多： 在世界模型中，说得对。

李飞飞： 就像我说的，我以为我关于图像故事讲述的“北极星”需要100年的时间才能实现，但贾斯汀和吴恩达在我看来已经为我解决了这个问题。所以我们可能会到达我们的“北极星”，但对我来说，当很多人，很多企业都在使用我们的模型来解锁他们对空间智能的需求时，那一刻我知道我们已经到达了一个重要的里程碑，真正的部署，真正的影响。

贾斯汀·约翰逊： 我认为我们不会到达终点。我认为这是一件非常基础的事情，宇宙是一个巨大的、不断演变的四维结构，而广义上的空间智能就是理解它的一切深度，并找到它的所有应用。所以我认为我们今天有一些特定的想法，但我认为这段旅程将把我们带到我们现在无法想象的地方。优秀技术的魅力在于，技术会开启更多可能性和未知领域。所以我们会不断推动，然后可能性也会不断扩展。

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～