特斯拉FSD技术详解

InfoRich 2025-03-22 发布于上海

展开全文

总体框架

特斯拉的FSD（Full Self-Driving，全自动驾驶）是一套自动驾驶系统，旨在实现车辆在复杂道路环境中驾驶员脱手的自动驾驶功能。据报道，FSD目前仍属于 L2+ 级别的辅助驾驶，也就是说驾驶员可以脱手但不能离开视线，需驾驶员保持注意力以便随时接管，但按照tesla的想法，FSD可以在保持现有框架下，通过积累数据和训练模型，可以进化到L4自动驾驶。

特斯拉FSD是纯视觉方案：采用8个摄像头（360°视野，最远250米探测），用Occupancy Network建模环境并预测运动，BEV生成鸟瞰图辅助决策。

使用Transformer处理连续帧的视觉图像组成的时序数据，端到端训练从图像到控制指令（转向、加速减速）。在客户手动驾驶时，则启用影子模式在后台学习人工驾驶的决策（也就是AI模拟学习人类司机的操纵动作），增量训练现有模型，从而利用全球匿名驾驶数据闭环持续提升性能，其中匿名是指环境-操纵指令数据无法追溯到任何个人身份。

整体架构

图1 特斯拉端到端FSD架构图，来自网络

这张架构图信息量十分丰富，所以本文先介绍其中的核心概念12个如下。本文忽略一些非关键概念，比如rectify只是修正的意思，表示对摄像头原始图像的某种修正。对图像的修正本身并不是不重要，但是特斯拉没有披露具体的rectify算法，本文也简化处理。

12个核心概念如下：

1. Image Input (图像输入)

输入原始摄像头拍摄的图像数据，通常来自特斯拉车辆的8个环视摄像头。

2. Image Featurizers (图像特征提取器)

将输入图像转换为更抽象的特征表示。常用的模块包括：RegNets：self-regulated network一种高效的卷积神经网络架构，用于提取图像的空间特征。可以参考arxiv文献《RegNet: Self-Regulated Network for Image Classification》。

BiFPNs（Bidirectional Feature Pyramid Networks）：双向特征金字塔网络，用于多尺度特征融合。

特斯拉自动驾驶中的RegNets是一系列卷积神经网络，所以是net-s复数形式，主要用于从摄像头捕获的图像中提取基本的视觉特征。这些网络是Residual Neural Networks（残差神经网络）的一种变体，能够通过不同层次的特征提取，捕捉图像中的复杂模式和细节。相比于传统的ResNet，RegNets进行了更高一层的抽象，解决了神经架构搜索（NAS）设计空间固定的问题，允许创建新颖的模块结构，从而提高模型的灵活性和效率。

在特斯拉的全自动驾驶系统（FSD）中，RegNets作为特征提取器，处理来自汽车周围八个摄像头的视频流，生成多尺度的特征表示。这些特征随后被传递给双向特征金字塔网络（BiFPNs），用于进一步增强特征表示能力，支持更精确的物体检测和场景理解。RegNets还与HydraNets等其他神经网络协同工作，共同构建了特斯拉端到端自动驾驶算法体系。

3. Spatial Attention (空间注意力)

强调图像中不同区域的重要性。例如：关注前方车辆、行人等关键目标。

忽略背景噪声或无关区域。

4. Temporal Alignment (时间对齐)

将不同时间点的特征对齐，以便理解动态场景的变化。例如：将过去几帧的特征与当前帧对齐，用于预测目标的未来轨迹。

5. Surface Outputs (表面输出)

输出车辆周围环境的二维或三维表示，例如：地面投影图（Ground Plane Projection）。

俯视图（Bird’s Eye View, BEV）。

6. Multicam Query (多摄像头查询)

将来自多个摄像头的数据整合成一个统一的查询结果，确保全局一致性。

7. Spatial Embedding (空间嵌入)

将空间信息编码为向量形式，便于后续处理和计算。

8. Deconvolutions (反卷积)

将低分辨率特征图上采样到高分辨率，用于生成详细的三维占用网格。

9. Volume Outputs (体积输出)

输出三维空间中的占用网格（Occupancy Grid），表示车辆周围环境中物体的位置和形状。

10、Trajectory Used to Align (用于对齐的轨迹)

使用历史轨迹信息来对齐当前帧中的目标位置，提高预测的准确性。

11. Queryable Outputs (可查询输出)

最终生成的输出可以被其他模块查询，例如：车辆位置。

障碍物位置。

行人轨迹。

12. MLP (多层感知机)

多层感知机（Multi-Layer Perceptron）用于进一步处理特征，例如：对空间特征进行非线性变换。输出最终的控制指令（如转向、刹车）。

介绍完核心概念后，本文把端到端处理步骤列在下面：

序号	步骤名称	描述
1	数据输入：Image Input	接收来自车辆8个环视摄像头的原始图像数据，提供全方位环境信息。
2	特征提取：Image Featurizers	- RegNets：提取图像的空间特征（如车道线、车辆轮廓）。 - BiFPNs：多尺度特征融合，兼顾局部和全局信息。
3	空间注意力：Spatial Attention	关注关键区域（如前方车辆、行人、道路标志），忽略背景噪声。
4	时间对齐：Temporal Alignment	将过去几帧的特征与当前帧对齐，预测动态目标的未来轨迹。
5	环境表示：Surface Outputs	- 俯视图（BEV）：从鸟瞰角度展示环境。 - 地面投影图：计算物体距离和相对位置。
6	多摄像头整合：Multicam Query	整合8个摄像头的数据，确保全局一致性。
7	空间编码：Spatial Embedding	将空间信息编码为向量（如车辆位置、障碍物形状）。
8	生成详细网格：Deconvolutions	上采样低分辨率特征图，生成详细的三维占用网格（如物体分布、静态/动态分类）。
9	占用网格输出：Volume Outputs	输出三维空间中的占用网格，表示物体的位置和形状（如障碍物、行人）。
10	对齐历史轨迹：Trajectory Used to Align	使用历史轨迹对齐当前目标位置，预测未来运动趋势。
11	查询输出：Queryable Outputs	提供可查询输出（如车辆位置、障碍物位置、行人轨迹），为决策模块提供依据。
12	控制指令生成：MLP	- 对空间特征进行非线性变换。 - 输出控制指令（如转向、加速、制动），完成自动驾驶任务。

硬件配置

其8个摄像头分布的位置分别是：左、右前轮翼子板各一个、左右两侧B柱各一个、后方牌照上方一个、前挡风玻璃后有三个。

图2 左、右前轮翼子板摄像头，图片来自网络

左、右前轮翼子板摄像头不是用作前视摄像头，而是主要是监控侧后方的摄像头，其最大的监测距离达到了100米，能够实时监控汽车后方两侧的盲区。主要用于汽车变道或汇入某条路。

图3 前风挡上的三个摄像头，图片来自网络

前风挡上的三个摄像头才是前视摄像头，包括主视野镜头、鱼眼镜头和长焦距镜头。这三个摄像头是监测汽车前方宽阔的视角，还有探测远距离物体。

1、主视野摄像头：监测车辆前方的宽阔视野能够覆盖大部分的交通场景。

2、鱼眼摄像头：鱼眼摄像头就是广角摄像头，视野能达到120度，不仅能够拍到交通信号灯，而且在行驶道路上的障碍物或者距离较近的物体也都能拍到。当汽车在城市街道、低速缓行的路段，该摄像头非常占优势。但图像有形变，需要修正。

3、长焦距摄像头：该摄像头比较适用于高速行驶时的交通场景，因为其视野相较而言会比较狭窄，用于清楚拍摄远距离物体。

图4 B柱上的侧视摄像头，一侧一个，图片来自网络

侧视摄像头最大的监测距离达到了80米，能够实时监控高速公路上突然并入当前行驶车道的车辆，同时在驾驶员视野受限的交叉路口，这两个摄像头也能拍到周围环境情况，因为驾驶员背部在B柱前面，除非回头否则一般看不到B柱两侧。

图5 B柱位置，图片来自网络

图6 后车牌上方的后视摄像头，图片来自网络

8个摄像头中最弱的是后视摄像头，最大监测距离是50米，能帮助驾驶员安全倒车和监视后方来车。

而特斯拉的FSD域控制器也经历了如下演化过程，从英伟达Tegra Parker到自研的两颗FSD芯片。

图7 FSD域控制器的演进，图片来自网络

要素总结

最后，本文总结三个FSD的基本要素：占据网络，transformer，BEV space。

1、特斯拉的Occupancy Network（占据网络）是一种先进的深度学习技术，主要用于自动驾驶中的3D环境感知。它能够从多视角的图像中生成车辆周围环境的三维占用网格，判断3D空间中的某个单元格是否被物体占据。这种技术最初可能受到立体双目视觉路径规划的启发，通过视差图（毕竟有8个摄像头，拍摄区域有重叠，视差可以获取）获取深度信息，并利用栅格占有法确定可行驶的空间。

与传统的基于矩形框的目标检测方法不同，Occupancy Network可以表示任意形状的物体，而不对物体的几何形状做过多假设，因此在处理异形车辆或障碍物时更具优势。此外，该网络不仅限于简单的占用状态预测，还结合了语义信息，简单说就是那个格子里面是什么东西，实现了更高效的环境感知和路径规划。

特斯拉的Occupancy Network采用了将世界划分为微小立方体（或体素）的方式，然后预测每个体素是空闲还是被占用。这种方法类似于机器人领域的occupancy grid mapping思想（2d）。

图8 2d和3d占据网络，图片来自网络

2、Transformer在连续帧图像处理中的应用是一个快速发展的领域，它结合了深度学习和计算机视觉的技术，用于解决诸如视频预测、图像超分辨率、视频实例分割以及车道线检测等问题。

众所周知，Transformer架构最初是为自然语言处理（NLP）设计的，但近年来已被广泛应用于图像和视频处理任务中。其核心思想是通过自注意力机制（self-attention mechanism）捕捉输入数据中的长距离依赖关系。对于连续帧图像处理，Transformer能够有效地建模帧间的时间和空间特征。

编码器-解码器结构：Transformer通常由编码器和解码器两部分组成。编码器将输入序列映射到连续的向量空间，而解码器则将这些向量解码为输出序列。

自注意力机制：通过计算输入序列中每个位置与其他所有位置的相关性，Transformer能够捕捉全局信息，这对于理解连续帧图像中的动态变化至关重要。

连续帧图像处理的具体应用如下：

1）视频预测

Transformer可以被用于视频预测任务，其中模型需要根据过去的几帧来预测未来的帧。这种技术在自动驾驶、动作识别等领域具有重要应用。

Transformer for Video Predictions：通过将连续帧视为序列数据，Transformer可以学习帧间的复杂时间依赖关系，从而实现准确的未来帧预测。

2）视频实例分割

视频实例分割任务要求模型不仅能够识别视频中的物体，还需要区分不同的实例。

基于Transformer的端到端方法：给定多帧图像序列，首先利用卷积神经网络（CNN）进行初始图像特征的提取，然后将多帧的特征结合作为特征序列输入Transformer进行建模，实现序列的输入和输出。

现在由于特斯拉还没有完全披露其FSD的全部细节，本文推测Transformer在FSD的主要作用是以上两个，而最核心的自注意力机制从连续帧中挑选最合适的、最有代表性、也是注意力权重最大的几帧图像来实现视频预测和视频分割识别。

3、BEV鸟瞰space

图9 中间就是鸟瞰图，周围是生成鸟瞰图的原始图像。图片来自网络