端到端自动驾驶的"Token危机" | 黑芝麻智能用一张"重建面具"，把Waymo榜一打穿了

作者：汽车动力网更新时间：2026-06-08 点击数：

自动驾驶端到端模型，正在被一个“隐形的天花板”卡住。模型越来越大，数据越喂越多，但规划轨迹总在复杂场景里出现诡异漂移。问题不在规划头，而在视觉信息传递的“咽喉要道”——场景token瓶颈。

我们拆解这篇技术工作，看看它如何用一个巧妙的训练信号，逼着紧凑的场景token记住更多关键信息，在Waymo和NavSim榜单上跑出SOTA，甚至部署到了实车上。

核心痛点：你的场景token在“摸鱼”

感知无关的端到端自动驾驶，主流玩法是用ViT把多视角图像打成密密麻麻的patch token，再压缩成一小撮“场景token”（scene token）喂给规划器。这本质上是一个多对一的极限压缩——几百上千个patch token，挤进16个场景token里，然后让规划器仅凭这点信息输出未来轨迹。

问题来了：谁来监督这个压缩过程？现有方法只靠轨迹回归损失和候选评分损失来间接约束。这就好比只告诉一个快递分拣员“最后包裹要准时送到”，却不告诉他哪些包裹里的东西易碎、哪些需要冷链。分拣员很快学会偷懒——把所有包裹都堆在一起，反正都能送到。

图1

图：场景token行为诊断。左侧baseline的token注意力高度重叠，相似度矩阵一片“全黄”；右侧NTR在语义监督下，token各自聚焦不同结构化元素，相似度矩阵呈现丰富的多样化模式。

这是这篇工作最精彩的开场。左侧(baseline)的场景token，注意力区域高度重叠——好几个token盯着同一块地方，相似度矩阵几乎是均匀高相似的全黄色。这意味着16个token里可能只有2-3个在真正干活，其余都在输出冗余信息。右侧NTR方法下，每个token开始“术业有专攻”：有的盯车道线，有的盯前车，有的盯交通标志。相似度矩阵从“黄色暖昧”变成“蓝绿黄相间的冷静距离感”——表征多样性显著提升。

这不是架构问题，是训练信号问题。 没有直接约束压缩过程，token自然会坍缩成最简单的冗余编码。

原理拆解：如何让token“卷”起来？

整体框架：训练时塞进一个“信息审计”

NTR的核心思路很朴素：既然规划损失太稀疏，那就给场景token再加一个密集的重建监督。但注意，它不是重建原始图像，而是重建被mask掉的教师模型特征——一种潜在空间的自蒸馏。而且整个重建分支只在训练时存在，推理时原封不动去掉，零额外开销。

看整体架构就一目了然

图2

图：NTR整体框架。(a) 紧凑场景token规划器将多视图patch压缩为场景token，驱动轨迹生成与打分；(b) 神经token重建仅以场景token为记忆，重建被mask的教师特征；(c) 基于提示的语义先验利用基础模型生成语义掩码，引导重建目标聚焦驾驶关键区域。

框架分三块：

(a) 就是标准的DrivoR风格规划器：多视图→patch token→场景token→轨迹生成+评分。这是不变的基底。

(b) 是NTR的核心插入——一个仅在训练时激活的重建解码器。它的输入只有场景token和mask位置的位置编码，必须仅凭这些信息重建对应位置的教师模型特征。

(c) 是语义先验模块：用预训练的SAM3跑一遍图像，得到车辆、行人、车道、交通灯等驾驶关键区域的mask，指导重建位置的选择。关键设计：重建解码器只通过交叉注意力访问场景token，不能直接看在线编码器的密集patch输出。 这意味着重建损失的回传梯度必须经过场景token瓶颈，相当于给瓶颈装了一个“信息审计系统”：如果你没保留足够细节，就别想重建出来。

潜变量重建：为什么重建教师特征而非原始像素？

这里有一个精妙的设计选择。NTR不重建RGB像素，而是重建教师ViT输出的潜变量特征。

教师模型是在线编码器的EMA（指数移动平均）副本，参数缓慢跟随在线模型，提供稳定的、高质量的“参考答案”。在线模型处理mask后的图像，它的场景token必须重建出这些被mask位置的教师特征。

为什么选潜变量而非像素？两个理由：

1、像素重建是低级视觉任务，大量监督信号会浪费在背景纹理、天空渐变上。潜变量特征已经过ViT编码，更侧重语义和结构信息。

2、EMA教师提供自适应目标。冻结的教师模型可能很快被在线模型超越，而EMA教师始终处于“略微超前”的状态，如同一个不断进步的教练。

公式上，重建损失用L1范数：

语义先验：让重建预算花在刀刃上

均匀mask重建有个问题：自动驾驶图像里，大面积天空、远处模糊背景占据了许多patch。重建这些区域既浪费计算，又可能引入噪声。

NTR的解决方案很巧妙：用预训练SAM3给图像做弱语义标注，生成前景mask，优先选择包含车辆、行人、可行驶区域、交通灯等元素的patch作为重建目标。这不等于引入显式感知头。SAM3是冻结的、只在预处理阶段运行一次的基础模型，不参与端到端训练，也不部署到车上。它只是说：“训练时多关注这些区域”。

具体实现：

· 用文本prompt集（“vehicle”“pedestrian”“traffic light”“road”等）驱动SAM3生成逐类别mask

· 将mask池化到规划器的patch网格

· 按类别权重加权，加上小量高斯噪声（τ=0.4）增加探索

· 按重建比例ρ_rec=0.3，选Top-m得分位置作为重建目标这个“聚焦前景”的策略，本质是用弱语义信号引导信息保留的优先级。比起让token自己猜哪些重要，直接告诉它“人和车最关键”效率高得多。

实验验证：数据说真话

SOTA对比：三项基准全面领先

先看Waymo端到端驾驶排行榜的结果。这是端到端模型绕不开的试金石：

表1

*表1：Waymo Open Dataset Challenge视觉端到端驾驶排行榜。NTR单模型RFS 7.9982，集成模型8.0461，均位列最优；ADE@5s和ADE@3s同样最佳。*

NTR不只在RFS（人类评分反馈，越高越好）上拿了最优，在ADE（平均位移误差，越低越好）上也同步提升。这意味着改进不只体现在“人类觉得更好看”，而是实实在在的轨迹精度提升。单模型7.998 vs 之前方法，差距清晰可见。

再看NavSim V1的navtest split：

表2

*表2：NavSim v1 navtest性能对比。NTR在PDMS（94.1）和EP（90.8）上取得最优，NC（99.1）与RAP并列第一。*

PDMS、EP这些是基于驾驶规则的闭环指标，更像“考官打分”。NTR在这里的一致性领先，说明它学到的不是特定场景的取巧，而是更泛化的驾驶能力。

以及在NavSim V2扩展指标下的表现——更多维度的评估：

表3

*表3：NavSim v2主实验结果。NTR在NC、DAC、DDC、TTC及综合指标EPDMS上均取得最优，显著超越现有SOTA方法。*

三张表互不矛盾，趋势高度一致：NTR带来的提升是系统性的，不是某个指标上的偶然波动。从人类评价到规则评估，从单一维度到扩展指标，NTR都在排头位置。

定性分析：极端场景见真章

数值好看，路上到底刹不刹得住？看两个硬核场景：

图3

图：白天施工区域（上）与夜晚雨天（下）场景的规划轨迹对比。橙色NTR轨迹更贴近绿色真值，蓝色Baseline出现明显偏移。

上图是一个白天施工区，左前方有锥桶和施工车辆。Baseline的轨迹（蓝）偏保守，向右侧漂移，而NTR（橙）紧贴真值轨迹（绿），对施工区域的绕行意图更清晰。下图是夜晚雨天，视线差、路面反光——这是感知极易失效的场景。Baseline的轨迹明显偏左，几乎要压到对向车道线，而NTR稳稳居中。

这些图告诉我们：NTR学到的不只是“看得更清”，而是“记住更有用的东西”。 施工区的锥桶、雨夜的车道线，这些结构化元素正是语义先验强调的重建目标。

消融实验：拆开每个组件的贡献

技术文章不拆组件就失去了灵魂。NTR做了精细的消融实验：

表4

*表4：NTR核心模块消融实验。逐步添加潜变量重建、EMA教师目标、语义先验选择，RFS从7.652提升至7.974，ADE@5s从2.565降至2.146。*

· 仅加随机mask潜变量重建：RFS从7.652提到7.754。纯靠密度更高的监督信号，已经生效。

· 换上EMA教师：RFS继续到7.817。自适应更新的教师比冻结版本更有效。

· 加入语义先验引导选择：EMA+语义先验组合达到7.974，ADE@5s降到2.146。信息选择的位置确实关键。

· 完整NTR：所有组件协同，改进幅度约0.32 RFS，误差降低约16%。消融表很干净，没有“鸡肋组件”——每加一项都有正向贡献，语义先验的边际收益在EMA教师支持时最大。

Token诊断：用数据证明“不摸鱼了”

这是整篇论文最漂亮的实验设计之一。如何量化token的“勤奋程度”？他们用了两个指标：相似度（越低越好）和有效秩（越高越好）。

表5

*表5：场景token预算诊断。不同token数量下，NTR的相似度始终低于Baseline，有效秩持续更高，且在token=16附近出现效率权衡点。*

在token数从1到32的变化中：

· NTR的相似度始终明显低于Baseline，意味着token之间信息重叠更少。

· NTR的有效秩全面领先，尤其在16个token时接近饱和——再多token收益递减，说明16是个不错的预算平衡点。

· Base方法增加token反而可能出现性能波动，说明冗余token有时会引入混乱而非帮助。这套诊断直接把“token在摸鱼”从感觉变成了可测量的数据。相似度下降+有效秩上升 = token开始各自承担不同信息角色。 这正是NTR设计目标的直接验证。

局限性：坦诚比完美更重要

作者诚实地指出了NTR的边界：

1、作用于瓶颈而非Backbone。NTR优化的是“压缩→规划”的信息传递，不改变ViT本身的特征提取质量。它与MAE、iBOT这类Backbone预训练方法是互补关系，把两者的结合留作未来工作。

2、依赖基础模型生成语义先验。SAM3虽然强大，但在域外场景（如极端天气、罕见国家街道）可能产生不准确的mask，影响先验质量。但这部分只在训练时使用，不部署到车上，至少安全上无隐患。

3、训练开销增加。额外的教师模型前向、重建解码器、语义先验预处理都会增加训练成本。在公开基准上这是可接受的代价，但大规模量产场景可能需要优化管线。

价值升华：我们的场景token终于有人管了

这篇工作解决了一个被大多数人忽略但极其关键的问题：信息压缩的质量，决定了规划的上限。 过去大家沉迷于堆更多token、换更大backbone、设计更花哨的规划头，却没人直接追问——压缩过程中到底丢了什么？

NTR的价值不只在一个SOTA分数，更在于提供了一种可插拔、零推理开销、有理论直觉的瓶颈监督范式：

如果你在做端到端自动驾驶：这个框架可以嫁接到大多数token压缩规划器上，训练时多跑一个重建分支，推理时完全不影响部署。

如果你关注表征学习：它展示了一种“用重建梯度约束信息瓶颈”的通用思路，不限于自动驾驶。

如果你在追求落地部署：NTR已经在真实车辆规划栈中集成验证，论文附录里有实车部署视频和私有大规模数据集实验——这比纯粹刷榜多了一层说服力。

下次你设计一个信息压缩模块时，记得问一句：压缩过程有人管吗？

图片数据来自网络，侵删！

加入收藏

上一篇：哈曼推出Ready StreamShare 打造集共享聆听和

下一篇：从刷写到OTA：程翧 CAN FD Bootloader 的

返回列表

端到端自动驾驶的"Token危机" | 黑芝麻智能用一张"重建面具"，把Waymo榜一打穿了

随便看看

产品推荐

哈弗H6 新车搭载1.5T涡轮增压发动机

新捷达匹配大众最新的EA211系列发动机

史上最强2.0T：奥迪S3装备全新2.0TFSI发动机

比亚迪将推出1.2T/2.0T发动机