端到端自动驾驶的"Token危机" | 黑芝麻智能用一张"重建面具",把Waymo榜一打穿了
自动驾驶端到端模型,正在被一个“隐形的天花板”卡住。模型越来越大,数据越喂越多,但规划轨迹总在复杂场景里出现诡异漂移。问题不在规划头,而在视觉信息传递的“咽喉要道”——场景token瓶颈。
我们拆解这篇技术工作,看看它如何用一个巧妙的训练信号,逼着紧凑的场景token记住更多关键信息,在Waymo和NavSim榜单上跑出SOTA,甚至部署到了实车上。
核心痛点:你的场景token在“摸鱼”
感知无关的端到端自动驾驶,主流玩法是用ViT把多视角图像打成密密麻麻的patch token,再压缩成一小撮“场景token”(scene token)喂给规划器。这本质上是一个多对一的极限压缩——几百上千个patch token,挤进16个场景token里,然后让规划器仅凭这点信息输出未来轨迹。
问题来了:谁来监督这个压缩过程?现有方法只靠轨迹回归损失和候选评分损失来间接约束。这就好比只告诉一个快递分拣员“最后包裹要准时送到”,却不告诉他哪些包裹里的东西易碎、哪些需要冷链。分拣员很快学会偷懒——把所有包裹都堆在一起,反正都能送到。

图1
图:场景token行为诊断。左侧baseline的token注意力高度重叠,相似度矩阵一片“全黄”;右侧NTR在语义监督下,token各自聚焦不同结构化元素,相似度矩阵呈现丰富的多样化模式。
这是这篇工作最精彩的开场。左侧(baseline)的场景token,注意力区域高度重叠——好几个token盯着同一块地方,相似度矩阵几乎是均匀高相似的全黄色。这意味着16个token里可能只有2-3个在真正干活,其余都在输出冗余信息。右侧NTR方法下,每个token开始“术业有专攻”:有的盯车道线,有的盯前车,有的盯交通标志。相似度矩阵从“黄色暖昧”变成“蓝绿黄相间的冷静距离感”——表征多样性显著提升。
这不是架构问题,是训练信号问题。 没有直接约束压缩过程,token自然会坍缩成最简单的冗余编码。
原理拆解:如何让token“卷”起来?
整体框架:训练时塞进一个“信息审计”
NTR的核心思路很朴素:既然规划损失太稀疏,那就给场景token再加一个密集的重建监督。 但注意,它不是重建原始图像,而是重建被mask掉的教师模型特征——一种潜在空间的自蒸馏。而且整个重建分支只在训练时存在,推理时原封不动去掉,零额外开销。
看整体架构就一目了然

图2
图:NTR整体框架。(a) 紧凑场景token规划器将多视图patch压缩为场景token,驱动轨迹生成与打分;(b) 神经token重建仅以场景token为记忆,重建被mask的教师特征;(c) 基于提示的语义先验利用基础模型生成语义掩码,引导重建目标聚焦驾驶关键区域。
框架分三块:
(a) 就是标准的DrivoR风格规划器:多视图→patch token→场景token→轨迹生成+评分。这是不变的基底。
(b) 是NTR的核心插入——一个仅在训练时激活的重建解码器。它的输入只有场景token和mask位置的位置编码,必须仅凭这些信息重建对应位置的教师模型特征。
(c) 是语义先验模块:用预训练的SAM3跑一遍图像,得到车辆、行人、车道、交通灯等驾驶关键区域的mask,指导重建位置的选择。关键设计:重建解码器只通过交叉注意力访问场景token,不能直接看在线编码器的密集patch输出。 这意味着重建损失的回传梯度必须经过场景token瓶颈,相当于给瓶颈装了一个“信息审计系统”:如果你没保留足够细节,就别想重建出来。
潜变量重建:为什么重建教师特征而非原始像素?
这里有一个精妙的设计选择。NTR不重建RGB像素,而是重建教师ViT输出的潜变量特征。
教师模型是在线编码器的EMA(指数移动平均)副本,参数缓慢跟随在线模型,提供稳定的、高质量的“参考答案”。在线模型处理mask后的图像,它的场景token必须重建出这些被mask位置的教师特征。
为什么选潜变量而非像素?两个理由:
1、像素重建是低级视觉任务,大量监督信号会浪费在背景纹理、天空渐变上。潜变量特征已经过ViT编码,更侧重语义和结构信息。
2、EMA教师提供自适应目标。冻结的教师模型可能很快被在线模型超越,而EMA教师始终处于“略微超前”的状态,如同一个不断进步的教练。
公式上,重建损失用L1范数:


语义先验:让重建预算花在刀刃上
均匀mask重建有个问题:自动驾驶图像里,大面积天空、远处模糊背景占据了许多patch。重建这些区域既浪费计算,又可能引入噪声。
NTR的解决方案很巧妙:用预训练SAM3给图像做弱语义标注,生成前景mask,优先选择包含车辆、行人、可行驶区域、交通灯等元素的patch作为重建目标。这不等于引入显式感知头。SAM3是冻结的、只在预处理阶段运行一次的基础模型,不参与端到端训练,也不部署到车上。它只是说:“训练时多关注这些区域”。
具体实现:
· 用文本prompt集(“vehicle”“pedestrian”“traffic light”“road”等)驱动SAM3生成逐类别mask
· 将mask池化到规划器的patch网格
· 按类别权重加权,加上小量高斯噪声(τ=0.4)增加探索
· 按重建比例ρ_rec=0.3,选Top-m得分位置作为重建目标这个“聚焦前景”的策略,本质是用弱语义信号引导信息保留的优先级。比起让token自己猜哪些重要,直接告诉它“人和车最关键”效率高得多。
实验验证:数据说真话
SOTA对比:三项基准全面领先
先看Waymo端到端驾驶排行榜的结果。这是端到端模型绕不开的试金石:

表1
*表1:Waymo Open Dataset Challenge视觉端到端驾驶排行榜。NTR单模型RFS 7.9982,集成模型8.0461,均位列最优;ADE@5s和ADE@3s同样最佳。*
NTR不只在RFS(人类评分反馈,越高越好)上拿了最优,在ADE(平均位移误差,越低越好)上也同步提升。这意味着改进不只体现在“人类觉得更好看”,而是实实在在的轨迹精度提升。单模型7.998 vs 之前方法,差距清晰可见。
再看NavSim V1的navtest split:

表2
*表2:NavSim v1 navtest性能对比。NTR在PDMS(94.1)和EP(90.8)上取得最优,NC(99.1)与RAP并列第一。*
PDMS、EP这些是基于驾驶规则的闭环指标,更像“考官打分”。NTR在这里的一致性领先,说明它学到的不是特定场景的取巧,而是更泛化的驾驶能力。
以及在NavSim V2扩展指标下的表现——更多维度的评估:

表3
*表3:NavSim v2主实验结果。NTR在NC、DAC、DDC、TTC及综合指标EPDMS上均取得最优,显著超越现有SOTA方法。*
三张表互不矛盾,趋势高度一致:NTR带来的提升是系统性的,不是某个指标上的偶然波动。从人类评价到规则评估,从单一维度到扩展指标,NTR都在排头位置。
定性分析:极端场景见真章
数值好看,路上到底刹不刹得住?看两个硬核场景:

图3
图:白天施工区域(上)与夜晚雨天(下)场景的规划轨迹对比。橙色NTR轨迹更贴近绿色真值,蓝色Baseline出现明显偏移。
上图是一个白天施工区,左前方有锥桶和施工车辆。Baseline的轨迹(蓝)偏保守,向右侧漂移,而NTR(橙)紧贴真值轨迹(绿),对施工区域的绕行意图更清晰。下图是夜晚雨天,视线差、路面反光——这是感知极易失效的场景。Baseline的轨迹明显偏左,几乎要压到对向车道线,而NTR稳稳居中。
这些图告诉我们:NTR学到的不只是“看得更清”,而是“记住更有用的东西”。 施工区的锥桶、雨夜的车道线,这些结构化元素正是语义先验强调的重建目标。
消融实验:拆开每个组件的贡献
技术文章不拆组件就失去了灵魂。NTR做了精细的消融实验:

表4
*表4:NTR核心模块消融实验。逐步添加潜变量重建、EMA教师目标、语义先验选择,RFS从7.652提升至7.974,ADE@5s从2.565降至2.146。*
· 仅加随机mask潜变量重建:RFS从7.652提到7.754。纯靠密度更高的监督信号,已经生效。
· 换上EMA教师:RFS继续到7.817。自适应更新的教师比冻结版本更有效。
· 加入语义先验引导选择:EMA+语义先验组合达到7.974,ADE@5s降到2.146。信息选择的位置确实关键。
· 完整NTR:所有组件协同,改进幅度约0.32 RFS,误差降低约16%。消融表很干净,没有“鸡肋组件”——每加一项都有正向贡献,语义先验的边际收益在EMA教师支持时最大。
Token诊断:用数据证明“不摸鱼了”
这是整篇论文最漂亮的实验设计之一。如何量化token的“勤奋程度”?他们用了两个指标:相似度(越低越好)和有效秩(越高越好)。

表5
*表5:场景token预算诊断。不同token数量下,NTR的相似度始终低于Baseline,有效秩持续更高,且在token=16附近出现效率权衡点。*
在token数从1到32的变化中:
· NTR的相似度始终明显低于Baseline,意味着token之间信息重叠更少。
· NTR的有效秩全面领先,尤其在16个token时接近饱和——再多token收益递减,说明16是个不错的预算平衡点。
· Base方法增加token反而可能出现性能波动,说明冗余token有时会引入混乱而非帮助。这套诊断直接把“token在摸鱼”从感觉变成了可测量的数据。相似度下降+有效秩上升 = token开始各自承担不同信息角色。 这正是NTR设计目标的直接验证。
局限性:坦诚比完美更重要
作者诚实地指出了NTR的边界:
1、作用于瓶颈而非Backbone。NTR优化的是“压缩→规划”的信息传递,不改变ViT本身的特征提取质量。它与MAE、iBOT这类Backbone预训练方法是互补关系,把两者的结合留作未来工作。
2、依赖基础模型生成语义先验。SAM3虽然强大,但在域外场景(如极端天气、罕见国家街道)可能产生不准确的mask,影响先验质量。但这部分只在训练时使用,不部署到车上,至少安全上无隐患。
3、训练开销增加。额外的教师模型前向、重建解码器、语义先验预处理都会增加训练成本。在公开基准上这是可接受的代价,但大规模量产场景可能需要优化管线。
价值升华:我们的场景token终于有人管了
这篇工作解决了一个被大多数人忽略但极其关键的问题:信息压缩的质量,决定了规划的上限。 过去大家沉迷于堆更多token、换更大backbone、设计更花哨的规划头,却没人直接追问——压缩过程中到底丢了什么?
NTR的价值不只在一个SOTA分数,更在于提供了一种可插拔、零推理开销、有理论直觉的瓶颈监督范式:
如果你在做端到端自动驾驶:这个框架可以嫁接到大多数token压缩规划器上,训练时多跑一个重建分支,推理时完全不影响部署。
如果你关注表征学习:它展示了一种“用重建梯度约束信息瓶颈”的通用思路,不限于自动驾驶。
如果你在追求落地部署:NTR已经在真实车辆规划栈中集成验证,论文附录里有实车部署视频和私有大规模数据集实验——这比纯粹刷榜多了一层说服力。
下次你设计一个信息压缩模块时,记得问一句:压缩过程有人管吗?
图片数据来自网络,侵删!
