解读毫末智行自动驾驶量产底层逻辑

城市场景自动驾驶的六大挑战

在顾维灏看来，城市场景是自动驾驶的核心突破点，而城市开放道路的复杂性也远远超过此前的预期。比如城市道路养护频繁、大型车辆密集、变道空间突然变窄、城市环境多样等等。

而要解决这些难点，需要面对的挑战有6个：

如何在自动驾驶领域应用大模型？

如何让新数据发挥更大的价值？

如何使用重感知技术解决现实空间理解问题？

如何使用人类世界的交互接口？

如何让仿真更真？

如何让自动驾驶系统运动起来更像人？

而解决这些挑战，主要靠的是MANA在感知、数据使用效率等方面的能力进化。

顾维灏认为，在自动驾驶领域应用大模型，首先要解决的问题是，如何能更高效地将数据规模转化为模型效果。

这里涉及的一个关键节点是，数据标注。

大模型意味同时也意味着大量的参数和数据，在这种情况下，数以10亿计的数据标注需要大量的时间和成本。在此之下，就需要一种能够直接使用大量无标注数据的方法来解决问题。

毫末选择的方法是，自监督学习，也就是用大量的无标注数据训练感知任务backbone（主干网络），模型其他部分用标注数据进行训练。通过这种方式，可以将训练效果提升3倍以上，同时精度有显著提升。

关于第二个挑战，顾维灏提到一个现象：在数据量越来越大，达到一定量级的时候，头部场景的数据样本丰富，但（场景）占比少，大部分长尾场景和类别的数据样本匮乏。

比如在车辆识别中，乘用车样本多，但一些异形车的数据就比较少，类似的情况还有带有特殊图文的交通灯、不同样式的汽车尾灯等。

这种现象造成的结果是，训练出来的模型针对一些长尾场景的处理效果不好，同时在加入新数据的时候，还会导致已有的训练效果迅速衰退。

为了解决这一难题，毫末为MANA构造了一个增量式学习训练平台，平时在对模型进行训练时，放弃优化所有参数，而是有选择的对一些特定参数进行定点优化，同时动态观察模型的拟合能力，适时扩充模型的拟合能力。这样就可以节省80％以上的算力，收敛时间提升6倍。

第三个挑战，如果将高精地图数据接进系统就不是挑战，这也目前大多数自动驾驶玩家的玩法，但毫末偏偏走的是“重感知＋轻地图”的路线。因为在顾维灏看来，高精地图的迭代速度和成本问题，都无法满足自动驾驶的需求。

但没了高精地图，传感器之外的空间如何感知，自动驾驶如何构建自己所处的3D空间？

毫末采取的方式，与特斯拉的方法有相似之处，那就是让系统自己“脑补”。

具体来说，就是使用时序的Transformer模型在BEV空间做虚拟实时建图，通过这种方式使感知车道线的输出更加准确和稳定。

挑战四，使用人类世界的交互接口。顾维灏表示，过去毫末主要是通过传感器和算法对交通参与者的行为进行预测，以此来对车辆周围的交通环境做出提前反应，但在复杂性更高的城市开放道路，单纯靠“猜”的方式已经不够用了。

解决这个问题的方法是，识别更多的人类交通语言，比如刹车灯、转向灯，这样算法就能更清楚的判断周围车辆的下一步行动，进而做出决策。

第五个挑战，就是让仿真训练的数据更接近真实场景，而在城市开放道路场景下，复杂性往往更高，尤其是应对路口场景，时效性和微量交通流变化的构建存在问题。

为此，毫末与阿里以及浙江德清县进行合作，利用路端设备将路口的全天候真实交通流记录下来，建立自动驾驶场景库。这种采集方式，相比车辆采集数据更加丰富和真实。

至于最后一个挑战，实际上要解决的是自动驾驶的舒适性问题，例如自动启停的机械感和顿挫感。

在这个问题上，顾维灏介绍，毫末主要是通过借鉴多模态大模型的方法来解决自动驾驶的认知问题。通过对覆盖全国的大量人类驾驶行为进行深度理解，构建 taskpromt，训练一个基于时空Attention的驾驶决策预训练大模型，使得自动驾驶决策更像人类实际驾驶行为。

以上，就是毫末智行以自己的角度和方法论，对自动驾驶的核心难题给出的解决方式，而透过这一套方法论，也能看到毫末智行大规模量产背后的关键词：

大数据、大模型，和自动驾驶渐进式落地路线。

余下全文 2/3

相关推荐