特斯拉自动驾驶在中国为何不如小鹏？

算法分歧

“每一次硬件的大幅改变，也会带来软件算法的大幅改变。”地平线创始人余凯在演讲中表示。

感知硬件方案带来的差异是小鹏与特斯拉现阶段“分歧”的表象，更深层次的差异来自于不同感知路线背后“思维模式”的差别——在更远的未来决定量产自动驾驶这一目标能否最终落地。

“思维模式”即自动驾驶系统的软件算法。主要分为感知、决策和控制三部分。

· 感知算法追求解决传感器“感到”的东西是什么的问题，通过对感知到的物体进行分类、标注、理解，最终在车端建立起与现实路况高度相似的向量空间；

· 决策算法则需要综合考虑导航路线、道路情况、其他交通参与者的动作意图，以及安全、效率、舒适等行驶标准，在向量空间中先求解出可行空间（凸空间），然后利用优化的方法在可行空间内优化求解，输出最终轨迹。

· 控制部分则负责高效协同底盘系统的各个执行件，以便忠实执行决策算法的“决定”。

《电动汽车观察家》在采访中了解到，目前的高阶驾驶辅助及自动驾驶系统当中，感知算法绝大多数已采用AI神经网络进行感知，决策算法中也已在前端使用神经网络进行搜索和选项收敛，后端采用逻辑判断的算法。

那么，在纯视觉和多传感器的硬件方案背后，软件算法的分歧有多大？

2．1 ｜感知算法对比

感知算法采用神经网络为主的AI模式已是当下的主流模式。

时间回退至2020年8月，马斯克首次表示特斯拉正在重写FSD的基础架构。一年之后的AI DAY上，特斯拉宣布感知算法模型中CNN卷积神经网络的计算量占比达到了98％，并通过RNN（循环神经网络）加入了时间序列。通过利用具备出色算法并行性的Transformer融合不同摄像头数据。

直观来看，就是特斯拉车上8个摄像头的原始数据进入感知算法模型，模型输出时已是时空一致的结果。最近马斯克接受采访时表示，特斯拉已经完成了从视觉到向量空间的完整映射。

目前公开的信息中，特斯拉的感知算法模型包含至少48个具体的神经网络结构，可同时执行超过1000个不同的识别、预测任务，进行一次充分训练所需要的周期是7万GPU小时。

相比之下，采用多传感器融合的小鹏则要在完成视觉感知算法的基础上，再走一步。

目前，小鹏P5搭载摄像头、毫米波雷达、超声波雷达、激光雷达和高精地图构成的传感器方案。其中，雷达的感知算法相对简单，高精地图可提供超时空的先验信息。

多传感器数据融合过程《中金｜ AI十年展望》

真正的难度在于通过算法模型，将视觉、雷达和高精地图的信息进行融合建立向量空间。

由于不同传感器的探测频率、信息类型和精度都各有不同，融合算法模型接收到的是时间不一致、信息不一致、甚至“样子”都不一致的传感器信息，要将其整合成为时空一致的向量空间，难度可想而知。

而且，相比于只靠“看”、信息一致的纯视觉算法，多传感器加高精地图的方案还存在“信谁”这样的选择题——“置信”问题。

有专家向《电动汽车观察家》表示，感知融合系统的“置信”问题，目前也主要依靠在仿真和真实路况中的第三方数据进行验证。

小鹏处理的“置信”问题，不是一概而论的。在高速NGP阶段，小鹏采用高精地图为纲的策略，进入城市NGP阶段，则将采用视觉感知为主的方案。

“在城市NGP中，高精地图仍是非常重要的输入。但是，由于激光雷达的存在和视觉感知能力的快速提升，我们对于各种场景能够处理得更加安全和自然，在地图的边界或是数据出现错漏的时候，能够具备更强大的容错能力。”吴新宙向《电动汽车观察家》表示，“（随着体系能力的建设），我们有信心赶上甚至超越特斯拉的视觉能力。”

2．2 ｜纯视觉的“易”与多传感器融合的“难”

在视觉能力上追上特斯拉，从理论层面来看并不是一句大话。

基于图像识别的视觉感知神经网络拥有“悠久”的历史，也由此积累了众多简洁高效的开源算法。

这是特斯拉敢于公开其感知算法模型逻辑的原因所在，也成为小鹏要在视觉能力方面赶上，甚至超越特斯拉的基础。

从目前的结果来看，XPILOT和FSD是目前量产自动驾驶系统中，唯二布局侧方（A柱）视角摄像头的车企。原因便在于，将侧方图像与广角的前视摄像头的图像进行拼接融合的算法，有较高的门槛，尤其是在量产车型上。

做好视觉感知算法尤为重要。《电动汽车观察家》采访的专家普遍认为，视觉感知仍将是未来自动驾驶系统的核心感知方案。

但为何还要做多传感器融合路线？背后的核心是对反应速度和安全冗余的极致追求。

随着摄像头能力不断提升，视觉感知在应对恶劣天气和路况的能力方面不断进步。但由于始终存在2D到3D的“翻译”过程，以及由此带来的1秒左右的延迟，这对行驶中的汽车来说，有时是致命的。

特斯拉目前已经通过底层软件改写和系统整合，去掉了摄像头为适应人眼观看而进行的图像预处理（LSP）功能，直接将原始信息传递给模型，由此减少8个摄像头共计13毫秒的延迟。

雷达则能直接给出距离／深度／速度信息，而且多传感器的数据可以相互“查漏补缺”。

在P7上形成了自己的感知架构之后，小鹏在P5上应用激光雷达，又在G9上将此前的前视线三目摄像头换成了双目摄像头——1个窄视＋1个鱼眼。

“（随着）XPILOT 4．0的能力更强，对摄像头分辨率的要求也在提升，因此该摄像头是在目前三目摄像头分辨率无法满足需求的背景下，实现更高分辨率的下一代产品。”吴新宙对此解释道。

问题在于，目前“市面”上多传感器融合的开源算法较少。

因此，走多传感器融合路线，其融合算法将更依赖于各家自研、验证和迭代，期间必将形成各自不同的风格，但也缺少像视觉感知“全世界多领域一起加速”的优势。

而且，目前多传感器融合路线将导致车企与供应商强绑定。

与摄像头拥有标准的数据格式和通用数据接口不同，雷达和高精地图都还是“非标品”。激光雷达还存在机械、固态、半固态的路线之争，数据格式和接口尚未形成业内统一的标准。高精地图也因各家图商不同，在数据标定方式、精度等方面有所差异。

由此，尽管车企普遍追求软硬解耦，但事实上在一些具有特殊性的传感器领域，换供应商便意味着对算法模型的改变。也导致多传感器融合路线的车企在供应商选择方面更为谨慎，不仅建立采购关系，甚至不少还建立了投资、共同研发的深度合作关系。

2．3 ｜更难的在于决策算法

解决“感到的是什么”，建立向量空间还只是开始。

AI技术在深度学习的加持下感知能力不断增长，但仍欠缺“思考”能力：处理如条件概率、因果等复杂关系的能力，完成推理推断的任务。

这样的能力，在自动驾驶落地过程中，事关生死。

2018年，Uber的测试车辆出现了全球首例致死事故。美国官方报告显示，车辆在事故发生前6秒观察到了“障碍物”，在前1．3秒判断出是自行车，需要采取紧急刹车。但“为了降低汽车发生不稳定行为（舒适性不足）的可能性”，自动紧急刹车未启动，而采取缓慢刹车，加之安全员走神，最终导致事故发生。

这一案例充分显示了决策系统的重要性，尤其是在路况复杂，充满了博弈场景的城市路况中。

通用旗下面向L4级的自动驾驶技术公司——Cruise，在去年的技术日上给出了好决策系统的定义：及时性；交互决策（对其他交通参与者与车辆未来行动及产生的影响进行考虑）；可靠性和可重复性（能够在相同场景做出相同的决策），由此输出安全、高效，老司机般的乘坐体验。

特斯拉在此前的AI DAY上明确了其决策系统的标准是安全、舒适、效率；

吴新宙向《电动汽车观察家》介绍，XPILOT在难度更高的城市场景中的决策要素为：安全、可用性，以及好用性。

标准类似，但是要实现老司机般的操控表现却非易事。

在低速或简单场景下，决策算法会根据感知数据规划出一条无碰撞的安全路径，车辆按照指定路线运动。

但复杂的交通流和场景路况中，常会出现规划轨迹跳变、碰撞等问题。核心是由于决策算法对障碍物未来行为的预见性不足，算法仅依靠当前时刻的感知数据进行局部、而非全局路况求解导致。

因此，当车辆处于陌生又复杂的场景中时，往往会反复紧急制动或出现危险动作，“安全、高效、舒适”的决策标准很难满足。

车辆进行自动驾驶时，一般一个交通场景中可能有上百个交通参与者与自动驾驶车辆发生交互，决策系统需要考虑场景中其他交通参与者未来的动作，投影预测的社会车各种行为，行成一个可行驶空间，然后搜索出轨迹。

其中，预测被认为是自动驾驶系统工程落地中最困难的一环。车辆不仅要了解自身与环境未来可能的各种动向，还要从无数可能中判断出最有可能的交通参与者行为。

为建立系统的预测能力，业内目前除不断地优化算法之外，还需要对AI在世界模型中进行自我监督学习。而特斯拉通过影子模式收集的、真实世界中海量的交通参与者行为，则成为FSD建立预测能力最好的教材。

去年的AI DAY上特斯拉展示过一个窄道会车的场景。自动驾驶车辆在开始时认为他车会继续行驶，因此靠右等待，发现他车也停下让行后，立刻前进了。

特斯拉自动驾驶车窄道通行案例，AI DAY

对此，一位自动驾驶规控工程师向《电动汽车观察家》表示，目前大多数自动驾驶公司无法处理这样的场景，往往会保守地选择停车让行，或与他车同起同停，造成碰撞风险。“但特斯拉可以很好的处理该场景，证明它的预测和决策配合非常好。”

即使有了“预测”，“搜索”也不容易。

自动驾驶车辆通常需要采样计算5000多条备选轨迹才能做出正确的决策。

但“时间不等车”，决策规划算法通常运行频率在10Hz－30Hz左右，即每30ms到100ms就需要计算一次，而在这么短的时间做出正确的决策是一个巨大的挑战。

特斯拉FSD目可在1．5ms搜索2500次，通过对备选轨迹综合评价后选择最优轨迹。

但这样的做法在人车混流、道路结构复杂的城市路况中往往会导致超算（超出计算平台的算力能力）。

为此特斯拉引入了MCTS框架（蒙特卡罗树搜索），相较传统搜索方式效率提升了100倍以上。

MCTS可较为有效地解决一些探索空间巨大的问题，例如一般的围棋算法都是基于MCTS实现的。苹果自动驾驶专利和谷歌的阿尔法狗都有采用该方法。

小鹏XPILOT道路交互

目前，小鹏尚未透露其决策算法所利用的模型类型。不过吴新宙向《电动汽车观察家》表示，在城市场景，由于交通参与者的不同和场景的复杂程度，对于预测、规划和控制有完全不一样的要求。所以，小鹏对定位、感知、融合能力是在高速场景的基础上做了大幅增强。

“对于决策部分，我们引入了一套全新的架构，来满足城市NGP更高的要求。这部分架构也有非常强的反向兼容性，所以我们也期待未来在XPILOT 3．5上，我们的高速和停车场场景也能受益于这套新的架构，给用户更好的体验。”

余下全文 2/3

特斯拉自动驾驶在中国为何不如小鹏？

相关推荐