从2023世界人工智能大会，看自动驾驶行业的新希望

作者丨Poinko

责编丨崔力文

编辑丨别致

行业的“寒冬”，将淘尽一切泥沙。

“目前，特斯拉的技术已经非常接近完全自动驾驶的目标。在美国道路上进行测试的特斯拉车辆，已经很少需要人工干预了。因此，当我们驾驶一辆具备最新版本完全自动驾驶能力测试版的特斯拉，从一个目的地到另一个目的地，我们几乎不需要人为操控。特斯拉可能在今年晚些时候就具备L4或L5级的完全自动驾驶能力。”

▲此时此刻，恰如彼时彼刻

三天前，即7月6日上午，在2023世界人工智能大会（WAIC）上海开幕式上，当特邀嘉宾特斯拉CEO埃隆·马斯克以视频发言的方式说出上面这段话的时候，笔者瞬间有了一种极其强烈的时空错位感。

就在3年前的2020世界人工智能大会云端峰会开幕式上，同样是通过连线方式发表讲话的马斯克，也曾说出过一番高度类似的话——今年可以完成L5级自动驾驶的基本功能开发，（特斯拉）新车配置的硬件足够支持L5级自动驾驶。

▲2020年已立过FLAG

然而上一次他立FLAG的结果，我们都已经看到了。

2021年初，特斯拉的法务部高管被迫前往美国国家公路交通安全管理局（NHTSA）说明情况，承认特斯拉目前提供的智能驾驶功能实际只有L2级。2022年7月，在有关2018年前苹果软件工程师黄伟伦的致命车祸诉讼中，特斯拉Autopilot项目总监阿肖克·埃鲁斯瓦米提供了一份证词，证明特斯拉于2016年发布的一段自动驾驶视频系伪造。

尽管马斯克这个人，历来是在大吹牛皮的同时也大干人事，与所谓PPT创业骗投资的西贝货有着本质区别。然而在目前号称“自动驾驶寒冬”的低谷期再继续立这种陈年FLAG，就实在是让人觉得有点不严肃了。

实际上，纵观整个2023世界人工智能大会，笔者也确实非常直观地，感受到了寒冬的凌冽。尽管其中，似乎又孕育着新的希望。

“寒冬”的具体呈现

烈火烹油、繁花似锦的画面，只在于资本是否热衷于此道。但高度逐利是资本的一大主要特性。无论远期的画面多么地美好，一旦察觉相关技术难以在财报可见的速度里商业化落地，那么转而寻觅下一个风口，也是资本的标准操作。

▲曾经在2021WAIC大出风头的RoboTaxi服务车队

时隔两年时间，跨越三届展会，笔者对于所谓的自动驾驶行业的寒冬，可以说是有着非常直观的认识了。依稀记得2021年第三届WAIC上，各类自动驾驶企业的展台，占到了总展商数量的近两成。而同步举行的论坛中，也加入了大量涉及自动驾驶的议程和讲演。

但时至今日，翻遍主办方提供的论坛议程，在总计大几十项的各类论坛里，涉及相关内容的论坛，只有区区3~4个而已。而具体到参展商层面上，许多曾经熟悉的面孔，今日已难寻觅。

最典型的例子是从2018年的第一届人工智能大会起一直坚持参展的小马智行。在2021年的展会前后，这家企业曾高调宣布“造车”，甚至在上海地区组建了一个规模约10余人的团队来负责这件事。

当然，小马智行的造车之举，其实另有所图。友商图森未来，在2021年4月顺利在纽交所敲钟，成为了全球“自动驾驶第一股”。从这一点来看，小马智行的操作，以刺激外界试图拉高自身的估值才是第一诉求。

但后来发生的事情也是我们所熟知的。当年8月，美国证交会要求“暂停”中概股IPO，而小马智行成为了被那场巨震波及的一员。

当为了吸引资本而吹胀的气球，一旦被迫放气，后果是极其严重的。紧随其后的，是企业内部的动荡——造车团队解散、卡车团队大量流失骨干。随之而来的，是企业的资金变得极其困难。也差不多就是在那时候，曾经被赞誉为国内自动驾驶独角兽企业的小马智行，从包括WAIC在内的各大展会上销声匿迹。

在商业化上迟迟不能落地，试图在美国上市融资的计划突然中途夭折，这杯外界普遍认为是小马智行深陷困局的主要原因。那么，前面提到的，成功登陆美股，甚至可以做到技术落地的图森未来呢？

▲有关图森未来，投资界这么评价：上市首日即破发，3年累计收入不足300万美金

今年5月，图森未来因没有及时提交财报等相关信息，收到纳斯达克的退市通知。尽管这一风波，目前算是暂时得到了平息，但这家企业仍旧处于美股退市的边缘。

曾经，商业化落地问题同样困扰着这家企业。不过在进入2022年下半年以后，该公司一直加大力度，试图走出困境。

首先是今年3月22日，图森未来获得上海市浦东新区无驾驶人智能网联汽车创新应用测试通知书；然后于4月间，在第二十届上海国际汽车工业博览会上，正式发布新的域控集中式解决方案“TS-BOX感知盒子”。

根据官方介绍，TS-BOX能够兼容支持商用车和乘用车场景，是一种L2+级智能驾驶解决方案。图森未来董事长陈默不久前在接受媒体采访时表示，TS-BOX等硬件主要围绕图森中国市场展开，目前收入结构主要是为向OEM厂商提供硬件服务。而图森未来海外公司则仍继续围绕商用车拓展。

▲尽管TS-BOX的商业前景并不明朗，笔者也没查到目前是否有用户，但起码能拿出可以落地的产品，这一点非常的重要

当然，必须要说一句的是，图森未来仍旧在本届人工智能大会上设了展位，尽管规模远不如以往。

实际上除了图森未来，WAIC上我们还能找到一些老面孔，比如西井科技、中科慧拓等。但这两家企业均立足于商用车业务，前者以实现洋山港码头集装箱运输车“真无人”而广为人知，后者的主要业务在于为矿山提供无人驾驶运输平台。

虽然这两家都可以自称是L4甚至L5级自动驾驶技术提供商，但其使用场景相对封闭，实际并没有各类上路乘用车所面临的，高度复杂化的使用场景问题。

所以一切问题归根结底，在公共道路上，高阶自动驾驶想要以目前的技术来实现，难度还是太大了点。

突破技术瓶颈的新途径

毫无疑问，所谓“自动驾驶的寒冬”，究其根本，还是技术问题。说得具体一点，便是自动驾驶这项技术在工程化应用层面，目前已经卡在了各种层出不穷的长尾难题（Corner case）。

而这个长尾难题的本质，其实是人力有限的问题。因为目前系统在认知各类驾驶场景时，主要靠的还是人工写规则。有多少特殊场景，就用多少规则来约束。然而，以迄今为止的实践来看，现实世界里的“特殊场景”，似乎太多了一点，这个人工的量，委实也有点大了。

典型的例子，目前北美在L4以及以上自动驾驶技术领先地位，同时也是全球最早投放RoboTaxi的Cruise公司，各类特殊场景累计早在2019年就已经突破600万规模。但直至今日仍旧无法穷其尽头。

而这类“特殊场景”到底有多特殊，这里可以用一个发生在中国台湾省的例子。

2020年中，中国台湾省的一条高速公路上，有台特斯拉MODEL 3，发生过一起诡异的交通事故——对着已经侧翻在车道正前方的大货车，直挺挺撞了过去。导致事故的原因可以说极其地弱智：

该车当时启动了Autopilot功能，司机正分神在干别的事情，注意力偏离了车辆的正前方。由于翻倒的货车不幸以车顶对准车道来车方向，而车顶色调为浅色偏蓝，故被MODEL 3的视觉传感器误识别成了地平线方向的天空背景。

可以说，都是一些真人司机绝不会犯的可笑之极的错误。但对于机器来说，却需要一一标定，并写出因对规则。

为了解决上述问题，业内一直在探索一条，真正能实现端到端自动驾驶的道路。即从感知数据输入、规划决策数据输出，完全依靠神经网络来解决的方案。而在这条技术路线上，一项最近大半年来火爆异常，名为“大模型”的事物，正给予了我们新的希望。

所谓“大模型”，其本质便是超级化的神经网络。一种在过去二十年得到广泛研究的人工智能方法。

最初，学者们试图使用这类模型，去模拟人类的思维和决策。而其核心，便是解决“映射”——决定两个元素的集合之间元素相互如何对应的关系。

▲一种典型的神经网络，以及经典映射关系训练项目——识别猫和狗

神经网络的本质，是在每个人工神经元上设定一些可以调节的参数，并能够根据这些参数对输入到该神经元的数据进行各种加权求和以及非线性变换，使其能够借助学习/优化算法实现不同对应关系的映射。

这种映射关系的作用十分广泛，你可以用特定的数据，比如通过一系列提前制作好的输入-输出对答案，作为其训练基础数据，用学习算法来调节网络参数，使其实现类似于训练数据的映射关系。广义上来说，给它什么样的训练数据，就能通过神经网络建立什么样的映射关系。

这种映射，本质上就是一定程度上的认知关系。

▲尽管有时候，学习也是会失败的……

最典型的例子是网络翻译系统，输入一种语言，比如中文，立即映射对应的英语文本。更进一步地，可以输入一张动物图片，映射对应的动物名称。而如果神经网络足够复杂，训练也确保充分的时候，甚至可以输入视频，映射对视频内容的文本性归纳——把视频拆解成每帧图像，然后识别图像内容，最后归纳概括。

当神经网络搭建足够庞大，从几千上万个节点提升到了百万、千万的数量，就演变成了前几年曾经流行的深度神经网络。那么，在此基础上再增加一到两个数量级呢？对的，就是所谓的大模型。

年初曾经搅起大风波的ChatGPT，虽然现阶段仍存在很多的问题，也远达不到科幻电影中那种人工智能助理的能力，但作为一个优秀的进阶型在线问答机，能力还是够格的。如果能掌握准确地提问技巧，也确实能为你节省大量的数据归纳和整理时间。

▲类似ChatGPT这样的A.I，已经基本具备了使用价值

总体而言，通过前期对包括ChatGPT在内的部分大模型产品的使用，业界发现一个非常有趣的现象——当模型参数量，无论是神经网络节点，还是输入数据总量、学习次数，达到了一定程度，超过某个目前还不太明确的“临界值”之后，其性能（映射关系的建立，以及反馈值的准确性）将会大大超越预期。

所以，如果大模型被用到驾驶上呢？既然可以把视频信息经过拆解、阅读和理解，生成一个概括性的文本综述信息，那么基于不同的驾驶场景，是否可以输出对应的方向盘、油门以及刹车信息呢？

答案显然是肯定的，而且国内已经有厂商开始转向该领域。

就在三个月前，国内自动驾驶公司毫末智行在其召开的第八届HAOMO AI Day上，已经率先公布了名为“雪湖·海若”的AI大模型，而其英文则是DriveGPT。

而在本次WAIC期间，由毫末智行COO侯军发表的《“可行、可靠、可商用”的自动驾驶解决方案探索与规模落地》主题演讲，也成为了整个展会期间有关自动驾驶技术屈指可数的论坛议程之一。

我们有理由相信，还有更多的企业，在准备转向这一技术。即便冒着，将一切“重做一遍”的风险。

对于那些，连续参加多届WAIC的人而言，变化不仅体现在行业热点方向的变迁、展商的更迭。同样还有那些，业务和技术发生重大转变的企业。

商汤科技便是其中的典型。因为这张WAIC的老面孔，甚至可以说是近年来国内车展的老面孔，此前一直将自家的无人驾驶技术摆在台面之前。但在这次的展会上，其摆在最前台的，却是一款名为秒画SenseMirage的创作平台。

根据商汤科技官方的说法，该平台依托于自研的AIGC大模型，可以提供便捷的LoRA训练能力，并能够依靠第三方社区开源模型加速推理能力——“其旨在为创作者提供便利、完善的内容生产创作工具”。

有关自动驾驶那些，商汤道也没丢，这次依旧带来布展了。只不过，不再享有C位待遇，而是被安排到了展台后面的位置上。

毫无疑问，大模型才是本届WAIC的最大赢家。

其中最“大”者，莫过于华为公司推出的昇腾AI“大模型超级工厂”。华为方面宣称其致力于全流程赋能大模型的开发与应用创新，目前基于昇腾Al已经原生孵化了业界首个两千亿参数的中文NLP大模型鹏城·盘古、业界首个多模态大模型紫东·太初，以及华为云盘古系列在内的二十多个国产大模型。

另外，百度也带来了自家的文心大模型。腾讯拿来了腾讯云行业大模型解决方案，该大模型依托腾讯云IT平台全栈能力，内置多个行业模型，开放支持客户多模态训练任务。

这正如同21年智能/自动驾驶是热点，去年流行的是自主AI芯片以及元宇宙概念。每一个时期，各有资本的宠儿，活跃在舞台的中心之上。然而技术的背后，实际有着业外人士无法想象的共通性。这正如上面提到的，大模型为高阶智能驾驶技术突破所带来的新希望。

▲6月21日的国务院政策例行吹风会上，工信部明确表达了支持L3级及更高级别的自动驾驶功能商业化应用的态度

不久之前，工信部曾经专门发文表态，将支持L3级别乃至于更高级别的自动驾驶功能商业化应用。尽管类似的新闻，在之前几年已经屡见不鲜，但多见于人大代表或政协委员的建议，实际并无多少正式被提交审议的具体方案。而以部委牵头，这可能代表国内的智能驾驶立法与规范，将会在今年跨出实质性步伐。

就在本届展会中，知己汽车的展台上，工作人员宣称，在现有的L2.5基础上，智能驾驶“点对点”的功能，最快将在明年初开放，“但只有安装激光雷达的高配LS7车型才能激活”。而特斯拉，似乎也将迎来L3级“有条件自动驾驶”的时代。

也就在本届WAIC开幕前不到两周，一位美国黑客成功攻破了自己那台2020版Model X的系统。在FSD Beta 11.4.3软件内的一隅，他激活了一个尚未被公布，此前不曾为外界所知晓的功能。

随后，这位同时身兼特斯拉车主的黑客，坐在他那台Model X的驾驶作上，连续行驶了600英里（约966公里）。期间除了需要快充的时候，他未曾碰触过方向盘，系统也全程未发出过安全提醒。

尽管距离马斯克本人夸下的海口尚有很大的距离，但自动驾驶时代的曙光，已经在地平线那一边闪烁。

也许我们应该换一个角度，来理解这所谓的“寒冬”——就如同大浪淘沙，当水退去之时，泥沙都将流走，只剩下沙金在闪烁着光芒。

原文标题 : 从2023世界人工智能大会，看自动驾驶行业的新希望

从2023世界人工智能大会，看自动驾驶行业的新希望

相关推荐