如果你是一名司机,你肯定会有一个感觉,如果在你熟悉的路段开车,你会熟练很多,因为你知道哪里有岔路口,哪里有人行道等,哪里有红绿灯,哪里可能会有摩托车出现,你会有习惯性的动作保证你的驾驶安全。但如果在你不熟悉的路段,就会紧张很多,因为一切未知。
事实上自动驾驶也是如此,要想提高自动驾驶的熟练度,不仅算法、技术要跟上,还需要进行大量的学习和训练,就相当于你熟悉道路的过程样。
所谓的自动驾驶的学习训练,就是指在不同的场景下,各种应对处理方式。这就需要海量的“训练场地”和庞大的素材数据集。而在此之前,国外厂商Waymo,拥有全球最大的2D自动驾驶数据集。
不过现在,这个全球最大的2D自动驾驶数据集,已经不再是Waymo的了,是华为的了,近日,华为诺亚方舟实验室联合中山大学发布了新一代2D自动驾驶数据集SODA10M。
这个数据集有多大?包括了1000万张无标注图片以及2万张带标注图片。来自32个城市,囊括了国内大部分地区。而带有标注的2万张图片,则直接标出了6种主要的人车场景类别,分别是:Pedestrian、Cyclist、Car、Truck、Tram、Tricycle。
这个数据集的规模,可以说是之前Waymo拿下第一的那个数据集的的十倍量了。
这些数据是怎么采集的?并没有大家想的那么高大上,华为通过众包的方式,通过国内上万名的出租车司机采集的,有些是通过手机,有些是通过记录仪。
当然,这些照片并不是仅仅拍照就完事了,是有很多要求的,比如不同天气条件下的采集、对地点的要求,图片中心点的要求等等,所有的图片最终都是要经过验证的,不是你随便拿手机拍一张就算合格的。
而有了这个全球最大的2D自动驾驶数据集之后,可以想象的是,未来华为的自动驾驶技术,能够得到更有效的训练,从而获得更安全的、更智能的、更高效率的自动驾驶,你觉得呢?