在自动驾驶领域,GPU强大的算力是自动驾驶芯片的一种选择,也造就了拥有着最强大性能GPU的英伟达在这个领域的地位,英伟达Xavier也可能成为全球首个通过ISO26262标准的自动驾驶芯片。
但是,特斯拉正在研发的这款人工智能芯片,也称之为神经网络芯片,则可以在不使用CPU和GPU的情况下,通过使用微处理器设计的芯片,同样可以为汽车带来完全自动驾驶能力,这款芯片将随着Autopilot 3.0硬件版本一起发布。
在特斯拉最新公开的专利申请中,解释了特斯拉为何要放弃CPU和GPU为特斯拉的机器学习系统提供算力:
机器学习和人工智能的处理通常需要对大量数据进行数学运算,通常需要解决多个卷积层和池化层,机器学习和人工智能技术通常利用矩阵运算和激活函数等非线性函数,机器学习的应用包括自动驾驶和辅助驾驶。
在一些场景中,计算机处理器(CPU)被用来执行机器学习训练和推理。传统的计算机处理器能够非常快地执行单一的数学运算,但通常只能同时处理有限数量的数据。作为一种替代方法,可以使用图形处理单元(GPU),并能够并行地对更大的数据集执行相同的数学操作。
通过使用多个处理器内核,GPU可以并行执行多个任务,通常能够比传统计算机处理器更快地完成大型图形处理任务。然而,GPU和传统的计算机处理器最初都不是为机器学习或人工智能操作而设计的。
机器学习和人工智能操作,通常依赖于在非常大的数据集上重复应用一组特定的机器学习处理器操作。因此,需要一种微处理器系统来支持在大型数据集上并行执行机器学习和人工智能特定的处理操作,而不需要每个并行操作的多个处理核心的处理方式。
在特斯拉这系列的专利被提名的专利人包括Peter Bannon,前苹果芯片架构师,现特斯拉芯片项目负责人;Emil Taples,曾长期担任AMD芯片架构师;Debjit Das Sarma,AMD前首席CPU架构师。
特斯拉一系列的专利,阐述了为解决放弃GPU问题而设计的微处理器,下面是关于特斯拉全新人工智能芯片专利的介绍:
01
加速数字引擎
特斯拉在专利申请中描述了该发明:
本发明的各种实施例与加速数学引擎有关:在某些实施例中,所述加速数学引擎应用于图像处理,以便通过使用包含包括ALU、输出寄存器和阴影寄存器的子电路的二维矩阵处理器加速图像的卷积。这种架构支持一种时钟化的二维架构,在这种架构中,图像数据和权重以同步的方式相乘,从而允许并行执行大量的数学运算。
以下是申请专利时的一些图纸和原理图:
02
可变延迟内存访问计算阵列微处理器系统
特斯拉在专利申请中描述了该发明:
微处理器系统包括计算阵列和硬件仲裁器:计算阵列包括多个计算单元。多个计算单元中的每一个都对从存储器中寻址的相应值进行操作。硬件仲裁程序被配置为控制对来自计算单元的内存的一个或多个对应值发出至少一个内存请求。硬件仲裁器还被配置为根据内存请求的发出调度要发出的控制信号。
以下是申请专利时的一些图纸和原理图:
03
非连续数据格式的计算阵列微处理器系统
特斯拉在专利申请中描述了该发明:
微处理器系统包括计算阵列和硬件数据格式化器:计算阵列包括多个计算单元,每个计算单元对从内存中寻址的对应值进行操作。由计算单元操作的值作为一组要并行处理的值同步地提供给计算阵列。硬件数据格式化程序配置为收集值组,其中值组包括内存中连续放置的值的第一个子集和内存中连续放置的值的第二个子集。不需要从第二个值子集连续地在内存中定位第一个值子集。
以下是申请专利时的一些图纸和原理图:
04
Vertor计算单元
特斯拉在专利申请中描述了该发明:
微处理器系统包括计算阵列和向量计算单元:计算阵列包括多个计算单元。所述矢量计算单元与所述计算阵列通信,并包括多个处理元素。处理元素被配置为接收计算数组的输出数据元素,并并行处理接收的输出数据元素。
以下是申请专利时的一些图纸和原理图:
特斯拉的自动驾驶芯片的设计思路,为解决自动驾驶的问题提供了新的方向,这可能是这个芯片最值得研究的地方。之所以采取微处理器为主的设计思路,或许是因为这个设计更符合特斯拉自动驾驶路线的硬件设备。