03
特斯拉为什么做超算
“经常有人说,特斯拉作为一家自动驾驶公司,为什么要发展超算?”
此次AI日,特斯拉给出了答案:从本质来说,特斯拉是一家硬核科技公司。
“提出这个问题,就是对特斯拉不够了解,不知道我们要做什么。在特斯拉,我们做很多科学与工程相关的事情,因此有很多基础的数据工作,包括推理、神经网络等,当然也包括超算。”
毕竟,算力可以说是训练的基本粮食。
在最开始设计Dojo超级计算机时,特斯拉希望能够实现实质性的改进,比如降低自动驾驶训练延迟。为此,其进行了一系列的研发,包括高效率芯片D1等。
D1芯片于去年AI日亮相,是特斯拉自主研发的神经网络训练芯片,其在645mm?的芯片面积上,搭载了500亿个晶体管,热设计功耗(TDP)为400W,FP32精度下的算力峰值达22.6 TFLOPS。
性能参数优于目前特斯拉超级计算机使用的英伟达A100 Tensor Core GPU。后者芯片面积为826mm?,晶体管数量542亿颗,TDP400W,FP32峰值算力是19.5TFLOPS。
而Dojo超级计算机的单个训练模块由25个D1芯片组成。据悉,2023年一季度特斯拉将推出Dojo机柜。届时,现有基于英伟达A100芯片建成的超算可能会被替换。
未来,来自全球超100万辆特斯拉的数据将汇聚于Dojo,通过其训练深度神经网络,以此来帮助特斯拉的Autopilot不断进化,最终实现以纯视觉为基础的完全自动驾驶(FSD)。
特斯拉方面称,新的Dojo超级计算机具有人工智能训练超高算力的同时,还拥有扩展带宽、减少延迟、节省成本等优势。
Dojo团队宣称一个训练模组的机器学习训练算力,足以达到6个“GPU 计算盒子”,并且成本还不到“一个盒子”的水平。
为了实现这些性能,特斯拉尝试了不同的封装技术都失败了,最后特斯拉放弃了D Ram结构,而是采用S Ram,即嵌入到芯片里面,虽然容量减少,但利用率明显提升。
除了架构设计,考虑到虚拟内存、加速器、编译器等各方面,特斯拉在整个系统设计中,面临种种选择,他们也遵循了自己的追求,即“不对Dojo超算设限”。
比如,在训练方法上,不采用大多数选择的数据共行模式;在数据中心层面,采用的是纵向整合的结构,对数据中心进行垂直整合。
在此过程中,也遇到了很多挑战。
特斯拉希望通过增加密度来提高性能表现,这对电力输送提出了挑战。“我们需要为计算芯片提供动力、电力,这会面临限制。同时由于整体设计是高度集合,因此需要实现多层垂直电源解决方案。”
基于上述两点,特斯拉构建快速迭代,最终通过设计和堆栈,使得CTE(热膨胀系数)降幅高达50%。
特斯拉面临的另一个挑战是:如何推动集成的边界。
目前特斯拉的电力模块是x、y平面用于高带宽通信,其他所有东西垂直进行堆叠,这不仅涉及到系统控制器,还要考虑震荡器时钟输出丢失。如何使其不受电源电路影响,达到理想的整合程度?
特斯拉采用的方法是多管齐下。一方面是尽量减少震动,如通过使用软帽端,即端口使用较软材料来减少震动;另一方面,对开关频率进行更新,使其斜正进一步的远离敏感频段。
去年AI日上,特斯拉仅仅展现了超算系统的几个组件,今年其希望在系统层面实现更多进步。其中,系统托盘是实现单一加速器愿景的非常关键部分,可以整体实现无缝的连接。
此外,硬件方面,特斯拉还利用高速以太网、本地硬件支持等方式,加速超算性能的达成;软件方面,特斯拉则称,代码运行在编译器和硬件上,需要确保数据是可以被联合起来使用的,因此需要反向需要考虑路径梯度。
而如何判断Dojo是否成功,与当下相比是否具有优势?特斯拉称,看同事是否愿意使用。实际上,特斯拉也给出了一些量化标准,如,系统一个月的工作量,Dojo超算不到一周就能完成等。
当然,超高算力意味着巨大能耗。在问答环节,马斯克也表示,Dojo是巨型计算机,耗能很大,也需要很多的冷却装置,所以可能会作为aws这样的亚马逊网络,云服务的方式提供给市场。
马斯克认为,提供类似于亚马逊云AWS 的 Dojo服务更有意义,他将此描述为一款“帮助你用更少的钱,更快地训练模型的在线服务。”
-END-
原文标题 : 特斯拉机器人只卖10多万,FSD推送16万车主测试,特斯拉AI DAY 2022干货一文看尽