人工智能机器学习自动驾驶芯片的算力和性能分析

一. 引言自动驾驶汽车的智能化取决于算法，因此有软件定义汽车的概念出现并且大为盛行，但是要想实现软件定义汽车，必须要有一个可以承载高度智能化且运算量庞大的AI算法的硬件计算平台或者叫域控制器，而无论是硬件计算平台还是域控制器，都离不开芯片。自动驾驶从L0到L5，随着功能的完善和性能的提升，带来更好的智能和科技体验的同时，也对AI芯片的算力和性能提出更高的需求。之前的文档曾提到，L2或者说ADAS需要的AI计算力<10TOPS，L3需要的AI计算力为30~60TOPS，L4需要的AI计算力>100TOPS，L5需要的AI计算力为500-1000TOPS。对于域控制器而言，硬件大体可分为三部分：承担环境感知和深度学习等超大算力需求的AI处理芯片、负责控制决策和逻辑运算的CPU、以及负责功能安全和车辆控制的MCU。第一部分通常是GPU或TPU，承担大规模浮点数并行计算需求，主要用于环境感知和信息融合，如Xavier的GPU单元、昇腾310、地平线BPU等。第二部分大多为ARM架构，类似于CPU，主要负责逻辑运算和决策控制，处理高精度浮点数串行计算。第三部分主要负责可靠性和车辆控制，目前用的较多的就是Infineon的TC297或者TC397。第三部分MCU目前大部分域控制器或者计算平台都会选择Infineon的TriCore系列TC397或者TC297，比如华为、地平线、德赛西威、优控智行等。第二部分大多是ARM架构处理器，或者和第一部分AI计算模块集成到一个SoC上，而第一部分目前正处在风头浪尖或者说行业变革和技术路线探索的阶段，前面也专门整理了一篇文章讲被称为AI芯片的各种xPU。

二. 自动驾驶AI芯片盘点 1. 华为MDC和昇腾Ascend芯片华为在2018年推出MDC智能驾驶计算平台以及高阶自动驾驶全栈解决方案，包括MDC300和MDC600两个平台，分别对应L3和L4级自动驾驶。华为MDC300由华为昇腾Ascend310芯片、华为鲲鹏芯片和Infineon的TC397三部分构成，算力在64Tops 左右，满足L3级自动驾驶算力需求。 MDC600基于8颗昇腾310 AI芯片，同时还整合了CPU和相应的ISP模块，算力高达352TOPS。华为MDC相对于其他平台而言，最大的优势在于其统一的系统架构便于功能扩展和适配多种场景应用。并且华为MDC智能驾驶计算平台已经于2020年1月16日通过了德国莱茵颁发的ISO26262功能安全管理认证，达到ASIL-D级标准。华为依托其ICT行业的经验积累，目前已经建立起了完善的芯片体系，包括专为5G提供支持的巴龙系列芯片、基于全新达芬奇架构研发的昇腾Ascend系列AI芯片、在手机上搭载的CPU处理器芯片麒麟系列，以及服务器级处理器芯片鲲鹏系列。其中，昇腾系列AI芯片主打AI算力需求。

昇腾310使用了华为自研的高效灵活CISC指令集，每个AI核心可以在1个周期内完成4096次MAC计算，集成了张量、矢量、标量等多种运算单元，支持多种混合精度计算，支持训练及推理两种场景的数据精度运算。

作为NPU，昇腾310集成了FPGA和ASIC两款芯片的优点，包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点，从而其统一架构可以适配多种场景，功耗范围从几十毫瓦到几百瓦，弹性多核堆叠，可在多种场景下提供最优能耗比。相较而言，英伟达的Xavier 算力为30TOPS，功耗则达30W，能效为1 TOPS/W，相比之下，华为昇腾310 算力为16 TOPS，功耗仅为8W，能效为2 TOPS/W。华为自研的昇腾Ascend芯片，支持接入与实时处理更多的外部传感器数据流（如摄像头、毫米波雷达、激光雷达、GPS等），为自动驾驶提供更安全可靠的计算力支持，能够应付处理更复杂路况。搭载昇腾芯片的MDC相比其他计算平台具备高性能。高能效、高安全性和确定性低延时等优势。

3. 地平线机器人征程芯片地平线成立于2015年7月，由前百度研究院副院长、百度深度学习实验室主任余凯创办，致力于为B端用户提供涉及算法和硬件在内完整的嵌入式人工智能解决方案（机器人大脑）。

2017年12月底，地平线发布了中国首款全球领先的嵌入式人工智能芯片——面向智能驾驶的征程（Journey）1.0处理器和面向智能摄像头的旭日（Sunrise）1.0 处理器，还有针对智能驾驶、智能城市和智能商业三大应用场景的人工智能解决方案。

2019年8月，地平线宣布量产中国首款车规级AI芯片——征程二代。 Journey 2芯片搭载地平线自主创新研发的高性能计算架构BPU2.0（Brain Processing Unit），采用台积电28nm 制程工艺，每TOPS算力可达同等算力GPU的10倍以上，视觉感知可以实现识别精度>99%，延迟<100 毫秒。征程二代主要面向ADAS市场感知方案，可提供超过4 TOPS的等效算力，典型功耗仅2W。主要用于自动驾驶中对车辆、行人和道路环境等目标的感知，类似MobileyeQ系列芯片。 CES2020上地平线发布了Matrix2平台，基于自研Journey征程2芯片，算力达到16Tops。同时地平线计划2020年底推出征程5，96Tops算力，15W功耗，支持16路摄像头，对标特斯拉FSD。

基于自研计算平台与产品矩阵，目前地平线已支持L2、L3、L4 等不同级别自动驾驶的解决方案。在智能驾驶领域，地平线同全球四大汽车市场（美国、德国、日本和中国）的业务联系不断加深，目前已赋能合作伙伴包括奥迪、博世、长安、比亚迪、上汽、广汽等国内外的顶级Tier1s，OEMs厂商。

4. 寒武纪Cambricon-1M/MLU100

寒武纪科技创立于2016年3月，前身是中国科学院计算技术研究所下一个课题小组，是最早进入AI计算领域的芯片公司，其主要方向是高性能服务器芯片、高性能终端芯片和服务机器人芯片，但寒武纪的重点在人工智能领域，早在2016年就发布了首款商用深度学习处理器寒武纪1A。寒武纪在2018产品发布会上发布了多个IP产品——采用7nm工艺的终端芯片Cambricon-1M、云端智能芯片MLU100等。

Cambricon-1M处理器IP属于第三代产品，主打的是智能驾驶领域，后将应用领域拓宽到了智能手机、智能音箱、摄像头、自动驾驶等方面。 Cambricon-1M的int 8（8位运算）效能比高达达5Tops/W每瓦5万亿次运算），并且提供了2Tops、4Tops、8Tops三种尺寸的处理器内核，以满足不同需求。 1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然语言处理等任务。通过灵活配置1M处理器，可以实现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练，以此避免敏感数据的传输和实现更快的响应。

寒武纪首款云端智能芯片Cambricon MLU100采用寒武纪最新的MLU V01架构和台积电16nm工艺，可工作在平衡模式（主频1Ghz）和高性能模式（主频1.3GHz）两种不同模式下，等效理论峰值速度则分别可以达到128万亿次定点运算和166.4万亿次定点运算，而其功耗为80w和110w。 MLU100云端芯片同样具备高通用性，可支持各类深度学习和常用机器学习算法。 5. 百度昆仑AI芯片 2018年7月4日百度在其开发者大会上发布百度首款AI芯片——昆仑。百度介绍昆仑是中国首款云端全功能AI芯片，基于百度CPU,GPU和FPGA加速器，采用百度自研XPU神经处理器架构，通过长达8年的研发20多次的迭代产生。

设计性能在100W以上的功耗提供260Tops算力，内存带宽达到了512GB/s，核心数有数万个。。据说昆仑芯片将由三星代工，采用14nm工艺。

2019年12月18日三星官方宣布，百度首款AI 芯片昆仑已经完成研发，由三星代工最早将于2020年初实现量产。这款百度自主研发的面向云、边缘和人工智能的SoC目前是设计性能最高的SoC。昆仑芯片采用了I-Cube封装方案，通过I-Cube技术将逻辑芯片和高带宽存储器与插入器连接，再利用三星的差异化解决方案可以实现在最小尺寸上提供更高的密度/带宽。在算力方面，昆仑芯片提供512 GBps的内存带宽，在150W的功率下实现260Tops算力；它支持针对自然语言处理的预训练模型Ernie，推理速度比传统GPU/FPGA 加速模型快3 倍。借助昆仑，百度可以支持包括大规模人工智能计算在内的多种功能，例如搜索排序、语音识别、图像处理、自然语言处理、自动驾驶和PaddlePaddle 等深度学习平台。

7. 黑芝麻华山二号 2020年6月15日晚，黑芝麻科技发布了自研的车规级芯片重磅产品，华山二号A1000和华山二号A1000L，这是黑芝麻继华山一号之后的第二代产品。两颗芯片都采用台积电16nm工艺，支持车规级AEC-Q100标准和支持多项传感器。华山二号A1000对标特斯拉，具有8个CPU核，单颗可提供40 TOPS的算力，功耗8-10W。据黑芝麻智能科技消息，A1000是全球顶尖的包含功能安全的高性能车规级SOC芯片，也是中国目前第一颗能够量产的，满足自动驾驶L3/L4级别要求车规级芯片。华山二号A1000在L3级别上对标Tesla，其功耗仅有Tesla FSD的四分之一，面积只有三分之一，成本也只有四分之一，是一款高性价比落地产品。到2021年底，搭载黑芝麻华山二号芯片的车型或将正式量产。

对比而言，特斯拉FSD算力144TOPS，功耗72W，能效比2TOPS/W；英伟达Xavier算力30TOPS，功耗30W，能耗比1TOPS/W。而华山二号A1000单芯片能效比超过6TOPS/W ,双芯片叠加组成的域控制器能效比也超过5TOPS/W。

根据黑芝麻给出的计算平台方案，单颗A1000L芯片适用于低等级级ADAS辅助驾驶；单颗A1000芯片适用于L2+自动驾驶；双A1000芯片互联组成的域控制器可支持L3级别自动驾驶；四颗A1000芯片叠加可用于未来L4级别自动驾驶。

三. 写在最后，关于国产AI芯片中国公司在AI芯片领域的探索在近几年呈现爆发趋势，头部企业有华为、地平线、寒武纪、西井科技、百度等，另有其他国产公司在人工智能、语音识别、视觉处理方面发力，如芯驰科技、黑芝麻、中星微电子、比特大陆、杭州中天微等等。总体来看，中国公司在AI芯片领域已经占据不少席位，中国自动驾驶芯片在性能和功耗上和外国芯片相比并不差，但是如果想要达到世界领先水平，甚至赶超NVIDIA、Tesla、TI、Xilinx等还有很长的路要走。而从研发设计到真正上车量产，更需要深度的测试验证和积累。首先，国产芯片企业想要有所建树，必须要有长期研发投入的思想准备，也就是烧钱和时间，在没有积累的基础上做AI芯片研发，所要攻克的难关数不胜数。这种长期投入一方面是大笔资金投入和高产出的正向循环；另一方面则体现在芯片架构设计、底层软件和操作系统的设计能力上，需要不断的积累和高忍耐度。其次，中国有句老说贪多嚼不烂，国内芯片企业如果想在AI芯片领域分食蛋糕甚至赶超国际对手，必须在一个垂直领域做精做深，真正的深耕进去，并且要真正做到全栈的方案和产品给到用户，提供的是一个可供量产化的产品而不是一个DEMO，必须要让它能真正应用。

第三，生态的建立，国外芯片企业基本上都有自己的一套体系和生态系统，华为基于自身多年ICT的积累可以快速推出麒麟、昇腾、鲲鹏等系列芯片，但是在生态方面依然欠缺，体现在软件、操作系统、体系架构、辅助件、工具链等等。因此国内芯片厂商必须进行AI芯片相关软硬件生态的建立，以及用户体系的培养。比如NXP、Intel在国内高校多年发展课程体系、认证体系等，华为在近几年也有意识的开展和高校和科研院所的战略性合作，这一举措绝对是影响深远的。第四，制程工艺，我们已知去年发生的中兴遭遇芯片断供，华为在美国的黑手下也面临芯片供应商不能供货问题，这里主要涉及到芯片的制程工艺，目前芯片制造工艺主流水平是7-14m，而大名鼎鼎的台积电早就量产7nm芯片，5nm工艺也进入了量产阶段，目前正在研究2nm工艺。中国芯片企业只能做到14nm，也只有中芯国际能做，因此中国缺乏生产最先进的7纳米和更小芯片的能力。就目前来看华为面临的问题也是整个中国芯片行业面临的问题，虽然目前华为绕开美国制裁禁令的可能性不大，但是这里面的关键问题是中国芯片企业能以多快的速度建立国内芯片世界一流工艺制造能力。

虽然我们很乐观的对中国芯片行业的发展非常看好，但是，中国AI芯片想要达到世界一流水平甚至实现赶超，还有很长的路要走。人工智能行业催生了这个过程，但是天赋不能与经验，积累同样重要，更何况国内企业一直缺课，能不能尽快补上来并且追过去，就看国内企业如何发力了。

需要完整功能更规范私信或＋q1356535550

精彩内容

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

夸智网

人工智能机器学习自动驾驶芯片的算力和性能分析

人工智能深度学习 ubuntu 【C++】ROS入门帖：机器人/自动驾驶学习路线

单片机自动驾驶中的 DCU、MCU、MPU、SOC 和汽车电子架构

发表评论取消回复

夸智网

人工智能 机器学习 自动驾驶芯片的算力和性能分析

人工智能 深度学习 ubuntu 【C++】ROS入门帖：机器人/自动驾驶学习路线

单片机 自动驾驶中的 DCU、MCU、MPU、SOC 和汽车电子架构

相关文章

发表评论取消回复

人工智能机器学习自动驾驶芯片的算力和性能分析

人工智能深度学习 ubuntu 【C++】ROS入门帖：机器人/自动驾驶学习路线

单片机自动驾驶中的 DCU、MCU、MPU、SOC 和汽车电子架构