0 卖盘信息
BOM询价
您现在的位置: 首页 > 电子资讯 >业界动态 > 人工智能芯片(AI芯片)产业生态格局

人工智能芯片(AI芯片)产业生态格局

2017-09-29
类别:业界动态
eye 470
文章创建人 拍明


AI芯片分类

以功能来划分

Training(训练)

Training环节通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前在训练环节主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速。

Inference(推理)

Inference环节指利用训练好的模型,使用新的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。

AI芯片.jpg


以应用场景来划分

“Cloud/DataCenter(云端)”

“Device/Embedded(设备端)”

在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,因此,Training环节目前只能在云端实现,在设备端做Training目前还不是很明确的需求。

在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。在设备端Inference领域,由于智能终端数量庞大且需求差异较大,如ADAS、VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,因此一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。

按照上述两种分类,我们得出AI芯片分类象限。

以技术架构发展来划分

通用类芯片,代表如GPU、FPGA;

基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;

全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;

类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。

AI芯片产业生态

从上述分类象限来看,目前AI芯片的市场需求主要是三类:

1、面向于各大人工智能企业及实验室研发阶段的Training需求(主要是云端,设备端Training需求尚不明确);

2、Inference On Cloud,Face++、出门问问、Siri等主流人工智能应用均通过云端提供服务;

3、Inference On Device,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推理市场,需要高度定制化、低功耗的AI芯片产品。如华为麒麟970搭载了“神经网络处理单元(NPU,实际为寒武纪的IP)”、苹果A11搭载了“神经网络引擎(Neural Engine)”。

(一)Training训练

2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。Andrew Ng和Jeff Dean打造的Google Brain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。

与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。

从上图对比来看,在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU 由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。

在人工智能的通用计算GPU市场,NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品,2014年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。2016年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统服务器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。

Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0,TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既可以用于训练神经网络,又可以用于推理。据介绍,TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务,以此发展TPU2的应用和生态,比如TPU2同时发布的TensorFlow Research Cloud (TFRC) 。

上述两家以外,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,Graphcore 的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。

总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。

(二)Inference On Cloud云端推理

相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更为分散。若像业界所说的深度学习市场占比(Training占5%,Inference占95%),Inference市场竞争必然会更为激烈。

在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收购)在云端加速领域优势明显。Altera在2015年12月被Intel收购,随后推出了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等均有合作;Xilinx则与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。

ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元,峰值可以达到92 TeraOps/second(TOPS)。有一个很大的片上存储器,一共28 MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络,并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练,也用于推理,上一节已经做过介绍。

国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞、曙光等均有合作,但目前还没有详细的产品介绍。

(三)Inference On Device设备端推理

设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更多机会,市场竞争生态也会更加多样化。

智能手机

华为9月初发布的麒麟970 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

苹果最新发布的A11仿生芯片也搭载了神经网络单元。据介绍,A11仿生芯片有43亿个晶体管,采用TSMC 10纳米FinFET工艺制程。CPU采用了六核心设计,由2个高性能核心与4个高能效核心组成。相比A10 Fusion,其中两个性能核心的速度提升了25%,四个能效核心的速度提升了70%;GPU采用了苹果自主设计的三核心 GPU 图形处理单元,图形处理速度与上一代相比最高提升可达 30% 之多;神经网络引擎NPU采用双核设计,每秒运算次数最高可达 6000 亿次,主要用于胜任机器学习任务,能够识别人物、地点和物体等,能够分担 CPU 和 GPU 的任务,大幅提升芯片的运算效率。

另外,高通从 2014 年开始也公开了NPU的研发,并且在最新两代骁龙 8xx 芯片上都有所体现,例如骁龙 835 就集成了“骁龙神经处理引擎软件框架”,提供对定制神经网络层的支持,OEM 厂商和软件开发商都可以基于此打造自己的神经网络单元。ARM在今年所发布的 Cortex-A75 和 Cortex-A55中也融入了自家的AI 神经网络DynamIQ技术,据介绍,DynamIQ技术在未来 3-5 年内可实现比当前设备高50倍的AI性能,可将特定硬件加速器的反应速度提升10倍。总体来看,智能手机未来AI芯片的生态基本可以断定仍会掌握在传统SoC商手中。

自动驾驶

NVIDIA去年发布自动驾驶开发平台DRIVE PX2,基于16nm FinFET工艺,功耗高达250W,采用水冷散热设计;支持12路摄像头输入、激光定位、雷达和超声波传感器;CPU采用两颗新一代NVIDIA Tegra处理器,当中包括了8个A57核心和4个Denver核心;GPU采用新一代Pascal架构,单精度计算能力达到8TFlops,超越TITAN X,有后者10倍以上的深度学习计算能力。Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。初创公司中,地平线的深度学习处理器(BPU,BrainProcessor Unit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。

计算机视觉领域

Intel收购的Movidius是主要的芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头均使用了Movidius的Myriad系列芯片。目前国内做计算机视觉技术的公司中,商汤科技、Face++、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司向上游延伸去做CV芯片研发。另外,国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。

其他

VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;在泛IOT领域,NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过5瓦进行15万亿次浮点运算,可以广泛应用于各类小型的互联网“边缘”设备。

(四)新架构 - 类脑计算芯片

“类脑芯片”是指参考人脑神经元结构和人脑感知认知方式来设计的芯片,其目标是开发出打破冯·诺依曼架构体系的芯片。这一领域目前仍处于探索阶段,如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。

IBM的TrueNorth,2014年公布。在一颗芯片上集成了4096个内核,100万个神经元、2.56亿个可编程突触,使用了三星的28nm的工艺,共540万个晶体管;每秒可执行460亿次突触运算,总功耗为70mW,每平方厘米功耗20mW。IBM的最终目标就是希望建立一台包含100亿个神经元和100万亿个突触的计算机,这样的计算机要比人类大脑的功都强大10 倍,而功耗只有一千瓦,而且重量不到两升。

国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离。

中国AI芯公司

腾讯AI产业报告中提到中国的AI的处理器/芯片企业一共有14家,我们参照公开资料整理了部分国内AI处理器/芯片公司,虽不完备,但给感兴趣的读者做个参考。

1)寒武纪科技&Cambricon 1A

寒武纪科技成立于2016年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,近期刚刚完成了一亿美元A轮融资,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球AI芯片领域第一个独角兽初创公司。

寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。

2)地平线机器人&BPU/盘古

地平线机器人成立于2015年,总部在北京,创始人是前百度深度学习研究院负责人余凯。公司于去年中完成了A+轮融资,投资方包括了晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投、祥峰投资、DST等。据介绍,公司近期即将完成B轮融资。

BPU(BrainProcessing Unit)是地平线机器人自主设计研发高效的人工智能处理器架构IP,支持ARM/GPU/FPGA/ASIC实现,专注于自动驾驶、人脸图像辨识等专用领域。2017年,地平线基于高斯架构的嵌入式人工智能解决方案将会在智能驾驶、智能生活、公共安防三个领域进行应用,第一代BPU芯片“盘古”目前已进入流片阶段,预计在今年下半年推出,能支持1080P的高清图像输入,每秒钟处理30帧,检测跟踪数百个目标。地平线的第一代BPU采用TSMC的40nm工艺,相对于传统CPU/GPU,能效可以提升2~3个数量级(100~1,000倍左右)。

3)深鉴科技&DPU

深鉴科技成立于2016年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立,今年初完成了A轮融资,投资方包括了联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。

深鉴科技将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络CNN而设计;笛卡尔架构专为处理DNN/RNN网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于 Intel XeonCPU 与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高189倍与13倍,具有24000倍与3000倍更高能效。

4)西井科技&DeepSouth/DeepWell

公司成立于2015年,总部在上海。今年6月完成了A轮融资,投资方包括了复星同浩、源政投资、合力投资、十维资本、喔赢资本等。

西井科技是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

5)云飞励天&IPU

公司成立于2014年,总部在深圳,由国家“千人计划”特聘专家陈宁和田第鸿博士联合创立,今年3月完成了A轮融资,投资方松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金等。

云天励飞提供视觉智能芯片和解决方案,专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片IPU,采用了全新的面向视觉计算的处理器芯片架构,该技术将机器学习效能提升了两个数量级。公司在在深圳搭建的区域级天眼系统,实现了全球首创的“百万人群、秒级定位”,还被采纳为2016年杭州G20峰会和乌镇互联网大会的安全系统提供服务。

6)人人智能&FaceOS

人人智能成立于2016年,是ARM OpenAI实验室核心合作企业。公司于去年底完成了ARM和英诺天使基金的天使轮融资,据报道目前正在启动新一轮融资。

人人智能提供一个基ARM的人脸识别核心芯片即模组方案,识别模组是独创的支持深度学习算法的嵌入式高性能ARM平台,支持外接摄像机从视频流检测和载取人脸照片等功能。据介绍,人人智能发布的“智能芯”是国内首个人脸识别硬件模组,尺寸仅为86mm*56mm*21mm,集成了人工智能操作系统FaceOS。通过将人工智能算法进行集成产品化,能够把产品的研发周期减少60%,成本降低50%。

7)启英泰伦&CI1006

启英泰伦于2015年11月在成都成立,是一家语音识别芯片研发商,投资方包括了Roobo、汇声信息等。

启英泰伦的CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。

8)云知声&UniOne芯片

云知声是一家智能语音识别技术公司,成立于2012年,总部位于北京。今年8月刚刚获得3亿人民币战略投资,其中部分资金将用于加大人工智能专用芯片UniOne的研发力度。

UniOne将内置DNN处理单元,兼容多麦克风、多操作系统,对任何的场景不做限制,无论是在智能的空调上、车载上或其他智能设备上都可以植入这个芯片,该芯片具有高集成度的,低功耗、低成本的优点。与此同时,公司还有IVM-M高性能嵌入式芯片,基于高通wifi模组,提供高性价比的物联网语音交互整体方案,主要应用在智能空调,厨电等职能家具产品上;基于Linux系统设计的Unitoy芯片可一站式解决儿童陪伴式机器人的唤醒、识别、设备互联能力。

9)百度&XPU

百度2017年8月Hot Chips大会上发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU采用新一代 AI 处理架构,拥有GPU的通用性和FPGA的高效率和低能耗,对百度的深度学习平台PaddlePaddle做了高度的优化和加速。据介绍,XPU关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。但目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。到目前为止,XPU尚未提供编译器。

10)NovuMind

NovuMind成立于2015年,公司创始人是原百度异构计算小组负责人吴韧,在北京及硅谷设有办公室。公司于2017年初完成了A轮融资,投资方包括了真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,据报道近期正在筹备新一轮融资。

NovuMind主要为智能为汽车、安防、医疗、金融等领域提供ASIC芯片,并提供训练模型的全栈式AI解决方案。与Nvidia GPU或Cadence DSP的通用深度学习芯片不同,NovuMind专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维Tensor进行处理,新芯片将支持Tensorflow、Cafe和Torch模型。。NovuMind的第一个AI芯片(原型)预计会在17年圣诞节前推出。到明年2月份应用程序准备就绪,并能够在该芯片上实现耗能不超过5瓦进行15万亿次浮点运算。NovuMind的第二个芯片,耗能将不超过1瓦,计划在2018年中期面世。

11)华为&麒麟970芯片

麒麟970搭载的神经网络处理器NPU采用了寒武纪IP。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

12)中星微电子&NPU

中星微2016年6月推出量产的NPU芯片“星光智能一号”,NPU采用了“数据驱动并行计算”的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据。每个NPU由四个NPU内核构成;每个NPU内核包括两个数据流处理器和一个长字处理器;每个数据流处理器由8个长字或16个短字的SIMD(单指令多数据)处理单元组成;每个NPU峰值可提供38Gops或76Gops短字的处理能力;支持通用的基于深度学习的神经网络层(ConvolutionLayer/Pooling Layer/Full Connection Layer/Activation Layer/Custom SpecificLayer)。

【相关信息】人工智能芯片的产业生态及竞争格局

近日,国内人工智能芯片公司寒武纪科技(Cambricon)获得了一亿美元A轮融资,是目前国内人工智能芯片领域初创公司所获得的最高融资记录,如果要说这桩融资对人工智能领域的最直接意义,或许是让人工智能芯片逐渐走入了更多人的视野。

深度学习不仅在传统的语音识别、图像识别、搜索/推荐引擎、计算广告等领域证明了其划时代的价值,也引爆了整个人工智能生态向更大的领域延伸。由于深度学习的训练(training)和推断(inference)均需要大量的计算,人工智能界正在面临前所未有的算力挑战,而其始作俑者,是摩尔定律的失效。

由于结构所限,CPU性能近年来未能呈现如摩尔定律预测的定期翻倍,于是具有数量众多计算单元和超长流水线、具备强大并行计算能力与浮点计算能力的GPU,成为了深度学习模型训练的标配。GPU可以大幅加速深度学习模型的训练速度,相比CPU能提供更快的处理速度、更少的服务器投入和更低的功耗,并成为深度学习训练层面的事实工具标准。

人工智能芯片.jpg

但是,随着人工智能产业链的火速延伸,GPU并不能满足所有场景(如手机)上的深度学习计算任务, GPU并不是深度学习算力痛点的唯一解。算力的刚需,吸引了众多巨头和初创公司纷纷进入人工智能芯片领域,并形成了一个自下而上的生态体系,本文希望通过不太长的篇幅,系统呈现这个缤纷而有趣的人工智能芯片生态。

人工智能芯片分类

一项深度学习工程的搭建,可分为训练(training)和推断(inference)两个环节:训练环境通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据(大数据)和复杂的深度神经网络结构,需要的计算规模非常庞大,通常需要GPU集群训练几天甚至数周的时间,在训练环节GPU目前暂时扮演着难以轻易替代的角色。

推断(inference)环节指利用训练好的模型,使用新的数据去“推断”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少,但仍然涉及大量的矩阵运算。在推断环节,除了使用CPU或GPU进行运算外,FPGA以及ASIC均能发挥重大作用。

FPGA(可编程门阵列,Field Programmable Gate Array)是一种集成大量基本门电路及存储器的芯片,可通过烧入FPGA配置文件来来定义这些门电路及存储器间的连线,从而实现特定的功能。而且烧入的内容是可配置的,通过配置特定的文件可将FPGA转变为不同的处理器,就如一块可重复刷写的白板一样。因此FPGA可灵活支持各类深度学习的计算任务,性能上根据百度的一项研究显示,对于大量的矩阵运算GPU远好于FPGA,但是当处理小计算量大批次的实际计算时FPGA性能优于GPU,另外FPGA有低延迟的特点,非常适合在推断环节支撑海量的用户实时计算请求(如语音云识别)。

ASIC(专用集成电路,Application Specific Integrated Circuit)则是不可配置的高度定制专用芯片。特点是需要大量的研发投入,如果不能保证出货量其单颗成本难以下降,而且芯片的功能一旦流片后则无更改余地,若市场深度学习方向一旦改变,ASIC前期投入将无法回收,意味着ASIC具有较大的市场风险。但ASIC作为专用芯片性能高于FPGA,如能实现高出货量,其单颗成本可做到远低于FPGA。

在深度学习的训练和推断环节,常用到的芯片及特征如下图所示:

人工智能芯片.jpg

从市场角度而言,目前人工智能芯片的需求可归纳为三个类别:首先是面向于各大人工智能企业及实验室研发阶段的训练环节市场;其次是数据中心推断(inference on cloud),无论是亚马逊Alexa还是出门问问等主流人工智能应用,均需要通过云端提供服务,即推断环节放在云端而非用户设备上;第三种是面向智能手机、智能安防摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推断(inference on device)市场,设备端推断市场需要高度定制化、低功耗的人工智能芯片产品。如传闻华为即将在Mate 10的麒麟970中搭载寒武纪IP,旨在为手机端实现较强的深度学习本地端计算能力,从而支撑以往需要云端计算的人工智能应用。

我们围绕上述的分类标准,从市场及芯片特性两个角度出发,可勾画出一个人工智能芯片的生态体系,整个生态体系分为训练层、云端推断层和设备端推断层:

人工智能芯片.jpg

Training层芯片生态

毫无疑问在深度学习的Training阶段,GPU成为了目前一项事实的工具标准。由于AMD今年来在通用计算以及生态圈构建方面都长期缺位,导致了在深度学习GPU加速市场NVIDIA一家独大的局面。根据NVIDIA今年Q2年报显示,NVIDIA的Q2收入为达到22.3亿美元,毛利率更是达到了惊人的58.4%,其中数据中心(主要为面向深度学习的Tesla加速服务器)Q2收入4.16亿美元,同比上升达175.5%。

人工智能芯片.jpg

面对深度学习Training这块目前被NVIDIA赚得盆满钵满的市场,众多巨头纷纷对此发起了挑战。Google今年5月份发布了TPU 2.0,TPU是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推断(即不可用于训练模型),并在AlphaGo人机大战中提供了巨大的算力支撑。而目前Google发布的TPU 2.0除了推断以外,还能高效支持训练环节的深度网络加速。根据Google披露,Google在自身的深度学习翻译模型的实践中,如果在32块顶级GPU上并行训练,需要一整天的训练时间,而在TPU2.0上,八分之一个TPU Pod(TPU集群,每64个TPU组成一个Pod)就能在6个小时内完成同样的训练任务。

目前Google并没急于推进TPU芯片的商业化。Google在TPU芯片的整体规划是,基于自家开源、目前在深度学习框架领域排名第一的TensorFlow,结合Google云服务推出TensorFlow Cloud,通过TensorFlow加TPU云加速的模式为AI开发者提供服务,Google或许并不会考虑直接出售TPU芯片。如果一旦Google将来能为AI开发者提供相比购买GPU更低成本的TPU云加速服务,借助TensorFlow生态毫无疑问会对NVIDIA构成重大威胁。

当然TPU作为一种ASIC芯片方案,意味着其巨大的研发投入和市场风险,而其背后的潜在市场也是巨大的:一个横跨训练和云端推断的庞大云服务,但目前恐怕只有Google才有如此巨大的决心和资源禀赋,使用ASIC芯片去构筑这一布局——如果将来TPU云服务无法获得巨大的市场份额从而降低单颗TPU的成本,Google将难以在这一市场盈利。但市场的培育除了芯片本身显然是不足够的,还包括让众多熟悉GPU加速的研究/开发者转到TPU云计算平台的转换成本,这意味着Google要做大量的生态系统培育工作。

除了Google外,昔日的GPU王者AMD目前也奋起直追,发布了三款基于Radeon Instinct的深度学习加速器方案,希望在GPU深度学习加速市场分回一点份额,当然AMD是否能针对NVIDIA的同类产品获得相对优势尚为未知之数。

对于现任老大NVIDIA而言,目前当务之急无疑是建立护城河保卫其市场份额,总结起来是三方面的核心举措。一方面在产品研发上,NVIDIA耗费了高达30亿美元的研发投入,推出了基于Volta、首款速度超越100TFlops的处理器Tesla,主打工业级超大规模深度网络加速;另外一方面是加强人工智能软件堆栈体系的生态培育,即提供易用、完善的GPU深度学习平台,不断完善CUDA、 cuDNN等套件以及深度学习框架、深度学习类库来保持NVIDIA体系GPU加速方案的粘性。第三是推出NVIDIA GPU Cloud云计算平台,除了提供GPU云加速服务外,NVIDIA以NVDocker方式提供全面集成和优化的深度学习框架容器库,以其便利性进一步吸引中小AI开发者使用其平台。

核心驱动能力:对于深度学习训练这个人工智能生态最为关键的一环,我们可以看到竞争的核心已经不是单纯的芯片本身,而是基于芯片加速背后的整个生态圈,提供足够友好、易用的工具环境让开发者迅速获取到深度学习加速算力,从而降低深度学习模型研发+训练加速的整体TCO和研发周期。一言蔽之,这个领域是巨头玩家的战场,普通的初创公司进入这个领域几乎没有任何的机会,接下来的核心看点,是Google究竟是否能凭借TensorFlow+Google Cloud+TPU 2.0生态取得对NVIDIA的相对优势,以市场份额的量变引起质变。毕竟相比主打通用计算的NVIDIA GPU,TPU的ASIC方案当出货量突破一定阈值后,其单颗价格和功耗比均能构成无法忽视的竞争优势。当然,这取决于两个前提条件:一是深度学习主流框架在今后几年不发生重大变化,比如深度学习变得不再高度依赖矩阵运算,否则一颗写死的ASIC将失去几乎一切价值。二是Google能构筑出足够好用的生态,让众多AI研究/开发者从CUDA+GPU转向Google,打破业界对NVIDIA的路径依赖,而这点才是真正艰难的道路。

Inference On Cloud层芯片生态

当一项深度学习应用,如基于深度神经网络的机器翻译服务,经过数周甚至长达数月的GPU集群并行训练后获得了足够性能,接下来将投入面向终端用户的消费级服务应用中。由于一般而言训练出来的深度神经网络模型往往非常复杂,其Inference(推断)仍然是计算密集型和存储密集型的,这使得它难以被部署到资源有限的终端用户设备(如智能手机)上。正如Google不期望用户会安装一个大小超过300M的机器翻译APP应用到手机上,并且每次翻译推断(应用训练好的神经网络模型计算出翻译的结果)的手机本地计算时间长达数分钟甚至耗尽手机电量仍然未完成计算。这时候,云端推断(Inference On Cloud)在人工智能应用部署架构上变得非常必要。

人工智能芯片.jpg

虽然单次推断的计算量远远无法和训练相比,但如果假设有1000万人同时使用这项机器翻译服务,其推断的计算量总和足以对云服务器带来巨大压力,而随着人工智能应用的普及,这点无疑会变成常态以及业界的另一个痛点。由于海量的推断请求仍然是计算密集型任务,CPU在推断环节再次成为瓶颈。但在云端推断环节,GPU不再是最优的选择,取而代之的是,目前3A(阿里云、Amazon、微软Azure)都纷纷探索云服务器+FPGA芯片模式替代传统CPU以支撑推断环节在云端的技术密集型任务。

亚马逊 AWS 在去年推出了基于 FPGA 的云服务器 EC2 F1;微软早在2015年就通过Catapult 项目在数据中心实验CPU+FPGA方案;而百度则选择与FPGA巨头Xilinx(赛思灵)合作,在百度云服务器中部署KintexFPGA,用于深度学习推断,而阿里云、腾讯云均有类似围绕FPGA的布局,具体如下表所示。当然值得一提的是,FPGA芯片厂商也出现了一家中国企业的身影——清华系背景、定位于深度学习FPGA方案的深鉴科技,目前深鉴已经获得了Xilinx的战略性投资。

人工智能芯片.jpg

云计算巨头纷纷布局云计算+FPGA芯片,首先因为FPGA作为一种可编程芯片,非常适合部署于提供虚拟化服务的云计算平台之中。FPGA的灵活性,可赋予云服务商根据市场需求调整FPGA加速服务供给的能力。比如一批深度学习加速的FPGA实例,可根据市场需求导向,通过改变芯片内容变更为如加解密实例等其他应用,以确保数据中心中FPGA的巨大投资不会因为市场风向变化而陷入风险之中。另外,由于FPGA的体系结构特点,非常适合用于低延迟的流式计算密集型任务处理,意味着FPGA芯片做面向与海量用户高并发的云端推断,相比GPU具备更低计算延迟的优势,能够提供更佳的消费者体验。

在云端推断的芯片生态中,不得不提的最重要力量是PC时代的王者英特尔。面对摩尔定律失效的CPU产品线,英特尔痛定思痛,将PC时代积累的现金流,通过多桩大手笔的并购迅速补充人工智能时代的核心资源能力。首先以 167 亿美元的代价收购 FPGA界排名第二的Altera,整合Altera多年FPGA技术以及英特尔自身的生产线,推出CPU + FPGA 异构计算产品主攻深度学习的云端推断市场。另外,去年通过收购拥有为深度学习优化的硬件和软件堆栈的Nervana,补全了深度学习领域的软件服务能力。当然,不得不提的是英特尔还收购了领先的ADAS服务商Mobileye以及计算机视觉处理芯片厂商Movidius,将人工智能芯片的触角延伸到了设备端市场,这点将在本文余下部分讲述。

人工智能芯片.jpg

相比Training市场中NVIDIA一家独大,云端推断芯片领域目前可谓风起云涌,一方面英特尔希望通过深耕CPU+FPGA解决方案,成为云端推断领域的NVIDIA,打一次漂亮的翻身仗。另外由于云端推断市场当前的需求并未进入真正的高速爆发期,多数人工智能应用当前仍处于试验性阶段,尚未在消费级市场形成巨大需求,各云计算服务商似乎有意凭借自身云服务优势,在这个爆发点来临之前布局自己的云端FPGA应用生态,做到肥水不流外人(英特尔)田,另外一个不可忽视的因素,是Google的TPU生态对云端推断的市场份额同样有巨大的野心,也许这将会是一场彻头彻尾的大混战。

Inference On Device层芯片生态

随着人工智能应用生态的爆发,将会出现越来越多不能单纯依赖云端推断的设备。例如,自动驾驶汽车的推断,不能交由云端完成,否则如果出现网络延时则是灾难性后果;或者大型城市动辄百万级数量的高清摄像头,其人脸识别推断如果全交由云端完成,高清录像的网络传输带宽将让整个城市的移动网络不堪重负。未来在相当一部分人工智能应用场景中,要求终端设备本身需要具备足够的推断计算能力,而显然当前ARM等架构芯片的计算能力,并不能满足这些终端设备的本地深度神经网络推断,业界需要全新的低功耗异构芯片,赋予设备足够的算力去应对未来越发增多的人工智能应用场景。

有哪些设备需要具备Inference On Device能力?主流场景包括智能手机、ADAS、CV设备、VR设备、语音交互设备以及机器人。

人工智能芯片.jpg

智能手机——智能手机中嵌入深度神经网络加速芯片,或许将成为业界的一个新趋势,当然这个趋势要等到有足够基于深度学习的杀手级APP出现才能得以确认。传闻中华为即将在Mate 10的麒麟970中搭载寒武纪IP,为Mate 10带来较强的深度学习本地端推断能力,让各类基于深度神经网络的摄影/图像处理应用能够为用户提供更加的体验。另外,高通同样有意在日后的芯片中加入骁龙神经处理引擎,用于本地端推断,同时ARM也推出了针对深度学习优化的DynamIQ技术。对于高通等SoC厂商,在其成熟的芯片方案中加入深度学习加速器IP并不是什么难事,智能手机未来人工智能芯片的生态基本可以断定仍会掌握在传统SoC商手中。

ADAS(高级辅助驾驶系统)——ADAS作为最吸引大众眼球的人工智能应用之一,需要处理海量由激光雷达、毫米波雷达、摄像头等传感器采集的海量实时数据。作为ADAS的中枢大脑,ADAS芯片市场的主要玩家包括今年被英特尔收购的Mobileye、去年被高通以470亿美元惊人价格收购的NXP,以及汽车电子的领军企业英飞凌。随着NVIDIA推出自家基于 GPU的ADAS解决方案Drive PX2,NVIDIA也加入到战团之中。

CV(计算机视觉,Computer Vision)设备——计算机视觉领域全球领先的芯片提供商是Movidius,目前已被英特尔收购,大疆无人机、海康威视和大华股份的智能监控摄像头均使用了Movidius的Myriad系列芯片。需要深度使用计算机视觉技术的设备,如上述提及的智能摄像头、无人机,以及行车记录仪、人脸识别迎宾机器人、智能手写板等设备,往往都具有本地端推断的刚需,如刚才提及的这些设备如果仅能在联网下工作,无疑将带来糟糕的体验。。而计算机视觉技术目前看来将会成为人工智能应用的沃土之一,计算机视觉芯片将拥有广阔的市场前景。目前国内做计算机视觉技术的公司以初创公司为主,如商汤科技、阿里系旷视、腾讯优图,以及云从、依图等公司。在这些公司中,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司将会自然而然转入CV芯片的研发中,正如Movidius也正是从计算机视觉技术到芯片商一路走来的路径。

VR设备、语音交互设备以及机器人——由于篇幅关系,这几个领域放在一起介绍。VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能。语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别。机器人方面,无论是家居机器人还是商用服务机器人均需要专用软件+芯片的人工智能解决方案,这方面典型公司有由前百度深度学习实验室负责人余凯创办的地平线机器人,当然地平线机器人除此之外,还提供ADAS、智能家居等其他嵌入式人工智能解决方案。

在Inference On Device领域,我们看到的是一个缤纷的生态。因为无论是ADAS还是各类CV、VR等设备领域,人工智能应用仍远未成熟,各人工智能技术服务商在深耕各自领域的同时,逐渐由人工智能软件演进到软件+芯片解决方案是自然而然的路径,因此形成了丰富的芯片产品方案。但我们同时观察到的是,NVIDIA、英特尔等巨头逐渐也将触手延伸到了Inference On Device领域,意图形成端到端的综合人工智能解决方案体系,实现各层次资源的联动。

2017年全球人工智能芯片主要市场数据及市场规模预测

目前人工智能的基础是数据,核心是算法,芯片则是整个系统运行的硬件平台。 一般来说人工智能系统对于搜集来的大量数据用某些特定的算法在硬件平台上进 行处理、消化后,对用户提供某些建议或根据设定的程序自动进行反馈,从而形 成人工智能系统。

人工智能系统

人工智能系统.png


2016 年人工智能芯片市场规模达到 6 亿美金,预计到 2021 年将达到 52 亿美金, 年复合增长率达到 53%,增长迅猛,发展空间巨大。目前 GPU 统治了人工智能芯片市场,占人工智能芯片市场份额的 35%。人工智 能应用中一个重要场景是智能家居,目前全球市场份额已经达到 810 亿美金。

人工智能芯片主要市场数据

人工智能芯片主要市场数据.png


人工智能芯片市场规模预测(亿美金)

人工智能芯片市场规模预测(亿美金).png




责任编辑:Davia

【免责声明】

1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。

2、本文的引用仅供读者交流学习使用,不涉及商业目的。

3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。

4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

相关资讯