目录
一·概述篇
一、概述篇
1.1 AI 芯片的分类
1.2 AI 芯片发展历程
1.3 我国 AI 芯片发展情况
二、技术篇
2.1 传统的 CPU 及其局限性
2.2 并行加速计算的 GPU
2.3 半定制化的 FPGA
2.4 全定制化的 ASIC
2.5 类脑芯片
2.6 AI 芯片技术特点比较
三、产业篇
3.产业
四、人物篇
4.1 学者分布及迁徙
4.2 代表性研究学者
五、应用趋势篇
5 应用领域篇
六、趋势篇
6 趋势篇
1 概述篇
人工智能(Artificial Intelligence,AI)芯片的定义:从广义上讲只要能够运行人工智 能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片,现阶段,这些人工智能算法一般以深度学习算法为主,也可以包括其它机器学习算法。人工智能与深度学习的关系如图 1 所示。
图 1 人工智能与深度学习
深度学习算法,通常是基于接收到的连续数值,通过学习处理,并输出连续数值的过 程,实质上并不能完全模仿生物大脑的运作机制。基于这一现实,研究界还提出了 SNN
(Spiking Neural Network,脉冲神经网络)模型。作为第三代神经网络模型,SNN 更贴近 生物神经网络——除了神经元和突触模型更贴近生物神经元与突触之外,SNN 还将时域信息引入了计算模型。目前基于SNN的AI 芯片主要以IBM 的TrueNorth、Intel 的 Loihi 以及国内的清华大学天机芯为代表。
1.1 AI 芯片的分类
(1)AI 芯片按技术架构分类
GPU(Graphics Processing Unit,图形处理单元):在传统的冯·诺依曼结构中,CPU 每 执行一条指令都需要从存储器中读取数据,根据指令对数据进行相应的操作。从这个特点可以看出,CPU 的主要职责并不只是数据运算,还需要执行存储读取、指令分析、分支跳转等命令。深度学习算法通常需要进行海量的数据处理,用 CPU 执行算法时,CPU 将花费大量的时间在数据/指令的读取分析上,而 CPU 的频率、内存的带宽等条件又不可能无限制提高,因此限制了处理器的性能。而 GPU 的控制相对简单,大部分的晶体管可以组成各类专用电路、多条流水线,使得 GPU 的计算速度远高于CPU;同时 GPU 拥有了更加强大的浮点运算能力,可以缓解深度学习算法的训练难题,释放人工智能的潜能。
但 GPU 无法单独工作,必须由 CPU 进行控制调用才能工作,而且功耗比较高。
半定制化的 FPGA:FPGA(Field Programmable Gate Array)全称“现场可编程门阵列”,其基本原理是在 FPGA 芯片内集成大量的基本门电路以及存储器,用户可以通过更新 FPGA 配置文件来定义这些门电路以及存储器之间的连线。
与 GPU 不同,FPGA 同时拥有硬件流水线并行和数据并行处理能力,适用于以硬件流水线方式处理一条数据,且整数运算性能更高,因此常用于深度学习算法中的推断阶段。不过 FPGA 通过硬件的配置实现软件算法,因此在实现复杂算法方面有一定的难度。将 FPGA 和 CPU 对比可以发现两个特点,一是 FPGA 没有内存和控制所带来的存储和读取部 分,速度更快,二是FPGA 没有读取指令操作,所以功耗更低。劣势是价格比较高、编程 复杂、整体运算能力不是很高。目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解决方案。
全定制化 ASIC:ASICc(Application-Specific Integrated Circuit)专用集成电路,是专用定制芯片,即为实现特定要求而定制的芯片。定制的特性有助于提高 ASIC 的性能功耗 比,缺点是电路设计需要定制,相对开发周期长,功能难以扩展。但在功耗、可靠性、集 成度等方面都有优势,尤其在要求高性能、低功耗的移动应用端体现明显。谷歌的TPU、 寒武纪的 GPU,地平线的 BPU 都属于 ASIC 芯片。谷歌的 TPU 比 CPU 和 GPU 的方案快 30 至 80 倍,与 CPU 和 GPU 相比,TPU 把控制电路进行了简化,因此减少了芯片的面积,降低了功耗。
神经拟态芯片:神经拟态计算是模拟生物神经网络的计算机制。神经拟态计算从结构 层面去逼近大脑,其研究工作还可进一步分为两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,如 IBM 的 TrueNorth 芯片,这种芯片把定制化的数字处理内核 当作神经元,把内存作为突触。其逻辑结构与传统冯·诺依曼结构不同:它的内存、CPU 和通信部件完全集成在一起,因此信息的处理在本地进行,克服了传统计算机内存与 CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。二是神经元与神经突触层面,与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度 的随机相变神经元,可实现高速无监督学习。
(2)AI 芯片按功能分类 根据机器学习算法步骤,可分为训练(training)和推断
(inference)两个环节: 训练环节通常需要通过大量的数据输入,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英 伟达的 GPU 集群来完成,Google 的 TPU2.0/3.0 也支持训练环节的深度网络加速。推断环节是指利用训练好的模型,使用新的数据去“推断”出各种结论。这个环节的计算量相对训练环节少很多,但仍然会涉及到大量的矩阵运算。在推断环节中,除了使用CPU 或 GPU 进行运算外,FPGA 以及 ASIC 均能发挥重大作用。
(3)AI 芯片按应用场景分类 主要分为用于服务器端(云端)和用于移动端(终端)两大
类。 服务器端:在深度学习的训练阶段,由于数据量及运算量巨大,单一处理器几乎不可
能独立完成一个模型的训练过程,因此,负责 AI 算法的芯片采用的是高性能计算的技术路
线,一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支 持浮点数运算;而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个 计算阵列以加速运算)。在推断阶段,由于训练出来的深度神经网络模型仍非常复杂,推断过程仍然属于计算密集型和存储密集型,可以选择部署在服务器端。
移动端(手机、智能家居、无人车等):移动端 AI 芯片在设计思路上与服务器端 AI 芯 片有着本质的区别。首先,必须保证很高的计算能效;其次,在高级辅助驾驶 ADAS 等设 备对实时性要求很高的场合,推断过程必须在设备本身完成,因此要求移动端设备具备足 够的推断能力。而某些场合还会有低功耗、低延迟、低成本的要求,从而导致移动端的 AI 芯片多种多样。
1.2 AI 芯片发展历程
从图灵的论文《计算机器与智能》和图灵测试,到最初级的神经元模拟单元——感知 机,再到现在多达上百层的深度神经网络,人类对人工智能的探索从来就没有停止过。上 世纪八十年代,多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反 向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反 馈,将最终的输出收敛到某一个目标范围之内。1989 年贝尔实验室成功利用反向传播算法, 在多层神经网络开发了一个手写邮编识别器。1998 年 Yann LeCun 和 Yoshua Bengio 发表了 手写识别神经网络和反向传播优化相关的论文《Gradient-based learning applied to document recognition》,开创了卷积神经网络的时代。
此后,人工智能陷入了长时间的发展沉寂阶段,直到 1997 年 IBM 的深蓝战胜国际象棋 大师和 2011 年 IBM 的沃森智能系统在 Jeopardy 节目中胜出,人工智能才又一次为人们所关 注。2016 年 Alpha Go 击败韩国围棋九段职业选手,则标志着人工智能的又一波高潮。从基 础算法、底层硬件、工具框架到实际应用场景,现阶段的人工智能领域已经全面开花。作为人工智能核心的底层硬件 AI 芯片,也同样经历了多次的起伏和波折,总体看来,
AI 芯片的发展前后经历了四次大的变化,其发展历程如图 2 所示。
图 2 AI 芯片发展历程
1)2007 年以前,AI 芯片产业一直没有发展成为成熟的产业;同时由于当时算法、 数据量等因素,这个阶段 AI 芯片并没有特别强烈的市场需求,通用的 CPU 芯片即可满足 应用需要。
(2)随着高清视频、VR、AR 游戏等行业的发展,GPU 产品取得快速的突破;同时人 们发现 GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,如 GPU 比 之前传统的 CPU 在深度学习算法的运算上可以提高几十倍的效率,因此开始尝试使用 GPU 进行人工智能计算。
(3)进入 2010 年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大 量 CPU 和 GPU 进行混合运算,进一步推进了 AI 芯片的深入应用,从而催生了各类 AI 芯 片的研发与应用。
(4)人工智能对于计算能力的要求不断快速地提升,进入 2015 年后,GPU 性能功耗 比不高的特点使其在工作适用场合受到多种限制,业界开始研发针对人工智能的专用芯片, 以期通过更好的硬件和芯片架构,在计算效率、能耗比等性能上得到进一步提升。
1.3 我国 AI 芯片发展情况
目前,我国的人工智能芯片行业发展尚处于起步阶段。长期以来,中国在 CPU、GPU、 DSP 处理器设计上一直处于追赶地位,绝大部分芯片设计企业依靠国外的 IP 核设计芯片, 在自主创新上受到了极大的限制。然而,人工智能的兴起,无疑为中国在处理器领域实现弯道超车提供了绝佳的机遇。人工智能领域的应用目前还处于面向行业应用阶段,生态上尚未形成垄断,国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑 线上,因此,基于新兴技术和应用市场,中国在建立人工智能生态圈方面将大有可为。
由于我国特殊的环境和市场,国内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态 势,AI 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾 驶等众多领域,催生了大量的人工智能芯片创业公司,如地平线、深鉴科技、中科寒武纪 等。
尽管如此,国内公司却并未如国外大公司一样形成市场规模,反而出现各自为政的散 裂发展现状。除了新兴创业公司,国内研究机构如北京大学、清华大学、中国科学院等在 AI 芯片领域都有深入研究;而其他公司如百度和比特大陆等,2017 年也有一些成果发布。
可以预见,未来谁先在人工智能领域掌握了生态系统,谁就掌握住了这个产业的主动 权。
2 技术篇
从概念篇的介绍中我们可以发现,人工智能芯片目前有两种发展路径:一种是延续传 统计算架构,加速硬件计算能力,主要以 3 种类型的芯片为代表,即 GPU、FPGA、ASIC, 但 CPU 依旧发挥着不可替代的作用;另一种是颠覆经典的冯·诺依曼计算架构,采用类脑神 经结构来提升计算能力,以 IBM TrueNorth 芯片为代表。
2.1 传统的 CPU 及其局限性
计算机工业从 1960 年代早期开始使用 CPU 这个术语。迄今为止,CPU 从形态、设计到实现都已发生了巨大的变化,但是其基本工作原理却一直没有大的改变。通常 CPU 由控 制器和运算器这两个主要部件组成。传统的 CPU 内部结构图如图 3 所示,从图中我们可以 看到:实质上仅单独的 ALU 模块(逻辑运算单元)是用来完成数据计算的,其他各个模块 的存在都是为了保证指令能够一条接一条的有序执行。这种通用性结构对于传统的编程计 算模式非常适合,同时可以通过提升 CPU 主频(提升单位时间内执行指令的条数)来提升 计算速度。但对于深度学习中的并不需要太多的程序指令、却需要海量数据运算的计算需 求,这种结构就显得有些力不从心。尤其是在功耗限制下,无法通过无限制的提升 CPU 和 内存的工作频率来加快指令执行速度,这种情况导致 CPU 系统的发展遇到不可逾越的瓶颈。
图 3 传统 CPU 内部结构图(仅 ALU 为主要计算模块)
2.2 并行加速计算的 GPU
GPU 作为最早从事并行加速计算的处理器,相比 CPU 速度快,同时比其他加速器芯片编程灵活简单。
传统的 CPU 之所以不适合人工智能算法的执行,主要原因在于其计算指令遵循串行执 行的方式,没能发挥出芯片的全部潜力。与之不同的是,GPU 具有高并行结构,在处理图 形数据和复杂算法方面拥有比 CPU 更高的效率。对比GPU 和 CPU 在结构上的差异,CPU大部分面积为控制器和寄存器,而GPU 拥有更的 ALU(ARITHMETIC LOGIC UNIT,逻 辑运算单元)用于数据处理,这样的结构适合对密集型数据进行并行处CPU 与 GPU 的 结构对比如图 4 所示。程序在 GPU 系统上的运行速度相较于单核 CPU 往往提升几十倍乃至上千倍。随着英伟达、AMD 等公司不断推进其对 GPU 大规模并行架构的支持,面向通用 计算的 GPU(即 GPGPU,GENERAL PURPOSE GPU,通用计算图形处理器)已成为加速可并行应用程序的重要手段。
图 4 CPU 及 GPU 结构对比图(引用自 NVIDIA CUDA 文档)
GPU 的发展历程可分为 3 个阶段,发展历程示意图如图 5 所示:
图 5 GPU 芯片的发展阶段
第 一 代 GPU(1999 年以前 ) , 部 分 功 能 从 CPU 分离,实现硬件加速, 以 GE(GEOMETRY ENGINE)为代表,只能起到 3D 图像处理的加速作用,不具有软件编程特 性。
第二代 GPU(1999-2005 年),实现进一步的硬件加速和有限的编程性。1999 年,英伟 达发布了“专为执行复杂的数学和几何计算的”GeForce256 图像处理芯片,将更多的晶体 管用作执行单元,而不是像 CPU 那样用作复杂的控制单元和缓存,将 T&L(TRANSFORM AND LIGHTING)等功能从 CPU 分离出来,实现了快速变换,这成为 GPU 真正出现的标志。 之后几年,GPU 技术快速发展,运算速度迅速超过 CPU。2001 年英伟达和 ATI 分别推出的 GEFORCE3 和 RADEON 8500,图形硬件的流水线被定义为流处理器,出现了顶点级可编 程性,同时像素级也具有有限的编程性,但 GPU 的整体编程性仍然比较有限。
第三代 GPU(2006 年以后),GPU 实现方便的编程环境创建,可以直接编写程序。2006 年英伟达与 ATI 分别推出了 CUDA(Compute United Device Architecture,计算统一设备架构) 编程环境和 CTM(CLOSE TO THE METAL)编程环境,使得 GPU 打破图形语言的局限成为真正的并行数据处理超级加速器。
2008 年,苹果公司提出一个通用的并行计算编程台 OPENCL(OPEN COMPUTING LANGUAGE,开放运算语言),与 CUDA 绑定在英伟达的显卡上不同,OPENCL 和具体的 计算设备无关。
目前,GPU 已经发展到较为成熟的阶段。谷歌、FACEBOOK、微软、TWITTER 和百 度等公司都在使用 GPU 分析图片、视频和音频文件,以改进搜索和图像标签等应用功能。 此外,很多汽车生产商也在使用 GPU 芯片发展无人驾驶。不仅如此,GPU 也被应用于 VR/AR 相关的产业。
但是 GPU 也有一定的局限性。深度学习算法分为训练和推断两部分,GPU 平台在算法 训练上非常高效。但在推断中对于单项输入进行处理的时候,并行计算的优势不能完全发 挥出来。
• 半定制化的 FPGA
FPGA 是在 PAL、GAL、CPLD 等可编程器件基础上进一步发展的产物。用户可以通过 烧入 FPGA 配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的, 比如用户可以把 FPGA 配置成一个微控制器 MCU,使用完毕后可以编辑配置文件把同一个 FPGA 配置成一个音频编解码器。因此,它既解决了定制电路灵活性的不足,又克服了原有可编程器件门电路数有限的缺点。
FPGA 可同时进行数据并行和任务并行计算,在处理特定应用时有更加明显的效率提 升。对于某个特定运算,通用 CPU 可能需要多个时钟周期;而 FPGA 可以通过编程重组电 路,直接生成专用电路,仅消耗少量甚至一次时钟周期就可完成运算。
此外,由于 FPGA 的灵活性,很多使用通用处理器或 ASIC 难以实现的底层硬件控制操 作技术,利用 FPGA 可以很方便的实现。这个特性为算法的功能实现和优化留出了更大空 间。同时 FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC,在芯片需求还未成规模、深 度学习算法暂未稳定,需要不断迭代改进的情况下,利用 FPGA 芯片具备可重构的特性来 实现半定制的人工智能芯片是最佳选择之一。
功耗方面,从体系结构而言,FPGA 也具有天生的优势。传统的冯氏结构中,执行单 元(如 CPU 核)执行任意指令,都需要有指令存储器、译码器、各种指令的运算器及分支 跳转处理逻辑参与运行,而 FPGA 每个逻辑单元的功能在重编程(即烧入)时就已经确定, 不需要指令,无需共享内存,从而可以极大的降低单位执行的功耗,提高整体的能耗比。
由于 FPGA 具备灵活快速的特点,因此在众多领域都有替代 ASIC 的趋势。FPGA 在人 工智能领域的应用如图 6 所示。
图 6 FPGA 在人工智能领域的应用
• 全定制化的 ASIC
目前以深度学习为代表的人工智能计算需求,主要采用 GPU、FPGA 等已有的适合并 行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时,使用这类已有的通用芯 片可以避免专门研发定制芯片(ASIC)的高投入和高风险。但是,由于这类通用芯片设计 初衷并非专门针对深度学习,因而天然存在性能、功耗等方面的局限性。随着人工智能应 用规模的扩大,这类问题日益突显。
GPU 作为图像处理器,设计初衷是为了应对图像处理中的大规模并行计算。因此,在 应用于深度学习算法时,有三个方面的局限性:第一,应用过程中无法充分发挥并行计算 优势。深度学习包含训练和推断两个计算环节,GPU 在深度学习算法训练上非常高效,但 对于单一输入进行推断的场合,并行度的优势不能完全发挥。第二,无法灵活配置硬件结 构。GPU 采用 SIMT 计算模式,硬件结构相对固定。目前深度学习算法还未完全稳定,若 深度学习算法发生大的变化,GPU 无法像 FPGA 一样可以灵活的配制硬件结构。第三,运 行深度学习算法能效低于 FPGA。
尽管 FPGA 倍受看好,甚至新一代百度大脑也是基于 FPGA 平台研发,但其毕竟不是 专门为了适用深度学习算法而研发,实际应用中也存在诸多局限:第一,基本单元的计算 能力有限。为了实现可重构特性,FPGA 内部有大量极细粒度的基本单元,但是每个单元 的计算能力(主要依靠 LUT 查找表)都远远低于 CPU 和 GPU 中的 ALU 模块;第二、计算资 源占比相对较低。为实现可重构特性,FPGA 内部大量资源被用于可配置的片上路由与连 线,;第三,速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距;第四,FPGA 价格较 为昂贵,在规模放量的情况下单块 FPGA 的成本要远高于专用定制芯片。
因此,随着人工智能算法和应用技术的日益发展,以及人工智能专用芯片 ASIC 产业环 境的逐渐成熟,全定制化人工智能 ASIC 也逐步体现出自身的优势,从事此类芯片研发与应 用的国内外比较有代表性的公司如表 1 所示,后续产业篇会做相应的详细介绍。
表 1 人工智能专用芯片(包括类脑芯片)研发情况一览
国家
名称
简介
英伟达 Tesla P100
谷歌 TPU
首个专为深度学习加速计算而设计的图形处理芯片架构
面向机器学习张量处理的加速芯片
IBM TrueNorth 芯片
TrueNorth 以分布式、并行的方式来存储处理信息,支持 SNN
高通 Zeroth 芯片
按照人类神经网络传输信息的方式而设计,支持 SNN
英特尔神经形态芯片
支持片上学习的 SNN 芯片
Audience 神经形态芯片
可以模拟人耳抑制噪音,应用于智能手机
中星微
寒武纪
中国首个嵌入式神经网络芯片 NPU
全球首个提出深度学习处理器芯片指令集
地平线机器人
专注于人工智能本地化机器学习芯片
深鉴科技
利用 FPGA 平台打造人工智能芯片 DPU
灵汐科技
类脑处理芯片,支持 DNN/SNN 混合模式
ASIC 芯片非常适合人工智能的应用场景。首先,ASIC 的性能提升非常明显。例如英
伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度是其 2014 年推出 GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按 摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样,人工智能 ASIC 芯 片也将大幅改变如今 AI 硬件设备的面貌。如大名鼎鼎的 AlphaGo 使用了约 170 个图形处理 器(GPU)和 1200 个中央处理器(CPU),这些设备需要占用一个机房,还要配备大功率 的空调,以及多名专家进行系统维护。而如果全部使用专用芯片,极大可能只需要一个普 通收纳盒大小的空间,,且功耗也会大幅降低。
第二,下游需求促进人工智能芯片专用化。从服务器,计算机到无人驾驶汽车、无人 机再到智能家居的各类家电,至少数十倍于智能手机体量的设备需要引入感知交互能力和 人工智能计算能力。而出于对实时性的要求以及训练数据隐私等考虑,这些应用不可能完 全依赖云端,必须要有本地的软硬件基础平台支撑,这将带来海量的人工智能芯片需求。
目前人工智能专用芯片的发展方向包括:主要基于 FPGA 的半定制、针对深度学习算 法的全定制和类脑计算芯片 3 个方向。
在芯片需求还未形成规模、深度学习算法暂未稳定,AI 芯片本身需要不断迭代改进的 情况下,利用具备可重构特性的 FPGA 芯片来实现半定制的人工智能芯片是最佳选择之一。 这类芯片中的杰出代表是国内初创公司深鉴科技,该公司设计了“深度学习处理单元”
(Deep Processing Unit,DPU)的芯片,希望以 ASIC 级别的功耗达到优于 GPU 的性能, 其第一批产品就是基于 FPGA 平台开发研制出来的。这种半定制芯片虽然依托于 FPGA 平 台,但是抽象出了指令集与编译器,可以快速开发、快速迭代,与专用的 FPGA 加速器产 品相比,也具有非常明显的优势。
深度学习算法稳定后,AI 芯片可采用 ASIC 设计方法进行全定制,使性能、功耗和面 积等指标面向深度学习算法做到最优。
2.5 类脑芯片
类脑芯片不采用经典的冯·诺依曼架构,而是基于神经形态架构设计,以 IBM Truenorth 为代表。IBM 研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭 建了神经芯片的原型。目前,Truenorth 用三星 28nm 功耗工艺技术,由 54 亿个晶体管组成 的芯片构成的片上网络有 4096 个神经突触核心,实时作业功耗仅为 70mW。由于神经突触 要求权重可变且要有记忆功能,IBM 采用与 CMOS 工艺兼容的相变非挥发存储器(PCM) 的技术实验性的实现了新型突触,加快了商业化进程。
在国内,清华大学类脑计算中心于 2015 年 11 月成功的研制了国内首款超大规模的神 经形态类脑计算天机芯片。该芯片同时支持脉冲神经网络和人工神经网络(深度神经网络),可进行大规模神经元网络的模拟。中心还开发了面向类脑芯片的工具链,降低应用的开发难度并提升效率。第二代 28nm 天机芯片也已问世,在性能功耗比上要优于 Truenorth。
当前,类脑 AI 芯片的设计目的不再仅仅局限于加速深度学习算法,而是在芯片基本结 构甚至器件层面上改变设计,希望能够开发出新的类脑计算机体系结构,比如采用忆阻器 和 ReRAM 等新器件来提高存储密度。这类芯片技术尚未完全成熟,离大规模应用还有一 定的差距,但是长期来看类脑芯片有可能会带来计算机体系结构的革命。
2.6 AI 芯片技术特点比较
通过以上分析,我们可以总结出以下几个特点。
⚫CPU 通用性最强,但延迟严重,散热高,效率最低。
⚫GPU 通用性强、速度快、效率高,特别适合用在深度学习训练方面,但是性能功耗比 较低。
⚫FPGA 具有低能耗、高性能以及可编程等特性,相对于 CPU 与 GPU 有明显的性能或者 能耗优势,但对使用者要求高。
⚫ASIC 可以更有针对性地进行硬件层次的优化,从而获得更好的性能、功耗比。但是 ASIC 芯片的设计和制造需要大量的资金、较长的研发周期和工程周期,而且深度学习 算法仍在快速发展,若深度学习算法发生大的变化,FPGA 能很快改变架构,适应最 新的变化,ASIC 类芯片一旦定制则难于进行修改。
当前阶段,GPU 配合 CPU 仍然是 AI 芯片的主流,而后随着视觉、语音、深度学习的 算法在 FPGA 以及 ASIC 芯片上的不断优化,此两者也将逐步占有更多的市场份额,从而与 GPU 达成长期共存的局面。从长远看,人工智能类脑神经芯片是发展的路径和方向。
未完待续。。。。。。。