深度神经网络就像遥远地平线上的海啸一样涌来。

鉴于该技术仍在演变的算法和应用,目前还不清楚深度神经网络(DNNs)最终会带来什么变化。但是,迄今为止,它们在翻译文本、识别图像和语言方面所取得的成就,清楚地表明他们将重塑计算机设计,而这种变化正在半导体设计和制造方面发生同样深刻的变化。

量身定制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间,因此这些芯片可能是迄今为止制造的最大的,因此也是最昂贵的大规模商用集成电路芯片。

新创公司追逐深度学习

今年的行业可能会看到来自创业公司Graphcore的一款微处理器,该公司不使用DRAM,而是来自竞争对手Cerebras Systems的晶圆级集成开拓先锋。英特尔收购的2.5-D Nervana芯片已经在生产样片,其他十几个处理器正在开发中。同时,从Arm到西部数据(Western Digital)的芯片公司正在研究内核,以加速深层神经网络的推理部分。

“我认为(2018年)将是一场即将到来的派对。”加州大学伯克利分校名誉教授大卫·帕特森(David Patterson)表示:“我们刚刚开始看到许多公司正在评估一些想法。”

这个趋势非常明显,帕特森和合着者约翰·亨尼西(John Hennessey)在上个月发表的关于计算机的开创性文本的最新版本中,为它写了一个新的篇章。作者对内部设计提供了深入的见解,例如Patterson为其贡献的Google TensorFlow处理器(TPU),以及最新Apple和Google智能手机芯片中的Microsoft Catapult FPGA和推理模块。

“这是计算机体系结构和封装的复兴。” Patterson说:“明年我们会看到比过去十年更有趣的电脑。”

深度神经网络的兴起在过去几年里把风险投资的资金带回到了半导体领域。 “EE Times(电子工程专辑美国版)”最新推出的初创公司评选项目“Silicon 60”中,列举了七家初创公司,其中包括两个鲜为人知的名称:寒武纪科技 Cambricon Technologies(北京寒武纪科技)和Mythic Inc.(Austin,Texas)。

“我们看到基于新架构的新创公司激增。我自己跟踪了15到20家......过去10到15年中,在任何一个细分领域中半导体行业都不曾有超过15家的半导体公司同时涌现的事情”,企业家Chris Rowen说。他从Cadence Design Systems离职后,成立了一家公司Cognite Ventures,专注于神经网络软件。

“Nvidia由于其强大的软件地位,将难以与高端服务器进行训练的竞争。如果你去追求智能手机市场你会觉得自己疯了,因为你必须在很多方面都做得出色。不过在高端或是低端的智能手机市场,还是会可能有一些机会。”罗文说。

市场观察家Linley集团负责人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他们调整了对DNN的速度培训。 “但我当然不认为这是最好的设计,”Gwennap说。

Gwennap说,Graphcore(英国布里斯托尔)和Cerebras(加利福尼亚州Los Altos)是培训芯片最多的两家初创公司,因为他们筹集的资金最多,而且似乎拥有最好的团队。由Google前芯片设计师创立的初创公司Groq声称,它将在2018年推出一款推理芯片,在每秒的总操作和推论中都会以四倍的优势击败竞争对手。

AI18012302

英特尔的Nervana是一个大型线性代数加速器,位于硅中介层上,紧邻四个8-GB HBM2存储器堆栈。消息来源:Hennessy和Patterson著写的《计算机体系结构:一种定量方法》

Intel的Nervana,被称为Lake Crest(上图),是最受关注的定制设计之一。它执行16位矩阵操作,数据共享指令集中提供的单个5位指数。

与Nvidia的Volta一样,Lake Crest逻辑器件位于TSMC的CoWoS(衬底上芯片上芯片)中介层上,紧邻着四个HBM2高带宽存储器堆栈。这些芯片被设计成网状,提供五到十倍于Volta的性能。

虽然去年微软在DNN上使用了FPGA,但Patterson仍然对这种方法持怀疑态度。 “你为(FPGA)的灵活性付出了很多代价。编程真的很难,”他说。

Gwennap在去年年底的一项分析中指出,DSP也将发挥作用。 Cadence、Ceva和Synopsys都提供面向神经网络的DSP内核,他说。

加速器缺少共同基准

虽然芯片即将问世,但是架构师们还没有决定如何去评估它们。

就像RISC处理器的早期,Patterson回忆说,“每个公司都会说,'你不能相信别人的基准,但是你可以相信我的',那不太好。

那时,RISC供应商在SPEC基准测试中进行了合作。现在,DNN加速器需要自己定义的测试套件,涵盖各种数据类型的训练和推理以及独立的或是集群的芯片。

听取了这个呼吁,交易处理性能委员会(TPC)是一个由20多个顶级服务器和软件制造商组成的小组,12月12日宣布已经组建了一个工作组来定义机器学习的硬件和软件基准。 TPC-AI委员会主席Raghu Nambiar表示,目标是创建与加速器是CPU还是GPU的测试。但是,这个团队的成员名单和时间框架还处于不断变化之中。

百度公司于2016年9月发布了一个基于其深度学习工作负载的开放源代码基准测试工具,使用32位浮点数学进行训练任务。它在六月份更新了DeepBench以涵盖推理工作和16位数学的使用。

哈佛研究人员发表的Fathom套件中定义的八个AI工作负载支持整数和浮点数据。帕特森说:“这是一个开始,但是要获得一个让人感觉舒适的全面基准测试套件,还需要更多的工作。”

“如果我们把努力做成一个好的基准,那么所有投入工程的钱都会花得值得。”他说。

除了基准之外,工程师需要跟踪仍在演变的神经网络算法,以确保他们的设计不会被束之高阁。

高通公司下一代核心研发总监Karam Chatha表示:“软件总是在变化,但是你需要尽早把硬件拿出来,因为它会影响软件 - 你不得不催促让它发生。到目前为止,移动芯片供应商正在骁龙SoC的DSP和GPU内核上运行神经网络工作,但一些观察家预计,它将为机器学习定制一个新的模块, 放在2019年7纳米骁龙 SoC里。

AI18012303 图文:高通公司展示了一个自定义DNN加速器的研究范例,但是现在它使用通用DSP和GPU内核的软件。 (来源:高通)

Patterson说:“市场决定哪种芯片最好。 “这是残酷的,但这是设计电脑让人兴奋之处。”

早期进入的玩家已经有机会进入到游戏中。

例如,Facebook最近证明,通过大幅增加打包到所谓批量大小的功能数量,可以将培训时间从一天缩短到一小时。对于试图在本地SRAM中运行所有操作的Graphcore来说这可能是个坏消息,消除了外部DRAM访问的延迟,同时也限制了它的内存占用。

“他们为小批量数据包而设计的,但几个月前的软件结果表明你想要一个大批量数据包。这表明事情变化的速度有多快,“帕特森说。

另一方面,雷克斯电脑(Rex Computing)认为正在迎来一个有利的机遇。该初创公司的SoC最初是为高性能服务器设计的,它使用了一种新颖的暂存器内存。 Rex的方法消除了在虚拟页面表中缓存数据的需求,这是GPU使用的一种技术,增加了他们的延迟,联合创始人Thomas Sohmers说。

因此,Rex芯片比现在的GPU要好得多,特别是在处理流行的矩阵/矢量运算神经网络时,他说。新创公司计划6月份推出16纳米的256核的SoC,希望能提供256 Gflops / watt的运算能力。

与此同时,研究人员正在尝试从32位到单位浮点和整数数学的一切可能,以找到最有效的方法来计算神经网络结果。他们似乎同意的一点是,最好不要在精确度级别之间转换。

AI算法仍处于发展初期

深度神经网络是几十年来一直在人工智能方面进行的相对较小的工作。从2012年左右开始,包括Facebook的Yann LeCun在内的研究人员开始使用特定种类的DNN识别图像,并最终以比人类更高的准确度显示令人惊叹的结果。深度学习技术吸引了研究界,现在正以高速发表论文,寻求新的突破。

DNN现在提供商业服务,如亚马逊的Alexa和谷歌翻译,以及Facebook的面部识别。网络巨头和他们的全球竞争对手,正在竞相将这些技术应用于尽可能多的服务中,并期待尽可能找到杀手级应用。

微软每年都会以AI为主题举行两次员工内部会议。最近一次有5000人参加,前SPARC处理器架构师Marc Tremblay表示,他现在领导微软在定制AI芯片和系统方面的工作。

专家承认,他们并不完全理解为什么现有的算法工作得很好。辩论主题是探讨这些网络算法的相对有效性,例如递归(RNN)和卷积(CNN)神经网络。同时,新的模式仍在发明之中。

“五年内算法仍然极有可能发生改变。我们在赌,像矩阵乘法这样的最底层的算法是不可改变的。”AMD研究员艾伦·拉什(Allen Rush)在最近一次关于人工智能的IEEE研讨会上说。

这就是Google用TPU做出的赌注,最新版本的TPU是针对训练和推理工作的。它本质上是一个大的乘法累加单元,运行和存储线性代数例程的结果。 Nervana和Graphcore芯片通常预计将效仿。

哈佛大学前大脑研究人员Amir Khosrowshahi说,在神经网络方面取得的成功主要集中在人工智能领域。他目前是英特尔Nervana集团的首席技术官,创立了Nervana公司。他在IEEE研讨会上表示:“由于深度学习非常成功,所以事情正在席卷而下。 每个人都在做卷积神经网络,这是一场悲剧......不要以为现在发生的事情一年后就一定会到来。”

AI18012304 图:今天的DNN得到了很多关注,但是只代表了更广泛AI领域的一小部分。 (来源:英特尔)

尽管DNN可以比人类更精确地识别图像,“如今的数据科学家被迫花费着难以接受的时间对数据进行预处理,对模型和参数进行迭代,并且等待训练的收敛......每一步都要么过于劳累,要么太计算密集型,“Khosrowshahi说。

总的来说,“人工智能的难题仍然非常难,”他补充说。 “最好的研究人员可以得到一个机器人来打开一扇门,但拿起杯子可能比赢得Alpha Go还要更难。”

在这种环境下,Facebook和Google等网络巨头正在发布大型数据集,以吸引更多的人从事诸如视频等新应用领域或数据类型的识别问题。

拓展应用领域

随着算法的发展,研究人员也在推动深度学习的应用前沿。

Google旨在系统地将DNN应用于从帮助盲人用到的自动字幕照片,到以阅读磁共振成像扫描结果、到监测工厂车间的质量控制等问题。谷歌人工智能研发负责人李佳(Jia Li)在IEEE研讨会上表示:“人工智能不是一项技术或产品。 “我们需要开始理解一个领域,然后收集数据,找到算法,并提出解决方案。每一个新问题我们都需要一个不同的模型。“

事实上,人们正在将DNN应用于几乎所有领域,包括设计和制造芯片。英特尔编制了四十多种可能用途的清单,包括了从消费者网上购物助手到华尔街自动交易的程序。

目前担任Target公司数据科学家,前IBM研究人员Shirish Tatikonda,对应用领域给予了更加清醒的认识。大部分零售商的数据都是关系数据,而不是最适合神经网络的非结构化数据。 Shirish Tatikonda在个活动后的简短采访中表示,Target的业务问题中只有大约10%适用于DNN。尽管如此,该公司正在积极开拓这一领域,其系统中约有10%是面向培训神经网络模型的GPU服务器。

为了扩大这种巨大的努力,谷歌的研究人员正在探索他们所谓的AutoML。这个想法是使用神经网络自动生成模型,而不需要数据科学家手动调整它们。

AI18012305 尽管许多最近的努力试图缩小它们的内存占用量,但是DNN模型在尺寸上仍然差别很大。 来源:高通

机器人技术先驱罗德尼•布鲁克斯(Rodney Brooks)担心,预期可能会失控。 他在最近的一次谈话中说:“深度学习是好的,但它正在成为一个锤子,人们可以用它去打碎一切东西。”

就帕特森而言,他仍然乐观。 他说,虽然广泛的人工智能领域没有达到过去的承诺,但它在机器翻译等领域的成功是真实的。 “可能所有低处的果实都被采摘下来后,人们没有发现什么更令人兴奋的事情,但是你几乎每个星期都会看到新的进展......所以我认为我们会发现AI有更多的用途。”

首度致力于软体融合

行业第一次致力于软件融合。

在早期的疯狂和分散之中,即使是软件融合的努力也是分散的。百度的人工智能研究团队进行了一项调查,发现了11项措施,弥补用于管理神经网络的竞争软件框架之间的差距。

最有希望的是开放神经网络交换(ONNX),这是一个由Facebook和微软开始的开源项目,最近由亚马逊加入。该小组在12月份发布了ONNX格式的第一版。它旨在将用十几个竞争软件框架中的任何一个创建的神经网络模型转换成图形表示。

芯片制造商可以在结果图上定位他们的硬件。这对于那些不能编写独立软件来支持竞争模型框架的创业公司来说是个好消息,例如Amazon的MxNet,Google的TensorFlow,Facebook的Caffe2以及微软的CNTK。

由30多家主要芯片供应商组成的团队于12月20日发布了他们的首选选项 - 神经网络交换格式(Neural Network Exchange Format,简称NNEF)。NNEF旨在为芯片制造商提供创建自己的内部格式的替代方案,就像英特尔在Nervana Graph和Nvidia所做的那样与TensorRT。

在百度找到的其他格式的大写字母名称缩写中,有ISAAC,NNVM,Poplar和XLA。百度硅谷人工智能实验室高级研究员格雷格·迪莫斯(Greg Diamos)表示:“现在知道是否会出现一个成功的实施可能还为时过早,但是我们正在走上一条更好的路,其中一条最终可能会胜出。”

AI18012401 图文: 在人工智能框架中,亚马逊声称其MxNet框架和新兴的Gluon API提供了最好的效率。 (来源:亚马逊)

另外,谷歌已经开始使用软件来自动化精简DNN模型的过程,以便他们可以运行从智能手机到物联网(IoT)节点的所有事情。 如果成功的话,可以将50Mbyte的模型降低到500K字节。

谷歌还在探索如何在手机上进行有限的模型培训,方法是根据当天收集的数据调整模型的顶层或者在夜间运行的一个流程。 像SqueezeNet和MobileNet这样的行业工作也类似地展示了更简单的成像模型的路径。

负责Google TensorFlow Lite工作的Pete Warden表示:“我们看到了大量使用机器学习的人们在各种各样的产品中大量涌现。 “让每次运算的能耗降下来这件事,让我每天工作到深夜。”

展望未来

当专家细看AI的未来时,他们看到了一些有趣的可能。

今天我们使用基于手动调整模型的监督式学习。谷歌的守望者(Warden)是在不久的将来出现半监督方法的研究人员之一,手机等客户端设备自己处理一些学习。最终目标是无监督的学习 - 计算机教育它们自己,而不再需要建造它们的工程师的编程帮助。

在这条路上,研究人员正在设法自动标记数据,这些数据来自手机或物联网(IoT)节点等设备。

“谷歌说,现在我们需要大量的计算,在这个过度阶段,一旦事情被自动标记,你只需要索引新的增量内容,这更像是人类如何处理数据,”Janet George,西部数据的科学家说。

无监督学习打开了加速机器智能时代的大门,有些人认为这是数字化的必杀技。另一些人则担心技术可能会在没有人为干预的情况下以灾难性的方式失控。 Google公司TPU项目负责人Norm Jouppi说:“这让我感到害怕。

同时,从事半导体工作的学者对未来的AI芯片有自己的长远展望。

英特尔,Graphcore和Nvidia“已经在制造全标线芯片,下一步就是三维技术”,Patterson说。 “当摩尔定律如火如荼时,由于担心可靠性和成本问题,人们会在看到复杂的封装技术之前就临阵退缩了。现在摩尔定律正在结束,我们将看到很多封装方面的实验。“

这里的最终游戏是创造出新型的晶体管,可以在逻辑和存储器层上堆叠。

Notre Dame电气工程教授苏曼·达塔(Suman Datta)看好负电容铁电晶体管技术的晶体管。他在最近召开的所谓的单体三维(3-D)结构会议上展望了该领域的前景。这样的设计应用和先进的3-D NAND闪存已经采用了on-die芯片堆栈技术。

来自伯克利,麻省理工学院和斯坦福大学的团队将在二月份的国际固态电路会议上展示一个类似的前沿技术。芯片(下图)将电阻RAM(ReRAM)结构堆叠在由碳纳米管制成的逻辑上的碳纳米管。

AI18012402 伯克利,麻省理工学院和斯坦福大学的研究人员将在ISSCC上报告一种使用碳纳米管,ReRAM和图案作为计算元素的新型加速器。 (来源:加州大学伯克利分校)

从DNN获得灵感,该设备被编程为近似模式,而不是计算机迄今使用的确定性数字。 伯克利教授扬·拉巴伊(Jan Rabaey)说,这个所谓的高维计算使用了几万维的向量作为计算元素,伯克利教授为本文做出了贡献,并且是英特尔AI顾问委员会成员。

Rabaey说,这样的芯片可以从例子中学习,并且比传统系统需要的操作要少得多。一块测试芯片将很快问世,它使用振荡器阵列,作为与相关存储器阵列中的采用了ReRAM单元的模拟逻辑。

Rabaey在IEEE人工智能研讨会上表示:“我梦想的引擎,是可以随身携带,现场为我提供指导......我的目标是推动AI运行在小于100毫伏的运行。 我们需要重新思考我们如何做计算。 我们正在从基于算法的系统转向基于数据的系统。”

*作者: Rick Merritt, EETimes硅谷主编

编译:Mike Zhang

本文为《电子工程专辑》作者原创,版权所有,未经许可,不得转载。

二维码