从很多方面来看,AI加速热潮与1990年代末期和2000年代初的DSP淘金热很类似......与DSP协同处理器一样,AI加速器的目标是找到最快速、最节能的方法来执行所需的运算任务...
从云端的大数据(big data)处理到边缘端的关键字识别和影像分析,人工智慧(AI)应用的爆炸式成长促使专家们前仆后继地开发最佳架构,以加速机器学习(ML)演算法的处理。各式各样的新兴解决方案都凸显了设计人员在选择硬体平台之前,明确定义应用及其需求的重要性。efUesmc
从很多方面来看,AI加速热潮与1990年代末期和2000年代初的DSP淘金热很类似;在那个时候,随着有线和无线通讯起飞,市场上纷纷推出高性能DSP协同处理器(co-processor )以因应基频处理的挑战。与DSP协同处理器一样,AI加速器的目标是找到最快速、最节能的方法来执行所需的运算任务。efUesmc
神经网路处理背后的数学,涉及统计学、多元微积分(multivariable calculus)、线性代数、数值最佳化(numerical optimization)和机率等;虽然很复杂,也是高度可平行化的(parallelizable)。但事实上这是令人尴尬的可平行化──与分散式运算不同,在路径的输出被重组并产生输出结果之前,很容易被分解为没有分支(branches)或从属关系(dependencies)的平行路径。efUesmc
在各种神经网路演算法中,卷积神经网路(CNN)特别擅长物件识别类任务——也就是从影像中过滤筛选出感兴趣的物件。CNN以多维矩阵(multidimensional matrices)──即张量(tensor)──架构来理解资料,将超出第三个维度的每个维度都嵌入到子阵列中(如图1),每个添加的维度称为「阶」(order),因此,五阶张量会有五个维度。efUesmc
efUesmc
图1:CNN以张量架构摄取资料,也就是可被视觉化为3D立方体的数字矩阵(资料集);每个阵列中还有一个子阵列,该数字定义了CNN的深度。
(图片来源:Skymind)efUesmc
这种多维分层对于理解CNN所需之加速的本质很重要,卷积过程使用乘法在数学上将两个函数「卷绕」(roll)在一起,因此广泛使用乘加(multiply-accumulate,MAC )数学运算;举例来说,在物件识别中,一个函数是源影像,另一个函数是用来识别特征然后将其映射到特征空间的筛检程式(filter)。每个筛检程式都要多次执行这种「卷绕」,以识别影像中的不同特征,因此数学运算变得非常重复,且是令人尴尬(或令人愉悦)的可平行化。efUesmc
为此,某些AI加速器的设计采用多个独立的处理器核心(高达数百或上千个),与记忆体子系统一起整合在单晶片中,以减轻资料存取延迟并降低功耗。然而,由于业界已设计了绘图处理器(GPU)来对影像处理功能进行高度平行处理,因此它们对于AI所需的这种神经网路处理也可以实现很好的加速。AI应用的多样性和深度,特别是在语音控制、机器人、自动驾驶和大数据分析等方面,已经吸引了GPU供应商将重点转移到AI处理硬体加速的开发。efUesmc
然而AI硬体加速的问题,在于有如此多的资料,所需的准确性和回应时间又有如此大的差别,设计人员必须对于架构的选择非常讲究。例如资料中心是资料密集型的,其重点是尽可能快速处理资料,因此功耗并非特别敏感的因素——尽管能源效率有利于延长设备使用寿命,降低设施的整体能耗和冷却成本,这是合理的考量。百度的昆仑(Kunlun)处理器耗电量为100W,但运算性能达到260 TOPS,就是一款特别适合资料中心应用的处理器。efUesmc
接下来看另一个极端的案例。如关键字语音辨识这样的任务需要与云端连结,以使用自然语言识别来执行进一步的命令。现在这种任务在采用法国业者GreenWaves Technologies之GAP8处理器的电池供电边缘装置上就可以实现;该处理器是专为边缘应用设计,强调超低功耗。efUesmc
介于中间的应用,如自动驾驶车辆中的摄影机,则需要尽可能接近即时反应,以识别交通号志、其他车辆或行人,同时仍需要最小化功耗,特别是对于电动车来说;这种情况或许需要选择第三种方案。云端连结在此类应用中也很重要,如此才能即时更新所使用的模型和软体,以确保持续提高准确度、反应时间和效率。efUesmc
正因为这是一个在软、硬体方面都迅速发展,需要在技术上持续更新的领域,并不建议将AI神经网路(NN)加速器整合到ASIC或是系统级封装(SiP)中——尽管这样的整合具有低功耗、占用空间小、成本低(大量时)和记忆体存取速度快等优点。加速器、模型和神经网路演算法的变动太大,其灵活性远超过指令导向(instruction-driven)方法,只有像Nvidia这种拥有先进技术、资金雄厚的玩家才能够负担得起不断在硬体,而在硬体上根据特定方法进行反覆运算。efUesmc
这种硬体加速器开发工作的一个很好的例子,就是Nvidia在其Tesla V100 GPU中增加了640个Tensor核心,每个核心在一个时脉周期内可以执行64次浮点(FP)融合乘加(fused-multiply-add,FMA)运算,可为训练和推理应用提供125 TFLOPS的运算性能。借助该架构,开发人员可以使用FP16和FP32累加的混合精度(mixed precision)进行深度学习训练,运算速度比Nvidia自家上一代Pascal架构高3倍。efUesmc
混合精度方法很重要,因为长期以来人们已经认识到,虽然高性能运算(HPC)需要使用32~256位元FP的精确运算,但深度神经网路(DNN)不需要这么高的精度;这是因为经常用于训练DNN的反向传播演算法(back-propagation algorithm)对误差具有很强的弹性,因此16位元半精度(FP16)对神经网路训练就足够了。efUesmc
此外,储存FP16资料比储存FP32或FP64资料的记忆体效率更高,从而可以训练和部署更多的网路,而且对许多网路来说,8位元整数运算(integer computation)就足够了,对准确性不会有太大影响。efUesmc
这种使用混合精度运算的能力在边缘甚至会更实用,当资料登录的来源是低精度、低动态范围的感测器——例如温度感测器、MEMS惯性感测器(IMU)和压力感测器等——还有低解析度视讯时,开发人员可以折衷精度以取得低功耗。efUesmc
可扩充处理(scalable processing)的概念已经扩展到更广泛的网路——利用雾运算(fog computing)概念,透过在网路上的最佳位置执行所需的处理,来弥补边缘和云端之间的能力差距;例如可以在本地物联网(IoT)闸道器或更接近应用现场的本地端伺服器上进行神经网路影像处理,而不必在云端进行。这样做有三个明显的优势:一是能减少由于网路延迟造成的时延,二来可以更安全,此外还能为必须在云端处理的资料释出可用的网路频宽;在更高的层面上,这种方法也通常更节能。efUesmc
因此,许多设计师正在开发内建摄影机、影像预处理和神经网路AI讯号链(signal chains)功能的独立产品,这些产品仅在相对较闭回路(closed-loop)的运作中呈现输出,例如已识别标志(自驾车)或人脸(家用保全系统)。在更极端的案例中,例如设置在偏远或难以到达之处,以电池或太阳能供电的装置,可能需要长时间地进行这种处理。efUesmc
efUesmc
图2:GreenWave的GAP8采用9个RISC-V处理器核心,针对网路边缘智慧装置上的低功耗AI处理进行了最佳化。
(图片来源:GreenWaves Technologies)efUesmc
为了帮助降低这种边缘AI影像处理的功耗,GreenWaves Technologies的GAP8处理器整合了9个RISC-V核心;其中一个核心负责硬体和I/O控制功能,其余8个核心则围绕共用资料和指令记忆体形成一个丛集(如图2)。这种结构形成了CNN推理引擎加速器,具备额外的RISC-V ISA指令来强化DSP类型的运算。efUesmc
GAP8是为网路边缘的智慧装置量身打造,在功耗仅几十毫瓦(mW)的情况下可实现8GOPS运算,或者在1mW时可实现200 MOPS运算;它完全可以用C/C++语言来编程,最小待机电流为70nA。efUesmc
RISC-V开放性硬体架构在一开始遭到质疑,因为那需要一个忠实稳固的使用者社群,以提供一系列丰富的支援工具和软体;而随着该架构透过各种测试晶片和硬体实作吸引更多开发者加入,那些质疑也逐渐消退。RISC-V吸引人之处在于它正成为Arm处理器的强劲对手,特别是在超低功耗、低成本应用上;只要谈到低成本就会锱铢必较,因此免费方案总是会感觉比需要支付授权费的方案更好。efUesmc
不过虽然RISC-V架构的GAP8可以节能并且针对边缘神经网路处理进行了高度最佳化,从系统开发的角度来看仍然需要考虑周边功能,例如摄影机感测器本身和网路通讯介面,以及是采用有线还是无线技术等;依据系统通讯和处理影像的次数频率,这些功能占用的功耗比例可能较高。根据GreenWaves的说法,GAP8若采用3.6Wh的电池供电,能以每3分钟分类一张QVGA影像的频率持续工作长达10年;但该数字并未考量整体系统中其他因素的影响。efUesmc
GreenWaves将其GAP8处理器与采用Arm Cortex-M7核心、运作频率216MHz的意法半导体(ST)处理器STM32 F7进行了直接比较(图3);两者以CIFAR-10资料集的影像进行训练,权重量化为8位元定点(fixed point)。efUesmc
efUesmc
图3:GreenWaves Technologies的GAP8与ST的STM32 F7处理器性能比较。
(图片来源:GreenWaves Technologies)efUesmc
虽然GAP8因为拥有八核心架构而呈现更高效率,并能以较低时脉速率与更少的周期实现推理,Arm架构也不遑多让──Arm已经发表了针对行动装置和其他相邻、网路边缘应用的机器学习(ML)处理器,其应用场景包括AR/VR、医疗、消费性电子产品以及无人机等;该架构采用固定功能引擎(fixed-function engines)来执行CNN层,并采用可程式化层(programmable layer)引擎来执行非卷积层以及实现所选基元(primitive)和运算子(operator),参考图4。efUesmc
efUesmc
图4:Arm的ML处理器设计用于CNN类型固定功能以及可程式化层引擎的低功耗边缘处理。
(图片来源:Arm)efUesmc
有趣的是,ML处理器是以高度可扩充架构为基础,因此同一处理器和工具可用于开发从物联网到、嵌入式工业和交通,到网路处理和伺服器等各种应用,运算性能要求从20 MOPS到70 TOPS以上不等。efUesmc
如果开发团队希望从云端往下扩充,或从边缘往上扩充,那么这种可扩充性比较适合之前讨论的雾运算概念。此外该处理器本身与主流神经网路学习框架紧密整合,例如Google的TensorFlow和TensorFlow Lite,以及Caffe和Caffe 2;它还针对Arm Cortex CPU和Arm Mali GPU进行了最佳化。efUesmc
透过ML处理器,Arm还强调了异质(heterogenous)方法对AI应用之神经网路的重要性,但仅限于其CPU和GPU的狭窄范围内。从更广泛的角度来看,英特尔(Intel)的OpenVINO (Visual Inference & Neural Network Optimization,视觉推理和神经网路最佳化)工具套件可以实现异质混合架构的开发,包括CPU、GPU与FPGA,当然还有英特尔自家的Movidius视觉处理器(VPU)和基于Atom的影像处理器(IPU)。利用通用API以及针对OpenCV和OpenVX最佳化的呼叫(call),英特尔声称其深度学习性能可以提高19倍。efUesmc
异质方法对于针对AI的神经网路处理既有好处又不可或缺...efUesmc
微信扫一扫,一键转发
关注“国际电子商情” 微信公众号
国际电子商情8日讯 软银集团(SoftBank)以65亿美元(含债务)估值对美国芯片设计公司Ampere Computing LLC的收购交易接近达成,最快可能在本月官宣。交易若最终完成,将成为2025年全球半导体行业最具标志性的并购事件之一……
全球芯片市场的激烈竞争中,中国芯片产业迎来了历史性突破。2024年,中国芯片出口首次突破1万亿元大关,成为全球市场的焦点。然而,尽管成绩斐然,高端芯片的进口依赖仍然显著,未来的挑战依然严峻……
半导体对于原始设备制造商(OEM)来说正变得至关重要,因为它们提供了现代汽车中已成为标准配置的电子功能。
国际电子商情讯,根据美媒近日披露,英伟达新一代Blackwell AI GPU已经面临延迟交付,并遇到了配套服务器过热的问题,客户担忧没有足够的时间让新数据中心启动和运行。
通过收购 Flex Logix,ADI 显著增强了数字产品组合
国际电子商情23日讯 据外媒报道,总部位于英国的Arm Holdings Plc拟取消与高通的长期合作,不再允许高通使用Arm的知识产权来设计芯片。对此,高通和Arm双方也都给予了强硬的回复……
国际电子商情16日讯 有消息称,由于上游产能紧张及供应商价格上涨,国产应用处理器厂商瑞芯微电子发出产品调价通知,即日起对部分芯片产品价格统一上调0.8美元(约合5.7元人民币),未交付订单将按新价格方案执行……
国际电子商情15日讯 根据市场调查机构Counterpoint Research的最新报告,2024年第三季度全球个人电脑(PC)市场出货量达到了6530万台,实现了1%的同比增长和5%的环比增长。
根据IPnest在今年4月最新发布的“设计IP报告”,2023年全球设计IP市场收入达到了70.4亿美元,其中许可(License)费用增长14%,版税(Royalty)费用下降6%,这也是继2021年增长20.4%、2022年增长20.9%之后,IP行业营收再次实现年度增长。
国际电子商情10日讯 有消息称三星电子的晶圆代工业务正面临着严峻的挑战,3纳米制程良率偏低和客户流失,导致代工业务陷入困境,并且接连出现亏损的情况……
自从英特尔宣布第二季度业绩以来,该公司一直备受关注,行业中也有很多关于英特尔的传言和猜测。9月17日凌晨,英特尔CEO帕特·盖尔辛格发表致员工的一封信,阐述了下一阶段英特尔转型的计划。
国际电子商情14日讯 据外媒报道,在与美国官员达成协议后,英特尔公已经获得高达35亿美元的联邦拨款资格,用以推动五角大楼这项名为“安全飞地”(Secure Enclave)的秘密项目……
近日,Tokyo Electron(以下简称“TEL”)宣布,将在日本宫城县建造一座新的生产大楼,由TEL的制造子公司TEL宫城公司
近日,北京大学物理学院杨学林、沈波团队,联合宽禁带半导体研究中心等多个科研机构,在氮化镓外延薄膜中位错的原
数据中心/云计算可以说是人工智能领域的核心,占据了英伟达总收入的85%~90%。
近日,重庆市人民政府办公厅印发《重庆市推动经济持续向上向好若干政策举措》,提出支持科技领军企业、产业链龙
2月10日消息,据彭博社记者马克·古尔曼报道,苹果公司取消了一款与Mac连接使用的AR眼镜项目,但仍在积极推进独立
韩国媒体TheBell报道,三星正在为旗下自研处理器Exynos2600投入大量资源,以确保其按时量产。
尽管全球平板电脑市场在2024年的大部分时间都保持着两位数的增长,但在2024年Q4,平板电脑出货量仅同比增长3%。
2月7日,日本AR眼镜光学厂商Cellid宣布,公司通过定向增发完成总额1300万美元(约人民币9478.95万元)的融资。
近日,多家媒体发布消息称,瑞芯微前副总经理陈锋将出任Arm在中国的合资公司安谋科技首席执行官(CEO)一职。
美国市场研究机构Gartner发布2024年全球半导体厂商营收排行榜。
随着传统扩展方式的成本和复杂性上升,先进封装已成为满足人工智能(尤其是大型语言模型训练)性能需求的一种方式
2024年Q4,全球笔记本电脑出货量同比增长了6%,达到5450万台。
英飞凌位于曼谷南部沙没巴干府的新后道厂破土动工,该厂将扩大公司在亚洲的生产布局。
2024年,集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化
雅加达,印尼- 2025年1月14日 - 全球技术解决方案供应商艾睿电子(Arrow Electronics)与印尼初创协会合作(STARFIN
无畏挑战 共创未来祥龙回首留胜景,金蛇起舞贺新程。在2025年元旦新年之际,深圳市凯新达科技有限公司(以下简
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准;
配套USB网关,轻松实现Wi-
随着与三安光电的碳化硅合资工厂落地重庆,2024年6月,意法半导体与重庆市彭水自治县同步启动了可持续发展合作
凯新达科技 自由之旅 征途同行
NVIDIA Jetson Orin™ Nano Super 开发者套件是一款尺寸小巧且性能强大的超级计算机,重新定义了小型边
德州仪器今日推出了全新的集成式汽车芯片,能够帮助各个价位车辆的驾乘人员,实现更安全、更具沉浸感的驾驶体验
广州飞虹半导体科技有限公司成立于广州越秀区,诚信经营20多年。主要研发、生产、经营:场效应管、三极管等半
近日,半导体存储品牌企业江波龙与工业和信息化部电子第五研究所(中国赛宝实验室,以下简称“电子五所”)在江波龙
深圳迈巨微电子有限公司深耕锂电池管理芯片领域,围绕电池健康和安全,电池电量计算二个核心技术能力,提供完善的
点击查看更多
北京科能广告有限公司深圳分公司 版权所有
分享到微信
分享到微博
分享到QQ空间
推荐使用浏览器内置分享
分享至朋友圈