过去四年中,计算领域发生了令人惊叹的发展。以ARM为例,在已经出货的1000亿颗基于ARM的芯片中,有500亿颗是由ARM的合作伙伴在2013年到2017年间完成出货的。“这个数字充分反映了整个行业目前对于更多计算的需求。”ARM副总裁暨计算产品事业部总经理Nandan Nayampally说,ARM的成功缘于良好的生态系统和自身架构的高拓展性,能够覆盖从传感器到服务器的广泛应用,他们将其称之为全面计算(Total Computing)。

20170405-ARM-1 Nandan Nayampally预计其合作伙伴将在2021年完成下一个1000亿颗基于ARM的芯片出货,在很大程度上这将归功于人工智能在人们日常生活中的广泛应用。“未来,人工智能将无处不在,数据处理能力不能完全依赖于云端,设备本身也要具有人工智能的计算能力,功耗还要更低。”为此,ARM在big.LITTLE技术基础之上,推出了全新的DynamIQ技术。

与其将DynamIQ称之为一种技术,倒不如将其称之为“微架构”。ARM对DynamIQ给出的官方定义是:作为未来ARM Cortex-A系列处理器的基础,DynamIQ代表了多核处理设计行业的转折点,其灵活多样性将重新定义更多类别设备的多核体验,覆盖从端到云的安全、通用平台。该技术未来将被广泛应用于汽车、家庭以及各种互联设备中,这些设备所产生的以泽字节(ZB,一泽字节大约等于1万亿GB)为计算单位的数据,会在云端或者设备端被用于机器学习,以实现更先进的人工智能,从而带来更自然、更直观的用户体验。

2005年,ARM在业界推出了革新式的产品—多核ARM11,第一次实现了在单一群集中支持四个内核用于嵌入式系统;6年后,big.LITTLE技术问世,为主要计算设备的多

核特性带来了革新。但它的弊端在于不能够对单一计算集群上的大小核进行配置,例如就无法实现1+3或者1+7的SoC设计配置,这对异构计算和具有人工智能的设备来说是非常不利的。而最新的DynamIQ微架构则突破了这一瓶颈,被视作big.LITTLE技术的一次重要演进。

ARM给出的相关数据显示,第一代采用DynamIQ技术的Cortex-A系列处理器在优化应用后,将可实现比基于Cortex-A73的设备高50倍的人工智能性能,并最多可提升10倍CPU与SoC上指定硬件加速器之间的反应速度。究其原因,是因为在新架构中,每个核都可以有各自不同的性能特性,SoC设计者可以通过对每一个处理器进行独立的频率控制,高效地在不同任务间切换最合适的处理器。同时,全新设计的内存子系统也帮助实现了更快的数据读取和全新的节能特性。

考虑到DynamIQ微架构允许在单个群集中最多部署8个内核,Nayampally更看好其在企业级应用中的潜力。他解释说,由于硬件尺寸和软件线程的限制,移动应用方面应该不再需要超过8个核以上的计算能力了,单一群集已经足够。但企业级应用对于内存容量、I/O吞吐量和带宽是有高要求的,而DynamIQ正好解决了这一问题。接下来,SoC设计人员完全可以利用Corelink和Cache Coherent Interconnect等技术形成3-8个集群的多核设计,充分释放其强大的计算能力,从而为机器学习和人工智能应用带来更快的响应速度。

那么,DynamIQ技术能不能够帮助ARM在服务器芯片市场做得更好?“这是个好问题,但我们可能还得再等等。”Nayampally回应称,目前的云端服务器通常采用多芯片架构,因此通用型处理器加专用AI加速器模块的组合,可能会是更佳的选择,DynamIQ的优势会更多体现在青睐片上系统设计的智能手机等设备中。当然,他也特别强调了安全,比如DynamIQ微架构除了能为ADAS解决方案带来更快的响应速度外,也能同时增强安全性,确保合作伙伴能够设计ASIL-D合规系统,即使在故障情况下仍可以快速恢复并能够安全运行。

在回答媒体“一些专用的人工智能芯片(SoC/ASIC)是否会对DynamIQ带来挑战?”这一问题时,Nayampally称,人工智能技术目前还在快速的演进发展中,包含了各种各样的多元化算法,场景应用也很多元化。DynamIQ更强调两方面的价值:一是能够实现通用处理器在AI性能方面的提升,二是能够实现通用处理器和专用加速模块之间快速的响应和连接。所以,整个片上系统本身针对AI的性能就能够得到提升,这对那些体积受限的小设备而言是非常重要的。言外之意,ARM新架构与专用AI加速器模块的组合,有可能是未来SoC设计比较好的选择之一。

DynamIQ技术将在今年晚些时候正式推出,2018年将率先被用于智能手机、汽车以及其它嵌入式系统中。

2017-ESM-1