广告

黑科技FPGA+中的“+”究竟是什么?

根据市场调研公司Semico Research的预测,FPGA在人工智能应用中的市场规模将在未来4年内以38.4%的年复合增长率高速增长,至2023年达到52亿美元的规模……

根据市场调研公司Semico Research的预测,FPGA在人工智能应用中的市场规模将在未来4年内以38.4%的年复合增长率高速增长,至2023年达到52亿美元的规模。Achronix Semiconductor公司总裁兼首席执行官Robert Blake日前援引《华尔街日报》的文章称,约有25%的企业愿意选择人工智能或机器学习(AI/ML)以保持企业自身竞争力,未来2年内,会有72%的企业选择布局AI。

1.jpg

FPGA在AI应用中的增长率预测

但与此同时,AI算法的不断演进,数值精度选择日趋多样性,仅依赖数据格式的转变去降低能耗的方法已接近瓶颈,市场需要更具有高效计算力、高效大带宽数据运送能力和高效丰富储缓存能力的广适应性平台。

为此,Achronix公司专为高带宽应用设计了全新的Speedster7t FPGA系列产品。这个被Robert Blake称之为“公司历史上最令人激动的发布”的产品,具有一个全新二维片上网络(2D NoC)和一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。

2.jpg

Achronix公司总裁兼首席执行官Robert Blake

按照Robert Blake的说法,在开发Speedster7t系列FPGA的产品过程中,Achronix工程团队针对那些基于边缘和服务器的AI/ML应用、网络处理和存储,完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I/O),确保实现数据密集型应用吞吐量的最大化。

Speedster7t器件采用TSMC 7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。

FPGA+芯片的神奇之处

采用带有DSP引擎的传统FPGA去支持AI/ML应用是业界较为普遍的做法,但Robert Blake认为这种方式得不到高效的数值精度支持,需要消耗额外逻辑和内存资源,性能也受限于FPGA布线,所以他们引入了新的机器学习处理器。

MLP中的大规模可编程计算单元平行阵列是Speedster7t FPGA的核心。作为高度可配置、计算密集型的单元模块,MLP可支持4到24位的整点格式和高效的浮点模式,包括TensorFlow的16位格式,以及可使每个MLP计算引擎加倍的增压块浮点格式。

MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位。

高性能计算和机器学习系统的关键之处,是能为多个数据流提供存储源和缓冲的高片外存储器带宽。作为目前业界唯一支持GDDR6存储器的FPGA,Speedster7t中有多达8个GDDR6控制器,可以支持4Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。

Robert Blake说他们对比了HBM2和GDDR6两个方案,得出的判断是目前HBM2和GDDR6性能差不多,但HBM2成本太高,灵活性差,采用GDDR6能够将成本降低一半。

除了极高的存储带宽,Speedster7t还拥有多达72个高性能SerDes,可以实现1-112Gbps的速度;带有前向纠错(FEC)的硬件400G以太网MAC支持4x 100G和8x 50G的配置;以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。

芯片上方的高速公路网

二维片上网络(NOC)是Speedster7t架构中的另一个重大创新。Robert Blake把它比喻为“就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,用以连接FPGA所有的高速数据和存储器接口。”

举例来说,假若将400G内容传送到以太网比作在传送带上传送盒子,那么影响传输的除了传送带速度,还有盒子的大小。传输速度需要足够快,以确保来得及装包,但盒子越大效率也会越低。传统FPGA在传输400G内容时,无论如何调整传输大小和传输频率,也无法达到以太网的传输曲线,所以传统FPGA器件几乎无法满足超高速的传输条件。

3.jpg

Speedster7t NoC中的每一行或每一列都可作为两个256位实现单向的、行业标准的AXI通道,工作频率为2GHz,同时可为每个方向提供512Gbps的数据流量。这种做法极大简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。更重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈,不仅提高了Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

作为唯一一家既提供独立FPGA芯片又提供Speedcore嵌入式FPGA(eFPGA)IP的公司,Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。

原创
本文为国际电子商情原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE中国区首席分析师。
  • 微信扫一扫,一键转发

  • 关注“国际电子商情” 微信公众号

您可能感兴趣的文章

相关推荐

可能感兴趣的话题