越来越重要的GPU

在传统GPU市场中,永远都存在着对更佳视觉用户体验的追求,包括更高的显示分辨率、更新率和更佳的像素效果,所以很多设备都要求采用更佳的GPU。而在部分新兴领域,GPU IP的应用同样不可避免,比如VR/AR的成功就依赖于高质量图形性能,而且必须具备显示功能。在这样的领域中,没有GPU是不行的,所以GPU应用延伸至这些行业也不足为奇。

但在Imagination业务开发高级工程经理Rys Sommefeldt看来,更加有趣的话题是GPU在IoT和可穿戴设备等领域中的应用。这些应用虽然也可能具有显示性能,但其分辨率需求低,CPU就足以实现相应的性能。有些设备甚至可能都没有显示功能,比如海量的IoT产品和服务器应用等。

GPU的利用往往取决于以下两个关键因素:功耗以及CPU无法满足的计算性能需求。Rys Sommefeldt认为,对于具备显示功能的可穿戴设备(例如智能手表),使用GPU可在满足性能需求的同时降低设备功耗,从而改善可穿戴设备中最重要的因素—电池寿命;而对于没有显示功能的应用来说,使用GPU基本意味着设备有相应的计算需求,而这些需求与GPU架构和它的运行方式高度契合。在这些应用场景中,对像素的追求并不是使用GPU的主要目的。

“图形密集的游戏、动画和应用已经成为消费者移动体验中的重要部分,视觉互动是他们与所依赖的移动终端之间的主要联系界面,而图形正是该界面的核心。”Qualcomm产品市场总监王宇飞说,这正是为什么一体化设计的骁龙处理器中包含Adreno GPU的原因,因为它能加速复杂几何结构的渲染,从而在低功耗下提供相片级逼真的图形和丰富的用户体验。 20161028-GPU-3 Qualcomm 产品市场总监王宇飞

集成于骁龙820处理器中的Adreno 530是Qualcomm迄今为止所设计的性能最佳的GPU,可用于智能手机、无人机、机器人等众多领域。例如,Qualcomm骁龙TM650 IP摄像头参考设计是一款完整的4K联网摄像头,支持64位异构计算,支持包括从以太网到X8 4G LTE的全面广泛的连接,还支持先进的视频分析,包括运动与面部检测、面部识别、物体追踪和Zeroth目标分类。

在另一个案例中,得益于骁龙800系列集成的Adreno视觉处理、Hexagon数字信号处理、Spectra计算机视觉和全新的惯性传感器内核,Qualcomm在一款由骁龙820处理器支持的头戴式显示器(HMD)上首次展示了六自由度(6DOF)运动追踪。

ARM多媒体处理部门GPU产品经理Espen Oybo对此给出的观点是,此前,在设备中配置GPU并不认为是必需或是高性价比的,因为CPU本身可以处理一些简单的图形任务,而减少芯片体积和降低功耗显得更加重要。然而,随着GPU技术的不断进步,人们发现GPU不仅能提供更佳的用户体验,也能释放CPU的处理能力,使其更专注于关键任务,并显著的减少了芯片体积、功耗和带宽消耗。

Mali超低功耗GPU是ARM产品家族中的重要成员,能够帮助设备在有限功耗条件下,完美的实现性能和功耗平衡,从而在可穿戴和物联网市场获得出色的图形体验。而全新推出的Mali-G71高性能GPU则采用新一代Bifrost架构,适用于AR/VR等需要高性能的领域。

除了图形处理,GPU要不要尝试一下通用计算?

Rys Sommefeldt在接受采访时称,承担更多计算任务将是GPU发展的必然趋势。相比于主要应用于通用目标计算上的传统渲染场景,AR/VR带来了更多整体渲染和视觉处理系统的需求。尽管它仍旧是图形相关的通用目标计算,但已经不属于传统光栅化。因此,具备在单一渲染框架中混合GPU和计算负荷的GPU微架构,来满足不同水平的需求,这一点非常重要。

应用在PowerVR Wizard GPU中的光线追踪技术是Imagination的“杀手锏”之一,尤其适合于AR/VR等非传统应用场景的使用。它可以将渲染完成的图像根据人眼效果进行调整,并将之扭曲提供恰当的输出,以适应特定的视觉系统—无论是镜头还是人眼。相比于在单独GPU上运行同样的负载,该技术具备在硬件光线追踪器上运行扭曲平台,并与GPU一道形成独特的优势。 20161028-GPU-1 ARM多媒体处理部门GPU产品经理Espen Oybo

每个产品对GPU的要求都不尽相同,一些只需显示简单的用户界面,而另一些产品则需要支持高端3D游戏的运行。有鉴于此,ARM Mali系列GPU满足了低功耗可穿戴设备、高端智能手机和要求高性能且独立的虚拟现实头盔这三大类产品的不同需求,并通过在核心数量和配置选项方面的可扩展性,赋予合作伙伴在设计特定产品时实现功耗和效率的平衡。

“AR/VR的复杂性确实对移动SoC组件提出了很高的要求,我们希望通过Brifrost GPU架构来满足这些要求。”Espen Oybo说尽管目前数量有限,但ARM已经看到一些采用通用图形处理器(GPGPU)来进行任务处理的案例,这是因为在现有API和硬件条件下实现GPU和CPU之间的数据共享较为困难,很难淋漓尽致的发挥GPU的作用。但随着OpenCL 2.0的出现,在高性能Bifrost架构中增加全系统一致性,将便于GPU和CPU通过高效的共享内存实现彼此“沟通”,让GPU和CPU在各种规模计算任务中的合作更加高效,避免了CPU缓存清理的间接费用。

性能与功耗,两者必须得兼

上述这些细分领域有些属于快速变化的高存量市场,有些属于拥有很大创新空间的新兴市场,但它们都依赖于高性能GPU在最低功耗下的性能表现。换句话说,如何在带给用户最佳性能体验的同时更兼顾低功耗特性,正成为各家公司实力比拼的焦点。

根据多年来提供GPU授权设计的经验,Rys Sommefeldt说自己认识到很多时候市场所需要的与实际创造出来的产品并不一致。“每个人都希望看到一定的改变,即使只是很小的变化,但我们又无法准确预测客户所期望的目标性能水平、功耗和领域,这就是这个行业的本质。所以,可扩展的、模块化的可调节GPU设计是必须的。”

对于GPU来说,最关键的可扩展因素永远是性能,例如浮点数量和GPU可处理的像素数量。因此,通过在设计中提供多种水平的性能,用户就有机会以最少的精力和时间来应对市场中新的配置需求,并使自己得以跳出原本的领域和产品计划。

Imagination最新推出的块状延迟渲染微架构是专为在渲染过程中降低工作量而设计的。该架构不对隐藏的像素内容进行着色内容处理,意味着无需耗费电源来运行ALU和获取寄存器组,从而带来了功耗方面的大幅降低;也无需提供纹理模型和写出用于中继缓冲或最终图形的像素,极大地节省了存储需求。 20161028-GPU-2 Imagination业务开发高级工程经理Rys Sommefeldt

“就算是不靠电池供电工作的终端,也需要出于散热和工业设计的考虑去尽量减小功耗。” 王宇飞表示,Adreno GPU的关注点一直是要提供每一份能量(每毫瓦)的绝对最佳性能,这也是所有移动市场细分领域的根本推动力。最新的Adreno 5xx GPU既支持Khronos最新图形API Vulkan,能在CPU低消耗状况下实现高级图形内容,也支持最新计算API OpenCL 2.0 FP的所有特性,以应对各种GPGPU应用。

帮助合作伙伴在功耗和效能间取得适宜其产品的最佳平衡,对于ARM而言是至关重要的。最初设计时,Mali-400是首款配置Mali-200 GPU的多核GPU,市场的反馈很快证明了这个策略是正确的。在随后的设计中,基于高端Midgard架构的GPU,诸如Mali-T880,可以从单核拓展至16核,而全新的Mali-G71基于Bifrost架构,更能够支持32核。

当今最高端的智能手机已经实现了12个内核的配置,用以支持AR/VR等新兴应用,它们的严苛要求正在不断推动电源功耗突破极限。所以Espen Oybo认为,额外的可用核是非常有必要的,它不仅能轻松的支持高端应用,同时也为其应对日益增加的内容复杂性预留了空间。除了数量外,内核在配置方面还有很多灵活空间,如何在这一过程中实现功率、性能和效能的平衡,从而能够提供另一个层面的可定制选项,帮助用户根据自己的市场需求进行自由调整,也是非常关键的要素。

设计增值,才能活下去

GPU IP属于设计复杂,离开生态系统就无法生存的IP类型,所有受访者也均对此表示认可。王宇飞说,Qualcomm的主要目标之一就是为移动开发者提供尽可能多的价值。通过与生态系统中的合作伙伴密切合作,以保证中间件引擎是高效的,且针对Adreno实现优化。高通还为开发者们开发资源,缩短他们在Adreno GPU上的开发时间:既有像骁龙Profiler这样特性丰富的工具,在开发周期的所有方面提供帮助;也有SDK来帮助开发者获得先进的技术,骁龙VR SDK就是一个例子,能让开发者们利用它开发HMD和面向专用HMD的内容。

近年来,Imagination在为客户提供硬件、软件和市场方面的产品支持上也取得了巨大的成就。包括提供专门的硬件设计团队与客户、晶圆代工长沟通合作,以确保实现最佳的片上性能;战略软件团队与客户和开发者共同创建可为PowerVR提供明确策略优势的软件产品;细分市场营销专家充分理解客户的目标应用细节,展示PowerVR在相应领域的巨大价值等。

ARM是一家依托庞大生态系统生存的公司,这一特点无论对于GPU还是CPU来说都至关重要。一方面,ARM与EDA合作伙伴和代工厂紧密协作,帮助芯片伙伴便捷的实施GPU。另一方面,通过软件生态系统为程序员提供最好的Mali体验。“正因我们拥有如此庞大的生态系统(包括实施和软件),ARM的合作伙伴们能在众多生态系统所提供的不同选择中自由选取,从而实现他们产品的差异化。”Espen Oybo说。

20160719-ESMC-1