您现在的位置：首页 > 电子资讯 >设计应用 > 针对于高端移动通信和汽车市场的四集群设计

针对于高端移动通信和汽车市场的四集群设计

2018-04-04

类别：设计应用

309

拍明

去年Imagination推出了最新的图形架构Furian，自2012年来首次对PowerVR进行了重大更新。这意味着在满足越来越多的器件性能需求方面迈出了重要的一步，尤其对于一些新的应用场景比如AR、VR和AI，这使得PowerVR在嵌入式GPU中保持最高的功效和性能。

Furian在设计之初就考虑到了可扩展性，无论着色处理单元(SPUs)的数量如何都能确保性能和面积效率的一致性。在这篇文章中，我们将特别关注该架构的功效，以及是如何确保在每瓦特性能方面领先于其他竞争对手。

继Furian架构之后我们推出了第一个基于Furian的处理器核并且提供授权——PowerVR GT8525，现在我们又推出了PowerVR GT8540——这是一款针对于高端移动通信和汽车市场的四集群设计。

与目前高端智能手机和平板电脑上的多核设计相比， PowerVR GT8525中包含了双集群的单一着色处理单元(SPU)，作为第一款用于授权的Furian架构GPU来说是一个相当合适的选择。然而它不应该被低估，这款单SPU设计的性能已证明了Furian架构对游戏的影响。

作为技术发烧友我们致力于开发领先的图形设计，Imagination的高端产品一直拥有大量粉丝。事实上我们很多人口袋中都装着性能强大的高端设备。然而这类设备在价格上无疑是昂贵的，而且越来越多的人认为对于大多数人来说成本低、价格合适、有足够功能的产品更加的适用，这在很大程度上要精确到GPU，我们推出的PowerVR GT8525正适合这样的“超级中端”市场。

对于很多人来说，一款价格合理的设备能够提供足够的性能来处理日常任务，比如网页浏览、查看社交媒体以及流畅的操作一些复杂的视觉游戏。它们甚至足以让用户体验一些新的应用，比如基于AR、VR和AI的应用。更重要的是中端市场的SoC传统上并不会采用先进的制造工艺，这将限制它们可用的功耗预算，因此采用更小型的GPU更可取。正是因为如此，这使得PowerVR GT8525的发布成为SoC供应商理想的GPU，这得益于它在性能和效率之间的理想平衡。

架构效率

然而在功效方面真正使我们能够保持领先优势是因为建立在Rogue基础上的Furian架构所带来的变化和提升。这些变化为的是优化内部效率，能够在给定的功耗要求下提供更多的性能。

PowerVR Series8XT：将功效提升到一个新的水平.png

更高效的SPU

其中一个变化是在着色处理单元(SPU)，它被重构建以更高效的使用算数逻辑单元(ALU)。正如上图所示纹理单元已经有自己的缓存，确保在访问数据时不需要与统一着色集群(USCs)发生竞争——结果就是使用更低的功耗同时提高吞吐量效率。纹理单元目前具有双倍的填充效率，每个时钟处理8个像素单元，仅在面积上略有增加。

2D Data Master(数据管理)

另一个提升是关于2D的数据管理(2D Data Master)，2D Data Master第一次引入是在Series7XT，在这个有了进一步的提升。现在它完全采用异步处理，内核利用率和功效更高。它允许独立提交2D工作任务，绕过所有Tile(贴片)的工作开销(比如调用3D来处理2D任务时)，这使得像创建UIs等场合的效率大大提高——而且最重要的是这有助于降低功耗。

管道流加倍

另一个提高整体效率的主要原因是对主要ALU管道的改变(见下图)。管道数据位宽进行了加倍，从16增加到32——每个时钟的吞吐量也加倍了。但关键的是由于内部设计的精简和更多的共享控制逻辑，它并不会占用两倍的硅面积。在Rougue架构中这个管道包括两个乘加功能模块(MADs)。然而在仔细分析了开发人员编写的着色器和内核代码之后，很明显的发现这两个MADs很少被充分利用，因为对于编译器来说同时使用两个MADs是很困难的。

图片.png

因此在Furian架构中我们实现了一个MAD和一个MUL，在实际情况中能够提供更多的性能，同时控制硅面积的成本在严格的范围内。在一些场景可能需要两个MAD操作，Furian采用的双倍带宽管道能够提供匹敌Rogue架构的性能(16×2 MADs = 32×1 MAD)，因此在这个意义上说即使在最坏的情况下我们也并没有失去什么，大多数情况下带来的是吞吐量的显著提升。

减少延迟

变化还不止于此，现在GPU驱动程序和GPU之间的函数调用不再需要通过OS(操作系统)内核层了，采用的是“用户模式队列”直接进行通信，降低了开销和延迟，从而再次降低了功耗。

针对于高端移动通信和汽车市场的四集群设计.png

除此之外，现在GPU支持对更多本地内存地址的同步访问，这意味着每个ALU管道都可以直接访问它们所需的内存区域而不需要停机。

针对于高端移动通信和汽车市场的四集群设计.png

结论

那么这些变化的结果是什么呢?从下图中我们可以看到采用目前流行的行业标准Kishonti GFXBench Manhattan 3.0 benchmark进行测试，Series8XT GT8525比PowerVR GT7450提供更多的fps/W参数，我们上一代等效GPU与之前的15fps相比可以达到35fps(fps(每秒帧数)指的是游戏在设备上运行的流畅程度，数字越大表示终端用户的体验越好)。更小的硅片面积(如下图更小的圈所示)也是另一个优势。

针对于高端移动通信和汽车市场的四集群设计.png

PowerVR GT8525 vs GT7450 – Manhattan 3.0 FPS vs FPS/W 和面积

尽管功效是GPU的一个重要的综合测量指标，但同样重要的是绝对功耗，移动设备的SoC功耗一般被限制在3—3.5W，其中GPU占功率消耗的30%—50%。估计在35fps/W的情况下，Series8XT GT8525采用中端SoC制造工艺TSMC 10FF能够实现一个合适的功耗值，GPU的功耗控制在1.5W以下。

为了更直观的展现，针对我们上一代的Series7XT，我们期望在实现相同性能指标(iso性能)的基础上，Series8XT GT8525比Series7XT GT7450降低60%的功耗，这意味着性能功耗比将达到令人难以置信的75%!对于终端用户来说，这意味着他们的设备将能够持续使用更长的时间，尤其对于一些使用场景比如玩游戏。

当然我们业界领先的功效特性是基于我们的TBDR(分块延迟渲染)技术，我们只需要渲染屏幕上能够看到的像素，这也是Furian架构所采用的的技术。如果你想了解更多，请查看我们之前的博客文章：深入探究TBDR。

总结

正如你所看到的，Furian架构所引入的这些变化使得PowerVR Series8XT GT8525具有非常高的性价比，提高了大部分市场的器件门槛。我们已经向关键客户授权了我们的首款Series8XT内核，我们期待在2018年提供更多选择。

责任编辑：Davia

【免责声明】

2、本文的引用仅供读者交流学习使用，不涉及商业目的。

3、本文内容仅代表作者观点，拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为，是基于自主意愿和独立判断做出的，请读者明确相关结果。

4、如需转载本方拥有版权的文章，请联系拍明芯城（marketing@iczoom.com）注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

上一篇：一款基于帧捕捉的开源图形调试器应用设计

下一篇： MEMS磁传感器主元件SEM电连接及设计

标签：移动通信汽车电子智能手机