英特尔架构日上的重头戏Xe-HPGGPU:每个矢量引擎在每个周期内

英特尔架构日上的重头戏Xe-HPGGPU:每个矢量引擎在每个周期内

虽然还没有正式进入消费级GPU领域,但Intel已经准备好了一套完整的GPU设计和架构。 高性能GPU包括Xe-HP、Xe-HPC和Xe-HPG,其中Xe-HPG是唯一进入市场的GPU。 游戏市场的重任就是之前经常提到的DG2。

在 2021 年英特尔架构日上,英特尔发布了有关 Xe-HPG 的更多信息。

游戏引擎架构 密码_解密游戏引擎_引擎构筑游戏

新基本单元:Xe-Core

正如之前报道的那样,源自 Xe-HPG 的 Alchemist GPU 的存在正是为了与 AMD 和 NVIDIA 正面竞争。 根据规划游戏开发素材,Intel ARC品牌未来将包含Alchemist、Battlemage、Celestial、Druid等多种架构,打造GPU组合。

引擎构筑游戏_解密游戏引擎_游戏引擎架构 密码

可见Xe-HPG从一开始就开始承担重要的职责。 它不是 Xe-LP 的扩展版本。 相反,英特尔推出了全新的基本模块 Xe-Core。 也就是说,之前的EU或者执行单元已经无法准确表达Intel GPU相关的描述。

Xe-Core可以理解为向量和张量ALU的集合,配备L0和L1缓存单元。 在逻辑层面,它接近Xe-LP子片和NVIDIA SM(流式多处理器)。 如果您对 GPU 有一点了解,您可能知道单元级别不是静态的。 例如,NVIDIA曾经在更新架构时修改了SM级别。

从公布的内容来看,每个Xe-Core将包含16个矢量引擎(VE)和16个矩阵引擎(Xe Matrix eXtensions,XMX)。

我们先来说说矢量引擎。 每个矢量引擎每个周期可以处理 256 位。 如果进一步拆解,每个矢量引擎包含8个FP32 ALU,与Xe-LP EU大致相同。 由于16个矢量引擎每个时钟可以处理128个FP32操作,即FMA吞吐量为256 FLOPS,因此每个时钟的吞吐量也与NVIDIA Ampere GPU的SM相同。

游戏引擎架构 密码_解密游戏引擎_引擎构筑游戏

在Xe-Core中,每16个向量引擎与16个矩阵引擎配对,用于矩阵和张量计算。 这里Intel用了一个专有名词来命名,即Xe Matrix eXtensions,缩写为XMX,可见其重要性。 XMX主要用于AI加速和矩阵/张量计算。 每个XMX引擎都使用8深度脉动阵列系统。 XMX 每个时钟周期执行八次 512 位宽矩阵计算操作。 这些矢量和矩阵引擎由宽负载/存储单元支持,每个时钟周期可检索 512B 数据。 每个Xe-Core具有512KB L1数据缓存。

尽管SM和Xe-Core在矢量吞吐量上不相上下,但Intel的矩阵运算吞吐量是NVIDIA的2倍,并且可以执行两倍数量的ALU,这意味着Intel GPU在矩阵运算和人工智能方面仍然倾向于表现出色。 在计算方面投入更多资源。 但需要注意的是,迄今为止大多数图形着色器都无法使用 XMX。

渲染切片:合成完成 GPU

在Xe-Core的基础上,Xe-HPG的下一层逻辑是Render Slice。 与 Xe-LP 一样,切片为 Intel GPU 提供了大部分功能。

游戏引擎架构 密码_引擎构筑游戏_解密游戏引擎

对于即将发布的 Alchemist,一个切片包含 4 个 Xe-Core、4 个光线追踪单元、4 个纹理采样器、几何/光栅化前端和 2 个像素后端。 这种 4:4:4 布局意味着 Alchemist GPU 中的每个 Xe-Core 都有自己的纹理采样器和光线追踪单元。

同时,英特尔还确认光线追踪单元采用加速光线遍历、相交测试和相交着色计算流程游戏图片,与 NVIDIA RT Core 类似。

从目前来看,完整的Alchemist GPU拥有多达8个渲染切片。 这些片的后端连接的是传统的内存结构,也就是图中的L2缓存。 然而,PCIe接口、媒体引擎、显示控制器和其他外围部分在架构图中尚未可见。 从之前的Linux驱动显示来看,Alchemist GPU将支持DisplayPort 2.0,而Intel也成为第一家支持新DP标准的厂商。

如果按照8个渲染切片计算,明年发布的Alchemist GPU将包含32个Xe-Core、4096个FP32 ALU,支持DirectX 12 Ultimate,拥有XMX矩阵引擎游戏引擎架构 密码,并支持最新标准。 事实上,仅上述论文参数就已经是 DG1 Xe-LP GPU 矢量引擎中 ALU 数量的五倍。

游戏引擎架构 密码_引擎构筑游戏_解密游戏引擎

XeSS:对抗DLSS的王牌

在推出该架构的同时,用于优化游戏图像的Xe Super Sampling(也称为XeSS技术)也被引入大众。 与当前热门的NVIDIA DLSS和AMD FSR类似,它采用了一系列AI优化算法来实现更低的计算资源。 换取更高的性能和图像质量。

游戏引擎架构 密码_引擎构筑游戏_解密游戏引擎

因此,XeSS技术是一种结合空间和时间来改善AI图像的技术。 英特尔在宣布 ARC 品牌之前已经开发了很长时间,该 SDK 将于本月交付给游戏开发者。

从优化性能来看,XeSS技术的主要竞争对手应该是NVIDIA DLSS 2.X。 尤其是考虑到4K显示器越来越便宜,8K显示器内容已经准备好发布。 凭借Alchemist GPU内置的海量XMX,Intel显然从一开始就希望将XeSS做到最好。

解密游戏引擎_游戏引擎架构 密码_引擎构筑游戏

方法上,Intel采用空间数据(相邻像素)和时间数据(上一帧运动物体的向量)结合的方式与神经网络结合进行学习,但是如何处理重影、锯齿等产品这可能导致的 bug 未知。

除了需要XMX硬件支持的版本外,XeSS也在考虑纯软件版本,可以在Xe-LP上付诸实践,让XeSS的技术支持范围更广。 即使像 AMD FSR 兼容 N 卡一样,XeSS 也已成为一种更常见的技术。 正因为如此,英特尔最终计划在某个时间点开源XeSS SDK和相应的工具,以获得更广泛的第三方支持。

引擎构筑游戏_解密游戏引擎_游戏引擎架构 密码

在架构日上,Intel展示了一些XeSS在虚幻引擎中的实际操作视频。 可以看到,XeSS已经能够实现与4K渲染相同水平的1080p分辨率内容。

解密游戏引擎_游戏引擎架构 密码_引擎构筑游戏

值得注意的是,英特尔已经完成了GPU内存管理器和着色编译器的工作,使游戏加载时间缩短了25%,密集型游戏吞吐量提高了18%。 作为一项跨越软件和硬件的技术,XeSS未来必将成为Intel GPU的主要卖点之一。 因此,我们可以看到,XeSS将会在短时间内迅速发展,并最终对NVIDIA DLSS技术构成威胁。

解密游戏引擎_引擎构筑游戏_游戏引擎架构 密码

台积电N6制造

当然,对于Intel来说,能够做出Alchemist GPU并尽快投入市场赚钱,是一件严肃的事情。 在这里,英特尔将制造交给了更具竞争力的台积电7nm工艺。 同时,台积电7nm工艺也用于制造AMD GPU。 NVIDIA采用的是相对落后的三星8nm。

英特尔宣布Alchemist GPU将成为首款采用台积电N6工艺的产品。 本质上,N6是台积电7nm工艺的改进版。 N5工艺虽然功能强大,但经济实惠。 N6工艺基于台积电7nm工艺,将部分DUV层替换为EUV层游戏引擎架构 密码,密度提升约18%。

游戏引擎架构 密码_引擎构筑游戏_解密游戏引擎

如果该GPU真的能够在2022年第一季度发布,那么英特尔Alchemist GPU无疑将成为市场上最先进的GPU,从而帮助英特尔ARC品牌打开市场。

与此同时,英特尔工程师也在研究更高性能的Alchemist GPU,优化逻辑电路设计,以实现节能和更高时钟频率的设计。 从公布的数据来看,相比Xe-LP,英特尔的功耗效率和时钟频率都提高了50%。 时钟频率将在 2.4GHz 左右,介于 NVIDIA 和 AMD 之间。 FP32单精度着色器计算吞吐量容量预计为18.5 TFLOPS,将是Xe-LP DG1的9倍。

解密游戏引擎_引擎构筑游戏_游戏引擎架构 密码

最后:2022 年已准备就绪

作为Intel迈向消费级GPU的第一步,Alchemist GPU仍有许多未解之谜,但从未来多架构发布的节奏来看,Intel已经准备好长期坚持下去了。 毕竟游戏GPU领域不是一手就能搞定的。 它需要匹配游戏工作组、引擎和各种标准,需要长期的积累和进步。

经过DG1的小试炼,DG2无疑又向前迈进了一步。 至于即将推出的Alchemist GPU的性能表现,相信我们很快就会知道。

引擎构筑游戏_解密游戏引擎_游戏引擎架构 密码

文章来源:https://page.om.qq.com/page/OWGLwzXsmcS5Ddb5swr_WhLw0