PFEA112-65 第五代英特尔至强处理器，AI特化的通用服务器CPU

发布日期： 2024-03-18 作者：

2023年年底发布的第五代至强，虽然和第四代至强一样都是基Intel7制程打造的，并采用了Dual-poly-pitch SuperFin晶体管技术，但英特尔依然在关键的技术指标上做了改进，比如系统的漏电流控制和动态电容等。在这些改进下，整体上第五代至强在同等功耗下的频率可以提升3%，其中有2.5%是由漏电流控制贡献的，动态电容下降贡献了0.5%。

除此之外，第五代至强的多芯片封装方式有所改变，第四代至强就是把芯片分为四个部分，这四个部分是相对对称的。而第五代至强的切分方式则做了调整，把切四份的做法变成了切两份。过去每两片之间相互进行通信时，需要有一些芯片互连之间的接口，不仅占用了额外的芯片面积，也额外增加了功耗。如今随着芯片质量控制得到进一步改进，英特尔可以在相对较大的面积下依旧获得很好的良率，所以通过将四芯片改为两芯片的方式，芯片的面积得到了更好的控制。

此外第五代至强的处理核心升级到了RaptotCove核心，核心数从最多的60核升级到64核。在I/O速度上，DDR速度从4800MT/s提升到了5600MT/s，UPI速度从16GT/s提升到20GT/s。而最大的升级之一当属LLC大小，单个模块的LLC容量从1.875MB增加到了5MB。这样如果处理规模较小的数据集时，甚至可以将主要数据放在LLC缓存中，从而大量减少内存访问，进而大幅提高性能。这些架构上的改进，也使其在生成式AI和LLM等AI应用上的性能得到了提升。

通用服务器上跑AI

除了传统的CPU计算核心外，英特尔也增加了AMX加速器，专门针对矩阵运算。根据测试，AI推理的性能与上一代相比提升了至多42%。针对非大模型类的AI应用，英特尔始终致力于在CPU上部署AI，并结合其OpenVINO生态进行优化，比如推荐、语音识别、图像识别等。

而面对推荐系统，尤其是面对GPU也无法单独处理的大模型时，CPU反而更快。因为GPU不够用的时候，玩玩需要跨GPU计算，或者需要和CPU频繁交互，如此一来CPU效率更高。

对于通用的AI工作负载，英特尔采用AMX和AVX-512两个指令集，基于OpenVINO进行优化。在推理的过程中，指令集上可以进行切分，通过加速器定向加速某一部分，甚至可以替代传统的基于GPU的AI模型。

除此之外，还有成本上的考量，在模型调优、推理、应用上，使用通用服务器有非常大的性价比提升。尤其是当企业并不需要24小时都要跑大模型，大模型只是对业务的辅助时，比如聊天机器人、或是内容生成、提纲分析等，这些只是帮助企业业务的生产力提高，尤其是在私有云上，就没有必要再重新部署一个新的GPU的平台。因为一个新的平台意味着需要考虑开发、运维等因素，成本有可能增加，而这对于企业来说也可能会成为负担。

以合作伙伴举例，比如百度云也有基于第五代至强的服务器，提供了可以在CPU上运行的大型计算模型的服务；在京东基于第五代至强的应用中可以看到，和前一代的处理器相比，在Llama2 13B的模型上，看到有50%的性能提升。所以第五代至强在AI上应用的性能提升是比较明显的。

再者就是编解码上的应用，目前主流客户为了达到更好的图像质量，反而会采用CPU做编解码。GPU在拥有硬件加速的情况下，其特点是快，但视频编解码质量往往略差于CPU。通过第五代至强处理器AMX-INT8的加持，已经把吞吐从原来的1.5FPS增强到了33FPS，基本可以满足实时编码的需求。

下一代至强路线图

从路线图上来看，2024年英特尔还会发布新一代英特尔至强可扩展处理器，而且有一个非常丰富的产品组合，同时满足对性能和能耗的要求。基于现在的第五代至强，英特尔也会发布下一代的性能核，就是高主频、高性能的CPU核架构，为主流和复杂的数据中心的应用进行性能优化，尤其是目前有很多程序是跑在虚拟机上，之前写的非常大的程序要跑在性能核上的，才能看到一个非常好的性能提升。

同时对新兴的，尤其是基于云原生的设计，英特尔还提供基于能效核打造的至强处理器，每瓦性能可以做到相对极致，而且因为它的核心设计比较精简，可以放更多高密度的核数到每一款的CPU和服务器，从而支持面向云的高密度超高能效的运算进行能效的优化。在近期对于产品淘汰换新的要求中，有一个重要考量因素就是能效比，这同样也是符合国家对设备淘汰换新的要求。