英特尔至强6:“性能版”能推理700亿参数大模型！

最近，英特尔介绍了下一代数据中心处理器至强的更多消息。

首先，第六代就不叫“至强可扩展处理器（Xeon Scalable）”了，而是直接就叫“Xeon 6”，中文叫做英特尔至强6，6啊！

第六代至强将于今年陆续发布，如此前所说，会一分为二。

一种是全部采用P核的，代号为Granite Rapids,另一种全部采用E能效核，代号为Sierra Forest，两类处理器都支持同样的主板平台。

全新的第六代至强经采用Intel 3 制程工艺，本季度，英特尔即将开始生产代号为Sierra Forest的全E核的处理器。

这款处理器在云原生和容器场景，超大规模数据中心市场都有明显优势，能将机架密度提高至2.7倍，每瓦性能提高2.5倍。

比如，一家电信运营商原来有200个机架，机架里的服务器用的是第二代至强，如果换成是第六代，则只需要72个机架。

占地空间减少的同时，性能和功能特性都没有明显变化，但此时要管理的网络设别以及其他设备就减少了很多，最重要的是它能介绍1兆瓦的用电量。

预计在Sierra Forest推出后不久，英特尔还将发布全性能核的Granite Rapids。

在介绍Granite Rapids时，英特尔还是强调了在推理大模型时的性能表现。在介绍具体表现前，英特尔介绍了一个叫MXFP4的数据格式。

英特尔与ARM、高通和英伟达等公司合作制定这种新的数据格式，它能降低计算成本，提高效率。这个叫MXFP4的格式是一个4位的浮点数标准，但它通过一些手段让它不牺牲计算精度。

MXFP4是通过软件来支持的，所以第四代、第五代至强也都能用，不是第六代专属的。

基辛格展示了一个Demo，分别用第四代、第五代、第六代至强推理700亿参数的Lamma2，与使用原来16bit格式的方案相比，使用了MXFP4的第四代至强，推理时的Next Token的延迟降低了三倍。

换成第五代之后，推理时的Next Token的延迟降低了3.6倍，如果换成第六代至强，延迟会降低6.4倍，此时的延迟来到88ms，也就是降到了100ms以下。

100ms是推理时Next Token延迟的一个分界线，在100ms以下一般就意味着性能可以用。也意味着，在低位数数据格式下，能够显著减少完成同样任务的时间。

最后一句话总结，就是性能版的第六代至强，是完全可以推理700亿参数大模型的，比第五代至强更善于推理。

玩酷网