Nvidia公布Blackwell平台AI推论Llama2执行性能...

Nvidia昨（28）日公布财报，并公布下一代GPU架构Blackwell的执行性能，宣称执行Llama 2的性能是前代产品的4倍。

Nvidia希望趁财报，为其预计第4季上市的Blackwell平台芯片包括B100、B200暖场，但报道指出，新芯片因设瑕疵，推出进程可能会延迟到2025年第2季。

Nvidia宣称，在最新的MLPerf Inference 4.1基准测试中，Nvidia平台做过所有数据中心的测试，其中Blackwell平台产品执行MLPerf最大的LLM工作负载Llama 2 70B的测试性能，比前一代Nvidia H100 Tensor Core GPU快高达4倍，这要拜第二代Transformer人工智能引擎和FP4精度的Tensor Core核心所赐。

最新的MLPerf基准测试加入新的测试项目。其中包含专家混合（Mixture of Experts，MoE）模型，特别是Mixtral 8x7B模型。MoE模型之所以大行其道，是因为可支持多种任务、回答多种问题的企业开发需求，而且由于每次推论只需启动几个专家（而非整个模型），性能也更高。另一方面，LLM的推论应用持续增长，也推升对运算的需求，使多GPU（multi-GPU）运算成为必要。

有鉴于此，Nvidia指出，前代Hopper架构为基础的Nvidia NVLink互联技术和NV Switch芯片已经支持大型模型的即时推论。而新一代的Blackwell平台将进一步以72颗GPU及更大的NVLink域名扩展NV Switch芯片的能力。

除了新Blackwell架构，Nvidia并宣称其H200 GPU搭载推论软件Triton Inference Server在最近一次MLPerf测试表现，比前一次提升27%。而在边缘运算平台上，NVIDIA Jetson AGX Orin SOM（system-on-modules）在执行GPT-J LLM模型的测试中，传输量提升6.2倍，而延迟性则改善2.4倍。Nvidia表示，这性能表现让Jetson平台很适合于本地执行LLM、视觉transformer模型及Stable Diffusion模型等任务。

玩酷网

Nvidia公布Blackwell平台AI推论Llama2执行性能...

逢纪说科技