Nvidia公布Blackwell平台AI推论Llama2执行性能...

逢纪说科技 2024-08-30 02:01:58

Nvidia昨(28)日公布财报,并公布下一代GPU架构Blackwell的执行性能,宣称执行Llama 2的性能是前代产品的4倍。

Nvidia希望趁财报,为其预计第4季上市的Blackwell平台芯片包括B100、B200暖场,但报道指出,新芯片因设瑕疵,推出进程可能会延迟到2025年第2季。

Nvidia宣称,在最新的MLPerf Inference 4.1基准测试中,Nvidia平台做过所有数据中心的测试,其中Blackwell平台产品执行MLPerf最大的LLM工作负载Llama 2 70B的测试性能,比前一代Nvidia H100 Tensor Core GPU快高达4倍,这要拜第二代Transformer人工智能引擎和FP4精度的Tensor Core核心所赐。

最新的MLPerf基准测试加入新的测试项目。其中包含专家混合(Mixture of Experts,MoE)模型,特别是Mixtral 8x7B模型。MoE模型之所以大行其道,是因为可支持多种任务、回答多种问题的企业开发需求,而且由于每次推论只需启动几个专家(而非整个模型),性能也更高。另一方面,LLM的推论应用持续增长,也推升对运算的需求,使多GPU(multi-GPU)运算成为必要。

有鉴于此,Nvidia指出,前代Hopper架构为基础的Nvidia NVLink互联技术和NV Switch芯片已经支持大型模型的即时推论。而新一代的Blackwell平台将进一步以72颗GPU及更大的NVLink域名扩展NV Switch芯片的能力。

除了新Blackwell架构,Nvidia并宣称其H200 GPU搭载推论软件Triton Inference Server在最近一次MLPerf测试表现,比前一次提升27%。而在边缘运算平台上,NVIDIA Jetson AGX Orin SOM(system-on-modules)在执行GPT-J LLM模型的测试中,传输量提升6.2倍,而延迟性则改善2.4倍。Nvidia表示,这性能表现让Jetson平台很适合于本地执行LLM、视觉transformer模型及Stable Diffusion模型等任务。

0 阅读:0

逢纪说科技

简介:感谢大家的关注