Groq一夜爆红，推理芯片每秒近500tokens碾压GPU

文丨Congerry

自从OpenAI于2022年底发布ChatGPT以来，英伟达的季度营收增长了两倍，股价也几乎翻了两番，因为初创公司和大型科技公司都在争抢其芯片以训练和运行AI模型。

这一成功吸引了越来越多的初创公司，希望从英伟达的蛋糕中分一杯羹。

近日，一家名为 Groq 的人工智能芯片的初创公司在AI圈爆火，被很多人视为英伟达的劲敌。

原因几何？

Groq 开发了一种名为 "语言处理单元"（LPU）的AI芯片，声称比英伟达的图形处理单元（GPU）更快。

根据Artificial Analysis上周发布的第三方测试结果，Groq每秒可生成247个tokens，而微软每秒只能生成18个tokens。这意味着，如果在 Groq 的芯片上运行，ChatGPT 的运行速度可以提高 13 倍以上。

Groq表示，基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高达500个 token。

相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。

我们可以更直观地感受一下ChatGPT与Groq的速度差异。

不过，Groq 是一个 "推理引擎"，而不是像 ChatGPT、Gemini 或 Grok 那样的聊天机器人。它能帮助这些聊天机器人快速运行，但不能完全取代它们。

Groq提供了免费的大模型服务，包括三个开源大模型，Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K。上面的图片演示中使用的是Llama2-70B-4K。

Groq以速度取胜

Groq 成立于 2016 年，创始人 Jonathan Ross 曾在谷歌工作五年多，帮助开发了一种名为张量处理单元（TPU）的专用芯片，之后又在该公司的 "登月计划"（moonshot bets）部门X工作。"

根据Groq官网，其使命是制定GenAI推理速度的标准，帮助实时人工智能应用在今天得以实现。

那Groq是如何做到让AI模型“快如闪电”的？

Groq在官网写道，LPU 推理引擎（LPU 代表语言处理单元™）是一种新型的端到端处理单元系统，可为具有顺序组件的计算密集型应用程序提供最快的推理，例如 AI 语言应用程序 (LLM) ）。

LPU 旨在克服 LLM 的两个瓶颈，计算密度和内存带宽。

就 LLM 而言，LPU 的计算能力比 GPU 和 CPU 更大。这就减少了每个单词的计算时间，从而可以更快地生成文本序列。此外，由于消除了外部内存瓶颈，LPU 推理引擎在 LLM 上的性能比 GPU 高出几个数量级。

Groq 的芯片是一种全新的 AI 处理器，它采用了 14nm 制程技术，并搭载了 230MB 的大 SRAM 来保证内存带宽。

这种设计使得 Groq 的芯片在处理大型语言模型（LLM）等计算密集型应用时，能够提供更高的带宽（高达 80TB/s），更低的功耗和更低的延迟。

根据Groq官网，Groq的LPU推理引擎在Meta AI的Llama 2 70B模型上运行时，其输出token吞吐量比顶级云提供商快了18倍。

TTFT（Time to First Token）达到了0.22秒。

一位X网友k_zer0s指出，Groq 的 LPU 不需要像 Nvidia GPU 那样快速的数据传输，因为它们的系统中没有 HBM（高带宽内存）,它们使用的是 SRAM（静态随机存取存储器）。

与用于推理任务的 Nvidia GPU 相比，它从外部存储器读取的数据更少，功耗也更少。LPU 的工作方式与 GPU 不同。

它使用临时指令集计算机架构，因此不必像 GPU 使用高带宽内存 (HBM) 那样频繁地从内存重新加载数据。这有助于避免 HBM 短缺问题并降低成本。

另一位名为Jay Scambler 的网友也给出了自己的见解。

传统的 GPU 是拥有数百个内核的并行处理器，设计用于图形渲染，而 LPU 不同，其架构旨在为人工智能计算提供确定性的性能。

LPU 的架构不同于 GPU 使用的 SIMD（单指令、多数据）模式，而是采用了一种更精简的方法，无需复杂的调度硬件。这种设计可以有效利用每个时钟周期，确保一致的延迟和吞吐量。

由于推理运行使用的数据比模型训练少得多，因此 Groq 的 LPU 更节能。它从外部存储器读取的数据更少，推理任务的耗电量也比 Nvidia GPU 低。

Groq 的创新芯片设计允许将多个 TSP 连接在一起，而不会出现 GPU 集群的传统瓶颈，因此具有极高的可扩展性。随着 LPU 数量的增加，性能也会随之线性提升，从而简化了大规模人工智能模型对硬件的要求，使开发人员无需重新架构系统就能轻松扩展应用程序。

那么，这一切意味着什么呢？与 GPU 相比，LPU 将在未来为人工智能应用提供巨大的改进！

Groq能否威胁英伟达？

说了这么多，值得注意的一点是，Groq的AI芯片侧重于推理，而非模型训练，类似的公司还包括d-Matrix、Etched、Modular、Rain AI 和 SiMa.ai。

Etched 的创始人2023年 5 月份曾向《华尔街日报》表示，他们的芯片在模拟中的 LLM 运行速度比传统图形处理单元快 140 倍。

Jonathan Ross此前对媒体表示，在大模型推理场景，Groq LPU芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

那英伟达的地位会被威胁吗？先说结论，不会。

第一，Groq瞄准的是推理，而训练是模型不可或缺的一部分。要训练大模型，仍然需要购买英伟达GPU。

第二是成本，人工智能专家贾扬清对使用Groq硬件运行Llama2-70b模型的成本进行的初步分析。

根据分析，为了运行Llama2-70b模型，至少需要572张Groq卡，每张卡价格为20000美元，总计成本约为1144000美元。这些卡的年度电力成本大约为254000美元。

相比之下，使用8张NVIDIA H100卡的配置，硬件成本约为300000美元，年度电力成本约为24000美元。

结果发现，Groq综合成本相当于英伟达GPU的30多倍。场景受限外加成本高，Groq并不具备优势。

有网友也给出了自己的见解。

玩酷网