AI芯片公司Groq是由谷歌TPU第一代设计者乔纳森·罗斯(Jonathan Ross)于2016年所创立。该公司2月19日宣布,其大模型Groq每秒输出近500个token,成为全球最快大模型。ChatGPT-3.5每秒生成速度仅为40个token。
Groq如此之快,背后全靠其自研的LPU芯片,值得关注的是,与GPU使用高带宽存储器(HBM)不同,LPU使用的是静态随机存储器(SRAM)。
虽然还没有正式发售,但LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍。后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。
据Groq介绍,在 LLM 方面,LPU较GPU/CPU拥有更强大的算力,从而减少了每个单词的计算时间,可以更快地生成文本序列。此外,由于消除了外部内存瓶颈,LPU推理引擎在大模型上的性能比GPU高出几个数量级。
为了证明自家芯片的能力,Groq还在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前两个已开放使用。
本文首发自萝卜投研