CerebrasSystems挑战Nvidia,推出“最快”AI推理服务:AI计算的新纪元

星语创想 2024-08-29 17:12:20
在人工智能(AI)计算领域,一场关于速度与效率的较量正在悄然上演。Cerebras Systems Inc.,这家充满雄心的初创公司,向业界巨头Nvidia Corp.发起了强有力的挑战。

近日,Cerebras推出了自诩为“世界最快”的AI推理服务,并宣布该服务已在云端正式上线。这一创新举措不仅彰显了Cerebras在AI计算领域的实力,也为整个行业带来了前所未有的变革机遇。

一、AI推理服务客户求“快”若渴

AI推理作为AI技术的重要组成部分,指的是将实时数据输入经过训练的AI模型,以获得预测结果或解决特定任务的过程。随着AI技术的不断发展和应用场景的拓展,AI推理服务的需求日益旺盛。根据Cerebras的说法,AI推理服务目前约占云中所有AI工作负载的40%,并且是增长最快的部分。

然而,现有的AI推理服务似乎并不能完全满足市场的需求。许多客户在寻求更快、更经济的推理解决方案。Cerebras Systems敏锐地捕捉到了这一市场机遇,推出了全新的“高速推理”服务,旨在解决现有服务的局限性。

二、Cerebras Systems的底气与实力

Cerebras Systems之所以有底气向Nvidia发起挑战,源于其在AI和高性能计算(HPC)领域的深厚积累。该公司专注于生产专业且强大的计算机芯片,其产品线包括备受瞩目的WSE系列处理器。

WSE-3处理器是Cerebras的最新力作,采用了先进的5纳米工艺制造,拥有超过90万个计算核心和44GB的板载静态随机存取存储器。

与Nvidia的H100 GPU相比,WSE-3的核心数量多出52倍,性能达到了每秒125 petaflops的峰值速度。这一惊人的性能使得Cerebras Systems在AI推理服务领域具备了得天独厚的优势。

三、Cerebras推理服务的优势与特点

物美价廉的推理服务

Cerebras推理服务以其惊人的速度和低成本脱颖而出。据称,该服务比使用Nvidia最强大的GPU的类似基于云的推理服务快20倍。对于开源的Llama 3.1 8B模型,Cerebras推理服务每秒可提供1800个token,而对于Llama 3.1 70B模型,则可提供450个token。

在价格方面,Cerebras推理服务同样具有竞争力。该服务的起价仅为每个百万token 10美分,相当于AI推理工作负载的价格性能提高了100倍。这一价格不仅远低于市场上的其他竞争对手,甚至让一些高端GPU解决方案相形见绌。

分层访问与客户支持

为了满足不同客户的需求,Cerebras提供了三个层级的访问服务。其中,免费层级为任何想要尝试平台的人提供基于应用程序编程接口的访问和慷慨的使用限制。开发人员层则适用于灵活的无服务器部署,通过公司提供的API端点进行访问。

此外,Cerebras还为企业层客户提供微调模型和定制的服务级别协议以及专用支持。这一层级适用于持续的工作负载,并可以通过Cerebras管理的私有云访问或在本地实施。

合作伙伴与生态建设

Cerebras Systems在推动AI推理服务发展的同时,也积极与合作伙伴共同构建生态系统。目前,该公司已经与LangChain、LlamaIndex、Docker Inc.、Weights & Biases Inc.和AgentOps Inc.等知名企业建立了战略合作关系。

这些合作伙伴的加入不仅为Cerebras的客户提供了更多增值服务,也为Cerebras自身的发展注入了新的活力。通过整合各方资源,Cerebras正努力打造一个更加完善、高效的AI推理服务生态。

三、“最快”AI推理服务也仍需努力

尽管Cerebras Systems在AI推理服务领域取得了显著的进展,但未来的道路并非一帆风顺。随着技术的不断进步和市场竞争的加剧,Cerebras需要持续投入研发和创新,以保持其在AI计算领域的领先地位。

此外,随着AI应用的不断拓展和深化,客户对AI推理服务的需求也将不断变化。Cerebras需要密切关注市场动态,及时调整产品策略和服务模式,以满足客户的多样化需求。

Cerebras Systems推出的“最快”AI推理服务无疑为AI计算领域带来了新的变革机遇。凭借其强大的技术实力和极具竞争力的价格策略,Cerebras正逐步改变着AI推理服务的市场格局。然而,未来的道路充满挑战与机遇,我们期待Cerebras能够持续创新、砥砺前行,为AI计算领域的发展贡献更多力量。

0 阅读:0