在AI热潮的推动下,又一家GPU云服务平台浮出水面。
2024年8月13日,AI基础设施初创公司Foundry宣布,旗下云平台Foundry Cloud Platform(FCP)现已开启有限访问权限。
Foundry成立于2022年,由前DeepMind研究员Jared Quincy Davis创办,虽然入场时间较晚,但其目标不仅仅是成为另一个GPU集群租赁商,而是强调可以帮助用户简化AI模型的训练、微调和推理部署过程。
Foundry特别强调,当客户预定1000个GPU用于训练时,无论是几天还是几周,他们将真正足量获得所需的计算资源,不受到硬件故障的影响,不打折扣。
这在大规模集群训练时非常重要,但要做到这点就需要在连续性方面下功夫,为了应对这些问题,Foundry通过维护一个备用节点池,当某个GPU发生故障时,备用节点能够迅速接替,确保训练任务的连续性和稳定性。
当然,这些备用节点不会闲置,而是作为可抢占的临时实例出租,价格将比其他云服务提供商低12到20倍。这些实例适用于推理或微调等较小、可扩展的工作负载。
Foundry的云平台依托Kubernetes集群进行管理,支持磁盘状态保存和自动挂载持久存储。这样,即使某些底层节点因其他需求而被重新分配,推理工作负载仍能继续运行。
硬件方面,Foundry提供了多种英伟达GPU,包括H100、A100、A40和A5000,这些GPU部署在Tier-3和Tier-4数据中心中。Foundry还声称,针对那些对SLA要求更高的工作负载,需要的费用也不会太高。
目前,Foundry实际拥有的计算资源规模尚未明确,因此他们对客户的访问权限较为谨慎。
创始人Davis表示,随着平台的稳定性和经济性在更多客户中得到验证,访问权限将逐步放开。这意味着Foundry目前的资源仍然有限,但如果其资源调度层能够正常运行,可以更好地利用现有设备。
与传统云厂商相比,Foundry希望通过减少合同期限来吸引客户,客户可以最短三小时起步来租赁。
在如今的AI基础设施市场中,Foundry面临着来自AWS、Google Cloud、Azure等传统云服务商的激烈竞争,同时还要应对像CoreWeave和Lambda这样新兴GPU云平台的挑战。
目前,AI基础设施领域的投资氛围极为积极,GPU云服务商在获取融资方面相对容易。许多公司甚至将AI加速器作为抵押来筹集资金。例如,CoreWeave在今年5月获得了一笔75亿美元的贷款,用于部署更多加速器。
尽管许多企业仍在努力量化AI的投资回报率(ROI),但现在还都不好说,唯一比较好算的清楚的是在基础设施方面。
根据估算,一个拥有16000个H100 GPU的集群在四年内可能产生52.7亿美元的收入,当然,前提是AI还是像现在一样这么火才行。