又一家GPU云服务平台浮出水面

在AI热潮的推动下，又一家GPU云服务平台浮出水面。

2024年8月13日，AI基础设施初创公司Foundry宣布，旗下云平台Foundry Cloud Platform（FCP）现已开启有限访问权限。

Foundry成立于2022年，由前DeepMind研究员Jared Quincy Davis创办，虽然入场时间较晚，但其目标不仅仅是成为另一个GPU集群租赁商，而是强调可以帮助用户简化AI模型的训练、微调和推理部署过程。

Foundry特别强调，当客户预定1000个GPU用于训练时，无论是几天还是几周，他们将真正足量获得所需的计算资源，不受到硬件故障的影响，不打折扣。

这在大规模集群训练时非常重要，但要做到这点就需要在连续性方面下功夫，为了应对这些问题，Foundry通过维护一个备用节点池，当某个GPU发生故障时，备用节点能够迅速接替，确保训练任务的连续性和稳定性。

当然，这些备用节点不会闲置，而是作为可抢占的临时实例出租，价格将比其他云服务提供商低12到20倍。这些实例适用于推理或微调等较小、可扩展的工作负载。

Foundry的云平台依托Kubernetes集群进行管理，支持磁盘状态保存和自动挂载持久存储。这样，即使某些底层节点因其他需求而被重新分配，推理工作负载仍能继续运行。

硬件方面，Foundry提供了多种英伟达GPU，包括H100、A100、A40和A5000，这些GPU部署在Tier-3和Tier-4数据中心中。Foundry还声称，针对那些对SLA要求更高的工作负载，需要的费用也不会太高。

目前，Foundry实际拥有的计算资源规模尚未明确，因此他们对客户的访问权限较为谨慎。

创始人Davis表示，随着平台的稳定性和经济性在更多客户中得到验证，访问权限将逐步放开。这意味着Foundry目前的资源仍然有限，但如果其资源调度层能够正常运行，可以更好地利用现有设备。

与传统云厂商相比，Foundry希望通过减少合同期限来吸引客户，客户可以最短三小时起步来租赁。

在如今的AI基础设施市场中，Foundry面临着来自AWS、Google Cloud、Azure等传统云服务商的激烈竞争，同时还要应对像CoreWeave和Lambda这样新兴GPU云平台的挑战。

目前，AI基础设施领域的投资氛围极为积极，GPU云服务商在获取融资方面相对容易。许多公司甚至将AI加速器作为抵押来筹集资金。例如，CoreWeave在今年5月获得了一笔75亿美元的贷款，用于部署更多加速器。

尽管许多企业仍在努力量化AI的投资回报率（ROI），但现在还都不好说，唯一比较好算的清楚的是在基础设施方面。

根据估算，一个拥有16000个H100 GPU的集群在四年内可能产生52.7亿美元的收入，当然，前提是AI还是像现在一样这么火才行。

玩酷网