芯片行业特别讲究规模效应,而云计算行业也特别强调规模效应,当这两个结合起来,就碰撞出了超强的创新能力。放眼全球,首先尝试和体验到这种创新推背感的就是亚马逊云科技(AWS),还有它手里的一系列自研芯片。
在ARM服务器不被看好的时候,Amazon Graviton处理器横空出世
James Hamilton是亚马逊高级副总裁兼杰出工程师,这位传奇的工程师在22个国家/地区拥有209项服务器和数据中心基础设施、数据库和云计算专利。2008年底加入亚马逊云科技,在2009年的一篇博客中,他就非常看好ARM服务器的发展。
博客中提到,ARM服务器正在从单核设计逐步迈向高性能的多核SMP架构。Cortex-A9 SMP的发布表明ARM开始在性能优化的服务器处理器市场中开辟新天地。而且,对比传统处理器,ARM在每单位功耗和成本上的性能都有明显优势。
2011年,Annapurna Labs成立,四年后,被亚马逊以3.5亿美元收购,此次收购使亚马逊能够开发定制芯片。2018年11月,亚马逊发布第一代Amazon Graviton处理器,标志着其开始通过定制化芯片提高云服务的差异化优势。
Annapurna Labs办公室
在2018年开始做ARM芯片其实并不被看好,因为隔壁高通的ARM服务器正在因为来自x86阵营的压力而偃旗息鼓。而亚马逊云科技凭借作为云厂商的规模优势,楞是坚持自研ARM处理器,推出基于Amazon Graviton的云主机。
第一代Amazon Graviton处理器主要用于运行Web服务器、容器化微服务等轻量级工作负载。与其他通用实例相比,虽然性能和功能特性都比较有限,但它胜在提供了显著的成本节约,它为后续Amazon Graviton2和Amazon Graviton3奠定了基础。
亚马逊云科技的规模优势,让ARM服务器站了起来
从2020年推出Amazon Graviton2开始,亚马逊云科技每年都会发布新的Amazon Graviton处理器,并且,每一代都比上一代有两位数的性能提升,同时单位算力的功耗在持续下降。2023年推出的Amazon Graviton4,性能提升高达30%,最高核心数来到96个,增幅达50%。
Graviton3
从x86向ARM架构迁移会有额外成本。为了让用户更顺滑的迁移,亚马逊云科技不仅提供了迁移工具,构建合作伙伴生态系统。而且,还让Amazon RDS、Amazon ElastiCache等多种服运行在Amazon Graviton上,客户只需在控制台中选择Amazon Graviton实例,即可迁移,无需对应用程序进行重大修改。
Amazon Graviton支持多种广泛应用场景,包括HPC(如科学计算、基因组学分析、天气预报)、AI/ML、容器化应用(支持Kubernetes等)、数据分析(EMR、Spark等框架),以及数据处理(支持ETL、数据清洗等),在性能和性价比上均表现卓越。
根据云成本管理和优化平台Vantage的一项调查显示,2024第一季度,在Amazon EC2 M7系列(包括基于英特尔的M7i和基于AMD的M7a)通用实例的成本支出方面,采用Graviton的M7g系列已经超过三分之一(34.5%)。
2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务中,客户选择使用基于Amazon Graviton实例的数目已超越了Intel,越来越多客户选择基于Graviton的托管服务。
Epic Games 早在2021年就大规模应用Amazon Graviton支持《堡垒之夜》。最新的Amazon Graviton4性能提升显著,性价比提高25%以上,较Intel Sapphire Rapids和AMD Genoa提升30%-35%。如今,Epic Games在使用数万个Graviton芯片支持其所有虚幻引擎构建的游戏服务器。
亚马逊自身就是Amazon Graviton技术的深度用户。2021年Prime Day首次采用Amazon Graviton2支持12项核心零售服务。到2024年,亚马逊在Prime Day中使用的Graviton芯片数量超过25万个,为5800多种Amazon.com服务提供支持,较2023年增长一倍。
Amazon Graviton4在研发场景中也展现了强大的计算能力和弹性调度优势。据亚马逊云科技博客显示,EC2内存优化型X8g实例可显著加速EDA电子设计自动化场景,其实例集群在峰值时支持数十万个内核并行运行,规模达到正常使用时的5倍,Graviton4支撑了亚马逊云科技的大规模计算任务。
如果说开始需要坚持,后来则越发顺风顺水。如今,基于Amazon Graviton的Amazon EC2实例种类达150多个,全球已部署超过200万片处理器,拥有超过五万家客户,其中涵盖了Amazon EC2前100客户90%以上,享受着高达40%的额外性价比(x86)。
亚马逊云科技首席工程师Ali Saidi负责Amazon Graviton系列处理器的技术开发
可以说,如果没有亚马云科技的规模,Amazon Graviton就不会有这么多用户,Amazon Graviton的出货量不会这么大,没有规模优势,每一块Amazon Graviton的成本也不会降低,云的规模和芯片的规模促成了Amazon Graviton的成功。
云计算的规模支持亚马逊云科技进行硬件研发,而硬件研发进一步推动技术创新,这些创新效益会随着规模而扩大。同时,这些创新又反过来驱动更大规模的云计算服务能力,形成了一个良性循环。
规模效应在更多自研芯片上发挥作用
其实,除了Amazon Graviton以外,亚马逊云科技还自研了基于ASIC芯片的Amazon Nitro系统,以及用于机器学习训练的Amazon Trainium和用于机器学习推理的芯片Amazon Inferentia,这些芯片也同样受益于亚马逊云科技的规模优势。
Amazon Nitro像是服务器里的小服务器,它系统提升了云计算的性能、安全性和效率。其主要功能包括:通过网络硬件卸载提升网络性能,降低延迟;通过存储硬件加速提高存储系统的读写效率;通过专用的硬件安全功能,增强数据保护。
最有意思的是,Amazon Nitro还通过Hypervisor卸载,将虚拟化相关的计算任务卸载到ASIC硬件中。这样一来,不仅提高了服务器的性能,还使得客户几乎可以100%地拥有服务器的全部硬件资源,就像喝酸奶不用舔瓶盖一样地舒畅。
截止到2024年1月,亚马逊云科技在自己的数据中心里部署了超过2000万套Amazon Nitro系统,结合包括Amazon Graviton在内的多种处理器架构,打造出了非常多的Amazon EC2主机实例。
在AI和ML场景,亚马逊云科技最早是在2018年发布针对推理的Amazon Inferentia芯片,在2022 re:Invent全球大会上发布了新一代推理芯片Amazon Inferentia 2。与Inf1实例相比,Inf2实例吞吐量提升4倍,延时只有1/10,每瓦性能提升45%。
2022年,亚马逊云科技推出基于Trainium的Amazon EC2 Trn1实例。2023年推出了Amazon Trainium2 芯片,能用来训练具有数万亿个参数或变量的大语言模型。第一代相比,它不仅性能提升多达 4 倍,能源效率也提升了多达 2 倍。
结合EC2 UltraClusters技术,Trainium2 实例可以扩展到多达10万的规模,结合Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供高达65 exaflops的算力,用户可按需获得超级计算级别的性能。
Trainium系列ASIC专为机器学习优化,提供高效的算力,可以降低训练和推理成本。在英伟达显卡成本高昂的背景下,亚马逊云科技的Trainium和Inferentia系列芯片提供了一个更有效益的技术方案,也强化AI的芯片供应链。
结束语
通过过去十多年的实践,亚马逊云科技在自研芯片上取得了逐步的成就,当然也练就了构建了定制服务器能力。这种能力不仅降低了成本,提升了供应链的灵活性,还实现了性能和安全的双赢,更在机器学习领域体现出了巨大的潜力。
现在是2024年11月21号,再过几天就要召开2024年的re:Invent大会了,这次大会上可能会有新的Amazon Graviton处理器,可能会有新的训练和推理芯片,更多可能还是跟AI相关的产品服务,而我,也将第一次去到拉斯维加斯现场感受这场“云计算春晚”。
如果碰巧看到这篇小作文的朋友也在现场,可以考虑见个面,如果没去现场,也可以说说您对这次re:Invent的期待或者感兴趣的点~