提到亚马逊云科技,关注云计算领域的朋友想必都不会感到陌生。毕竟就在去年11月底,亚马逊云科技才刚刚又一次被Gartner《战略云平台服务魔力象限》报告评为了全球首屈一指的“领导者”地位。这也是他们连续第14年获此殊荣,同时也使得亚马逊云科技再次成为了业界最长时间“霸榜”全球战略云平台服务商的厂商、甚至没有之一。
然而众所周知,对于如今的整个云计算产业来说,最“热门”的话题已不再是传统的云存储、网络服务,或是数据分析。那些只有在云端才能“跑起来”的巨大规模生成式AI模型,以及它们所代表的全新云服务业态,才是当下的行业新宠。
面对这样的情况,即便是仍在领跑整个云计算行业的亚马逊云科技,这几年也明显加快了“转型”的步伐。2023年,他们在年底举行的re:Invent期间高调宣布了与NVIDIA的战略合作。而在不久前刚刚结束的re:Invent 2024上,亚马逊云科技更是带来了有史以来最全面、针对生成式AI“大时代”的全栈联动式创新,为这家全球云计算“领头羊”的后续发展铺平了道路。
自研硬件再次发力,为超大规模模型训练而来
对于最近这几年的亚马逊云科技来说,自研芯片一直都扮演着业务高速发展“中流砥柱”的作用。根据最新的一份统计数据显示,2024年亚马逊云科技新增的CPU算力中,有超过50%来自自研的Graviton系列处理器。纵观他们过去几年里推出的、基于Graviton的计算实例便不难发现,自研芯片不仅仅是推动了亚马逊云科技的“算力膨胀”,更大幅降低了其算力服务的价格,让客户可以花更少的钱用到更高效的计算效果。
不过在2024年年底举行的re:Invent期间,真正成为亚马逊云科技“硬件明星”的并非Graviton,而是同样由他们自研的AI训练芯片Trainium系列。
首先,亚马逊云科技方面公布了新的EC2 Trn2实例,与此前基于GPU的EC2 P5e和P5en实例相比,EC2 Trn2实例的性价比提升了30-40%。它配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,已经能够满足数十亿参数的大语言模型训练和部署需求。
其次,他们还推出了Amazon EC2 Trn2 UltraServers服务器。其内置64颗相互连接的Trainium2芯片,浮点算力高达83.2 Petaflops,同时内存和网络性能也是单一Trn2实例的四倍。根据技术资料显示,其已经为万亿参数规模的AI模型实时推理做好了准备。
不仅如此,亚马逊云科技还正在与Anthropic携手打造名为Project Rainier的超级算力设备。它将包含数十万颗Trainium2 芯片。根据预测,这套平台的性能将能够比最新AI模型训练所需的算力规模还要再高出5倍以上。
然而亚马逊云科技的芯片和算力创新甚至还未因此而满足,因为他们还同时在此次re:Invent期间发布了下一代的Trainium3芯片。作为他们首款3nm制程的自研芯片,Trainium3的集群性能预计将达到现有方案的4倍,并将于今年年内上线,为再下一代的超级大模型训练和推理工作进一步提升效益和性价比。
模型工具全面上新,更多选择才有更低成本
除了硬件方面的持续发力,亚马逊云科技也在re:Invent 2024期间公布了大量全新的模型工具。
比如,他们发布了自研的Amazon Nova基础模型集群。其包含Nova Micro、Lite、Pro和Premier等多个大语言模型,以及专注于生成高质量图像的Nova Canvas、擅长创作高清视频的Nova Reel等细分应用模型。
与亚马逊云科技的自研芯片一样,这些他们自研的大语言模型同样秉持了“低成本高性能”的特点。与Amazon Bedrock中表现最佳的模型相比,其应用成本下降了75%,同时运算速度也达到了行业一线水准。对于希望快速、且低成本部署AI解决方案的企业来说,Amazon Nova家族显然进一步提供了可观的业务便利。
不过与其他的一些云计算“友商”不同,亚马逊云科技并没有为了主推自家大模型,而“偏废”第三方的方案。在Amazon Bedrock中还新加入来自Luma AI、poolside的领先模型,以及更新了和Stability AI的最新模型。而在全新上线的Amazon Bedrock Marketplace里,用户可以看到包括多达100种以上的模型选择,它们涵盖各类热门、新兴,以及专业领域,而且还会进行及时更新。
不仅如此,通过低延迟优化推理、模型蒸馏策略和提示词缓存机制等一系列创新举措在Amazon Bedrock中的落地,亚马逊云科技亦可确保模型推理的高度准确性,从而帮助用户控制成本和加快模型的响应速度。
而针对模型的构建、训练与部署服务,亚马逊云科技还新推出了Amazon SageMaker HyperPod服务。它集成了新训练配方功能、灵活训练计划、任务治理等一系列先进特性,能够帮助客户将AI训练的时间节约数周,同时降低高达40%的训练成本。如此一来,对于那些有志于从实验室走向实际应用场景的新模型来说,在亚马逊云科技的帮助下,它们的“道路”也将变得更加平坦。
数据服务“与时俱进”,为AI大时代自我革新
众所周知,Amazon S3存储服务是亚马逊云科技最早的在线业务之一。如今面对AI时代的需求,亚马逊云科技也为旗下的存储和数据库业务进行了一系列的针对性改变。
一方面,Amazon S3新增Metadata元数据功能,能够实现对元数据的自动获取与实时更新。同时专门针对Iceberg表优化设计的S3 Tables存储类型也正式推出,将查询性能提升3倍、事务处理性能提升10倍,为大数据的存储与检索提供了更加强大的保障。
另一方面,在数据库业务领域,亚马逊云科技此次还发布了全新的无服务器分布式SQL数据库Amazon Aurora DSQL。它搭载自动故障恢复功能,能够在任意端点自由进行读写操作,提供高达99.999%的多区域可用性与近乎无限的可扩展性。对于用户来说,这就意味着再也不需要进行繁琐的数据库分片或者实例升级。
除此之外,针对现有的Amazon DynamoDB global tables服务,亚马逊云科技也宣布为其增加了多区域强一致性支持,这使得它如今可以确保跨国业务在不同区域之间实现实时、精准的同步。
当然,在这些数据服务创新背后,亚马逊云科技如今也开启了数据中心基础设施设计的再次进化,推出了新的数据中心组件。基于新的组件,他们的数据中心可用性能够确保高达99.9999%,受电气问题影响的机架数量比过去大幅减少89%,数据中心的冷却机械能耗下降46%,而每个站点的计算能力还额外增加12%。
结语:当“冠军”都如此努力,领跑自然就理所当然
不难看出,相比于2023年re:Invent专注“算力提升”这个话题,2024年的re:Invent更能展现出亚马逊云科技面对AI大模型浪潮,准备充足的全方位、全栈联动的自我革新能力。
正如亚马逊云科技大中华区产品部总经理陈晓建在接受采访时透露的那样,“我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。”
当然,可以说这是亚马逊云科技长期作为行业领军者的“规模效应”体现,因为他们客观上确实拥有更多的客户与技术合作伙伴,所以在洞察全球云计算需求方向、深度理解客户对于计算、存储、数据分析的需求方面,自然就会更有优势。