12月3日,亚马逊旗下AWS CEO Matt Garman宣布,将推出全新 Trainium3,这是自家首款采用3nm制程的芯片,与上代 Trainium2 相比,计算能力增加2倍,能源效率提升40%,预计2025年底问世。
亚马逊发布新一代Trainium3芯片Amazon 确实是一家低调和闷声发大财的公司,在 AI 领域也没有落后,一方面投资 Claude 的母公司 Anthropic(参考《Anthropic将使用Amazon的云端服务作为其基础设施》),相当于在软件领域有了一个很好的合作者;而基于 AWS 平台,发展自己的 AI 芯片,也是非常具备竞争力,本周他们新推出了EC2 Trn2 UltraServers实例,且发布了新一代的Trainium3 芯片。
1:相比于英伟达 GPU的EC2 P5e和P5en实例,Trn2实例性价比高出了30-40%,配置了16个Trainium2芯片,提供了 20.8 petaflops 峰值计算能力,非常适合训练和部署具有数十亿参数的大型语言模型。
2:EC2 Trn2 UltraServers 是一种全新的EC2产品,配置了 64 个Trainium2芯片,使用亚马逊自家的 NeuronLink 高速网络互连 4 台Trn2实例,整体性能提升了 4 倍,达到了 83.2 petaflops,这种产品可以提高生产环境中万亿参数模型的实时推理性能。
3:亚马逊在与Anthropic合作,建设一个由EC2 UltraCluster组成的超大集群(Project Rainier),通过第三代petabit级别的EFA网络互连数十万个Trainium2芯片,目前这个集群僵尸全球最大的 AI 计算集群,规模是之前集群的五倍。
4:除了和Anthropic合作,Databricks 作为全球最大的数据和人工AI公司之一,其Mosaic AI也采用了Trn2实例,总体成本最多减低了30%。
同时与Hugging Face合作,通过 Optimum Neuron 开源库,用户可以使用 Inferentia 推理技术和Trainium芯片;而且最近Hugging Face 推出的HUGS自部署服务,也可以在AWS Marketplace上找到并使用。
5:亚马逊发布了Trainium3,这是其下一代AI芯片,将是第一款采用3纳米制程的AWS芯片,性能将是Trn2 UltraServers的4倍,预计明年底能使用,从而让用户能够更快地构建更大的模型。
与Anthropic扩大合作,要建全球最大AI计算集群美国AI大模型独角兽Anthropic的联合创始人兼CTO Tom Brown现场分享说,就像俄罗斯方块游戏,机器内部构造越紧密,跑模型就越便宜越快。一年多来,Anthropic性能工程团队与亚马逊和Annapurna团队密切合作,应对这一挑战。
他宣布AWS与Anthropic正合作构建一个名为Project Rainier的Trn2 UltraServers EC2 UltraCluster,它将在数十万颗Trainium2芯片上扩展分布式模型训练。
这些芯片与第三代低延迟PB级EFA网络互连,是Anthropic用于训练其当前一代领先AI模型的百亿亿次浮点运算数量的5倍多。
建成后,预计它将成为迄今世界上最大的AI计算集群,可供Anthropic构建和部署其未来模型。使用Project Rainer后,用户将能够以更低价格、更快速度获得更多智能、更聪明的Agent。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。