编者按:面向 AI 时代,阿里云基础设施是如何创新与发展的?计算、网络、存储、服务器、集群、可观测等,阿里云全新升级的 AI Infra 到底有哪些重磅更新?基于阿里云副总裁、弹性计算和存储产品线负责人吴结生在 2024 云栖大会上的演讲,本文详解阿里云在 AI 时代的数字基础设施大布局和新进展。
01
AI时代需要什么样的云基础设施?
云计算一直在践行 Scaling Law,为千行百业的数字化升级提供大规模可扩展的算力、存力及网络等资源,满足客户业务规模的扩展、AI 模型的扩展等需求。云计算让AI变得更普惠,帮助客户在云上更加容易使用 AI 技术。
目前,中国有超过 50% 的大模型公司跑在阿里云上,80% 的科技企业运行在阿里云上。AI 发展对云基础设施提出了新要求:
首先,AI 负载对计算提出了更大需求。一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B,对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示,最近几年中国智算的算力复合增长率为 33.9%。
其次,AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长,模型的数据集每年达到 50 倍增长,都需要更高性能的存力。
在模型训练过程里面,需要不停去打一些 Checkpoint,大小从几GB到几十GB,再到今天的几十TB,频率从小时或者几十分钟,到现在可能每一分钟就要打一个 Checkpoint。同时,大模型文件不断更新,怎么样在一个大规模的环境里面去分发和同步这些模型文件,对整个存储提出了更高的要求。
所以,随着AI技术的发展,云计算跟 AI 更紧密地融合,对阿里云基础设施提出了更高的要求。作为一个新形态的阿里云的基础设施,要具备三个特征:
第一,大规模、高性价比的 AI 基础设施,满足训练和推理需求。
第二,高性能、高可用的基础设施,实现业务的发展,保障业务的连续性。
第三,更易用、更智能的基础设施,提高开发效率和运维效率。
02
AI Infra要大规模、高性价比
阿里云构建了完整的 AI 基础设施,来满足训练和推理的规模化发展需求:
计算、存储、网络和安全等产品和服务,是坚实的基础;在此之上,通过先进的容器化技术进行算力的编排和管理;进而,通过 AI 智算平台 PAI 来进行任务调度、编译优化,实现弹性扩展、容错以及迁移等能力,打造完整的阿里云 AI 技术服务栈。
在这个服务栈里面,阿里云进行了全栈优化,以提升系统稳定性和计算效率,整体AI基础设施的连续训练有效时长达到 99%,处于业界领先水平。
同时,通过通信、编译、显存使用等方面的优化来提升 GPU 使用的效率,整个 GPU 的使用效率 MFU(Model FLOPs Utilization)提升了 20% 以上。
为支撑大规模的模型训练和推理,阿里云打造了灵骏超级智算集群,主要包含四个重要组件:灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务器,以及 CPFS 高性能存储集群。
灵骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力,同时在万卡的规模下性能线性增长率达到了 96%,性能网络吞吐的有效使用率也达到了 99%。基于CPFS,灵骏可提供 20TB/S 的超高吞吐并行存储能力。
灵骏集群采用了 HPN7.0 网络架构。HPN7.0 架构是一个多轨和多平面的网络设计,可以支持单集群扩展到 10 万张卡的规模,并提升 GPU 计算效率。每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接,保障了在大规模 GPU 集群联合的计算效率的提升。
同时,阿里云做了一系列网络方面的创新和优化,比如自研的 Solar RDMA 协议,提供了自适应的多路径的选择;自研 HPCC 的流控算法;网卡的自研和通信库的优化等等。通过这一系列网络的优化,实现在训练过程中最关键的集群通讯能力 1 倍的提升、对端到端的训练整体的性能提升 10% 以上的效果。
新升级磐久 AI 计算服务器。最新的磐久 AI 计算服务器支持 8 张或者 16 张 GPU 卡,每个服务器里面也配备了 3.2Tb/s 的 RDMA 网络能力,提供高性能网络,来形成一个超大规模的紧耦合的计算,提升 GPU 计算效率。
并且,每一台服务器还配有另外一张 400Gb/s 的网卡,来保障高效的访问存储以及通过 VPC 访问其他的云产品。
能效方面,磐久服务器使用了超钛金电源,能效比达到了 97%。同时,还研发一系列 AI 算法去预测 GPU 故障,故障预测准确率达到了 92%。通过这些努力,可实现主动性运维或者迁移,从而达到连续训练有效时长超过 99% 的高水平。
CPFS 端到端全链路性能提升。借助 400Gb/s 网卡以及 RDMA 通信的能力,CPFS 可提供单个客户端 25GB/s 吞吐,支持更大及更加频繁的 Checkpoint 的写,这可以更好地防止数据丢失,并提升训练的稳定性和可靠性。
同时,CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力,性能随着容量的扩展而线性扩展,在一个超大集群里可整体提供 20TB/s 的吞吐能力,这样使得在大模型训练里面可以更快打 Checkpoint,或者更快读 Checkpoint,以降低意外中断对模型训练的整体影响。
另外,在今天多模态的训练里面,可能有大量的训练和推理数据在 OSS 里面,比如说客户的图片、视频。CPFS 既提供了相应的文件接口,同时也提供与 OSS 之间高效的数据流动能力,通过冷热数据分层进一步为客户节省成本。
03
云计算要高性能、高可用
对企业而言,云基础设施更是保障业务连续性的关键。阿里云以高性能、高可用为目标,持续夯实基础设施。
CIPU2.0全新升级
CIPU(Cloud Infrastructure Processing Unit)云基础设施处理器,是云的产物,是一个云技术发展的创举。从2017年开始阿里云就进行了探索,CIPU 成为阿里云基础设施的基石,也是差异化竞争力的一个来源。
最新发布的 CIPU2.0,在安全、稳定性、性能等方面全面提升。
首先,CIPU2.0 整机稳定性提升 20%,让服务器更加稳定;其次,CIPU2.0 的带宽从 1.0 的 200Gb/s 上升到 2.0 的 400Gb/s,大幅提升 VPC 和 eRDMA 的能力,使得应用在云上更加高效运行;同时,EBS 存储达到了 360 万 IOPS,从 1.0 的 100 万上升到 360 万,整体的吞吐也从原来的 20GB/s 上升到 50GB/s,处在业界领先水平。
并且,CIPU2.0 也全方位提升弹性计算的安全能力。CIPU2.0 支持了多种可信任根,同时提供数据硬件加密能力,比如 VPC 通信可以通过 CIPU2.0 加密,在整个数据中心里面数据都是加密的,而访问 EBS 的数据也是通过 CIPU2.0 进行了加密。在这之上,CIPU2.0 提供了整个可信的信任链以及可信的运行环境。
此外,CIPU2.0 应用在 GPU 服务器里可提升推理效率,通过网络和存储等能力的增强,跨机推理效率也会相应提升。
ECS九代企业级实例发布
在通用计算领域,阿里云与英特尔、AMD 紧密合作,基于最新芯片,融合CIPU2.0 的架构,即将发布第九代 ECS 企业实例。与第八代英特尔实例相比,第九代 g9i 实例在 Web 应用领域性能提升了 20%,在数据库领域性能提升了17%;与第八代 AMD 实例相比,第九代 g9a 实例在大数据场景领域里面提升了 20%,在搜索和推荐里面场景里面提升 30%。
除了 X86、英特尔和 AMD 实例以外,阿里云也不断在发展 ARM 实例,基于 ARM 的平头哥倚天 710 服务器芯片进行全栈优化,使得倚天在若干个典型场景里面获得性能优势。比如在大数据处理 Spark 场景下,倚天实例与第八代 X86 性能相比有 14% 的性能优势;在视频转码领域,有 30% 的性能优势。
容器计算为AI加速
容器改变了整个软件开发和部署的方式,成为一个新的开发范式。阿里云提供 ACS 容器计算服务以及 ACK 容器服务,帮助客户构建、部署和管理容器化的应用。
容器计算服务 ACS 是阿里云的一个创新,以 K8S 为用户界面,提供了一个Serverless 的容器服务。
ACS 提供更加弹性的和柔性的计算的实例规格,比如可以从 0.5 个 vCPU 这样一个小规模开始,以一个比较小的步长递进,从而更加贴近应用负载需求、降低成本;其次,创新支持 CPU 原地的热变配,比如说当你的应用负载下降的时候,相应的资源可动态下降达到既保障性能又降低成本的效果。
ACS 的弹性能力也进行了进一步的扩展,每分钟可以进行 1 万个 Pod 扩展。除了按量付费以外,阿里云还提供了按天的节省计划,费用最多可节省 50% 以上。除此之外,今年年底,阿里云将提供基于 GPU 的 ACS 容器计算服务,进一步提升 GPU 的使用效率,降低成本,提高开发和运维的效率。
ACK 容器服务能力全面升级。首先结合分布式缓存 Fluid,以及 ACI 容器镜像服务 P2P 分发能力,大规模训练冷启动时间降低 85% 以上。容器服务也深度集成了 ECS 的弹性 RDMA 的能力,总体上容器网络的吞吐提升了 30%。通过 ACK 扩展节点进行了一系列优化,弹性扩容的效率提升了 25%。同时,优化 K8S 管控链,整体上 ACK 可以去管控 15,000 个计算节点的规模。
存储面向AI深度优化
在存储领域,阿里云对象存储 OSS 面向不同计算引擎、面向多种 AI 框架进行了深度的集成,形成了统一的存储。
OSS 对象存储上跑有 2 万多个数据湖,可支持十余个不同的计算引擎及 AI 框架。OSS 提供不同类型的冷、热、归档存储,并提供自动的 Lifecycle(生命周期的管理)实现数据流转,实现成本优化。除此之外,OSS 针对 AI 及机器学习进行大量优化,并与大量开源分析引擎、阿里云分析产品等进行集成,实现了高性能和简单方便的集成。
面向 AI/ML 负载,OSS 进一步优化,并推出 4 个不同的能力:
第一,升级了整体上 SDK 的能力,特别对 Python 和 Go 语言的 SDK,性能提高 30 倍以上;
第二,OSS 通过 OSSFS 提供了一个文件接口的访问,直读模式性能提升了 3~6 倍,给中小模型文件的训练或者推理提供一个很好的选择;
第三,在 OSS 服务端提供 OSS 加速器,能够把一些热的数据放到 OSS 加速器里面,可以分发到更多的机器上面去;
第四,OSS 也做了很多 AI 框架的连接器,能够让更多数据的预处理、数据的打标、小模型的训练和推理变高效。
随着 AI 技术和应用的发展,使用 OSS 的模式发生了改变,OSS 全新推出资源池 QoS 能力。一个常见的场景是客户有多种不同的数据,分布在不同的存储桶(Bucket)里面,被多个业务方共享。这里需要提供多个桶之间性能的共享,但同时又保障不同业务的性能的隔离。
OSS 提供了资源池 QoS 功能,一方面多个存储桶形成一个资源池,共享叠加的性能;另一方面,灵活配置 QoS 策略,降低各个业务之间的相互影响。
高性能网络持续演进
在云网络方面,稳定的高性能至关重要,阿里云是如何破解高性能的稳定性难题的?这里重点介绍一个跨区域的主动式重路由的技术。
当网络通信有扰动产生时,系统会主动监测出来,然后去把它重新路由到另外一条路径上去。去年阿里云发布了跨区域的主动式重路由技术。现在,这一技术已运用到跨数据中心的通信里面来,从而在跨数据中心通信上,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。
04
让基础设施更易用、更智能
云计算既为企业提供服务,同时也为开发者设计,用户的开发体验、开发效率、运维效率至关重要。阿里云不断演进基础设施、产品和服务,使其更易用、更智能。
控制台是用户上云第一入口。近年来,阿里云在控制台操作的简易性、效率等方面作了大量优化,让用户在使用控制台的时候有更好的体验。同时,推出多种 AI 助手,进行智能推荐和智能问答。此外,还提供了 Infrastructure as Code 等能力,通过构建更多的 Cloudops 工具,来帮助客户提升部署、管理和运维的效率。
对企业和开发者而言,会非常关心两件事情:第一件事情是自己的应用跑得怎么样?第二件事是使用阿里云的产品和服务,性能、容量、规模到底怎么样?这是可观测性的关注重点。通过一系列的 CloudLens 的服务,阿里云帮助客户分析可用性、性能、成本、容量、安全等,从而提升运维效率、提高业务系统稳定性、降低成本。
/ END /