让算力成为“算利”探索大模型时代的算力优化之道

科技曼曼讲 2023-12-13 06:00:01

从古代的算盘到如今的超级计算机,人类算力能力的承载形式在不断变革。随着以ChatGPT为代表的生成式AI席卷全球,一个个大模型如雨后春笋般涌现,作为底层技术支撑的算力再度成为业界关注焦点,核心话题之一便是高昂的算力成本。对于企业来说,如何在平衡算力与能耗开支的前提下,高效地利用和管理算力资源为企业数字化转型赋能,创造更多的企业价值,成为其必须解决的难题之一。

算力进入“积木化”时代 高效调度成突破算力发展瓶颈“杀手锏”

超大基础模型的训练需要多项关键技术作为支撑,其中算力、算法和数据被喻为驱动AI向前的“三驾马车”。以算力为例,智能算力可为大规模的人工智能算法和模型训练提供基础支撑,随着AI与各行各业交融深入,催生了海量的算力需求。

众所周知,大模型是一项“烧钱”的业务,而“烧钱”的最主要原因由于大模型的计算复杂度很高,每次训练都需要使用大量的算力来进行计算和推理。根据 OpenAI 公开数据推测,如果按照每秒 1000 万亿次的计算,每次模型训练需要3640 天的计算能力,且全球 AI 训练所用的计算量,平均每3.43个月便会翻一番,增速惊人。

与算力需求一路高歌猛进形成鲜明对比的是,当前在算力使用上仍面临许多挑战,存在着利用率低、混合算力协同调度难等问题。相关数据显示,目前我国对通用算力的利用率仅为百分之十几,大量的算力资源在沉睡中等待被唤醒。在此背景下,如何汲取硬件资源提供的每一滴能力、加速模型的训练速度成为行业首要考虑的问题,其中,尤以算力调度能力在这一领域发挥着至关重要的作用。不仅仅是因为它可以最大化利用现有资源,更因为它能够灵活地适应不同业务场景的需求,提高整体效率。因此,依靠科学的调度算法,有效提高算力调度的能力和使用效率,成为突破算力发展瓶颈,持续满足大模型算力需求的必然之道。

算力服务新赛道 看基础设施服务厂商如何“见招拆招”

术业有专攻,想要提升算力的利用率,往往要依赖基础设施服务厂商。充沛的底层基础设施的支撑能力,已成为考验各个服务厂商技术实力的重要标准之一。以业内首倡私域大模型的新华三集团为例,其推出的傲飞算力平台在这方面表现出色,该平台实现了多元异构算力调度的“最优解”,使得算力可以最大化按需调度。

傲飞算力平台的核心优势在于它的异构计算资源统一管理和多元算力资源智能调度能力,支持包括智能训练、智能调优、智能部署、智能推理在内的全流程算力智能调度能力。据官方数据显示,该平台能够将算力利用率提高至70%以上。同时,还支持8000节点的算力调度,可以将并发训练时间缩短至50%,并实现断点自动接续无感知训练,在既有GPU资源下能全方面提升大模型训练性能。

在算力成本日益昂贵的时代,新华三傲飞算力平台的出现,代表了一个新的趋势:算力作为一种资源,正在变得越来越“智能化”。这种智能化不仅体现在算力资源的调度上,更体现在它如何与企业的具体业务需求相结合。通过智能化的算力调度,企业可以更精准地预测和规划其资源需求,从而实现更高效的运营管理。

与此同时,在分布式训练等场景下,新华三以智能无损网络支持AI集群训练,并配备高性能存储带来更好的底层存储支撑,以绿洲平台提供高可用、高可靠、高质量的AI训练数据,从而构成一套完整的智算解决方案。总体而言,这一整套高性能算力集群及调度让客户能够实现算力、存储力、运力协同感知,实现算力资源充分供给、灵活部署、异构算力最优调度,有效解决AIGC的应用部署,让企业用好算力资源。

当前,大模型行业正处在发展的关键阶段,算力作为刚需生产力之一,对大模型的发展有着重要意义。可以预见的是,随着人工智能技术的不断创新,算力的应用场景也将日益丰富,对高质量的算力需求将会持续激增。面对未来行业发展的诸多不确定性因素,我们需要诸如新华三一样优秀的基础设施服务商,为大模型的发展提供确定性的技术支撑,让企业能够从容应对时刻变化的市场行情。

0 阅读:0

科技曼曼讲

简介:感谢大家的关注