AI时代,人人都能通过AI创作属于自己的音乐。将元素周期表或圆周率当做歌词喂给SunoAI,一分钟内就创作出完整的歌曲,并在网络上爆火。这在以往的创作过程中简直不敢想象。SunoAI作为一款能根据简单描述快速生成好听抓耳歌曲的AI工具,继对话、绘画、视频之后,再一次在辅助人类工作的新领域,展现出强大的潜力。
在AI应用不断发展,以AI PC、终端入口等形态帮助人类实现更多价值的背后,用户快速增长的需求需要越来越多的算力资源。即便企业对于混合算力资源的建设也在快速丰富,却依旧应接不暇。AI行业正在面临严重的“算力缺口”,目前用户往往需要排队等待,才能用上自己的AI工具。想要减少排队时间,提高用户体验,就要想办法增大算力资源池。
联想集团发布了2023/24财年Q4财报,并同时发布了一支《人工智能的风口浪尖,如何驾驭海量算力?》品牌主题科普视频,首次展现联想万全异构智算平台HIMP,解释了混合算力资源为何供不应求,并深刻剖析在当下,各行各业必须意识到从硬件堆叠向软件基础设施转变才是大势所趋。
视频中使用UE5引擎模拟出地球上算力资源被人类利用的宏大画面,并采用3D max三维动画,AIGC等技术,用酷炫且直观的视频效果,让受众方便理解视频中GPU的虚拟切割,跨集群调度算力等抽象的概念。让我们看到如何才能通过软件平台释放未被有效利用的算力资源,解决算力缺口。
从智能音响到SunoAI、AI PC,AI工具不断迭代,已经获得了长足的发展。联想集团董事长兼CEO杨元庆在2024年Lenovo Tech World大会上表示,混合式人工智能是人工智能发展的大势所趋。
比如,混合式人工智能中的个人大模型在经过授权后,可以学习用户的操作习惯、工作记录、文件文稿,并通过简单的命令直接调用。例如,你只需要一句简单的指令,它就可以调取关于去年品牌营销日做出的全部提案及最终落地的海报和文章,并汇总出大纲方便查看。
在混合式人工智能引发AI热潮的同时,企业需要大量算力资源对AI工具提供支持。如果资源不足,就只能让用户继续排队轮流使用,或者限制每日使用的次数,才能实现平衡。
虽然在过去的几年时间里,已经有大量芯片被投入数据中心的建设中,为人工智能提供算力资源,各大企业已经基本度过了数据中心基础搭建阶段。但使用过程中,大家发现GPU芯片数量的增加很难跟上算力需求的爆发性增长。芯片采购受到多方面限制,芯片堆砌也有其瓶颈和上限存在,并不是拥有无限的芯片就能产生无限算力这么简单。
另一方面,尽管企业已经投入巨资建设数据中心,却未能发挥出芯片的全部能力。通常仅仅挖掘出了30%的潜力,远未触及其真正的峰值性能。算力资源就如一座冰山,沉在水中等待开发的部分比露出水面的部分还要大得多。
行业急需一款帮助数据中心提高算力利用率的软件平台,从现有的数据中心硬件中榨取更大量的混合算力资源,加速AI发展。
联想HIMP,全称联想万全异构智算平台(Lenovo Wanquan Heterogeneous Intelligence Management Platform)也在此时应运而生。作为一款智能匹配调度最佳算力并提高芯片效率的企业级软件平台,来解决硬件发展受阻的现状。
你可能没听过联想HIMP这款企业级的算力软件,但想象一下,在AI时代,打开购物网站时,琳琅满目的商品中,总能找到最适合你的那一款;在冰雹等极端气候降临前,科学家们加速用大模型进行预测,并研究解决方案。这一切的背后都存在着混合算力的撬动和使用。
想要理解这一神奇的软件平台如何提升我们的AI体验,要先从企业数据中心的构成说起。
视频展示了从GPU的内部芯片到多卡组成计算集群的完整结构。形态各异的AI集群、通用计算集群和高性能计算集群共同提供了企业大模型运行所需的混合算力。
它们的硬件组成、应用方向、拓扑结构、调度方式都各不相同。想要高效利用混合算力资源,让不同集群齐心协力完AI训练成任务,就需要异构计算平台在其中充当组织者。感知是调用的前提。联想HIMP通过全新的拓扑感知机制,像雷达一样快速扫描不同结构的集群网络,找出各种拓扑结构中为AI提供最佳训练效果的GPU节点。
倾向于任务快速部署的AI集群和倾向于最大化计算资源的HPC集群之间,会出现调度冲突和资源争抢的情况,影响运算效率。
HIMP内置的超级调度器,可以全局自动管理不同集群下的GPU资源,并根据任务优先级和资源空闲状况进行巧妙的动态分配,让不同集群下的GPU资源获得充分利用,不再出现部分核心占满,其他核心却空闲的情况。
这一有些抽象的概念,视频使用自然界中蚁群觅食的状态来阐释。我们可以看到,大量蚁群在复杂的环境中行进时,会探索各种路径,并通过信息素的交流最终统一在最优路线上行走。采用蚁群仿生学算法可以减少数据在网络中消耗的时间。即使在千卡规模的集群下,驾轻就熟地找到最佳路径。
在中小训练和AI推理这类无须一整颗GPU资源的工作中,视频使用三维动画展示了HIMP在驱动层将GPU虚拟化,把一颗GPU拆分成若干可虚拟GPU的过程。最终大幅度减少了算力浪费,提高算力利用率。
进行了以上多种优化后,HIMP已将资源最大化地投入AI训练之中。但还有最后一个难题:断点续训。
在AI训练时,出现故障的情况并不罕见。每次故障都会导致整个计算集群的停摆,实践数据表明,恢复模型训练需要2小时,而这样的故障每月要发生15次。
而HIMP以大模型之力拯救大模型。提取AI训练断点故障的数据,练成AI模型,对整个模型训练过程进行预测,找到高危节点,并提前进行备份。这样可将断点续训时间缩短至最低1分钟,大幅度提高了训练效率。
正如视频中所演示的,在节点故障导致训练算力完全停止流动时,一旁提前由大模型准备好的备份节点马上接入训练流程。代表算力的光点从备份绕过故障节点,重新开始高效流动,AI训练工作恢复如初。
至此,HIMP对AI训练中感知、调度、加速和应用全流程的优化全部落地,这是算力资源在软件层面上一次颠覆性的变革。随着链路被打通,混合算力资源终于被世界分身所用。联想HIMP释放的海量混合算力大幅度加速了AI训练迭代和大模型升级的速度,同时也为用户在生产和创造过程中使用AI提供了强大支持。
在这支深度科普视频中我们在科技感十足的画面中见识到数据的流动、算力的调用原理,了解到联想万全异构智算平台HIMP能够给予企业数据中心软件层面的加持,优化数据中心工作效果,让现有的基础算力设施更好地发挥作用,从而更好地驾驭海量混合算力,与联想AI PC一起加速AI发展。联想集团董事长兼CEO杨元庆曾提到,人工智能的下半场,一定是从技术突破到应用落地。联想HIMP通过充分释放企业基础算力设施的海量混合算力,解决当前算力紧缺的问题,加速了AI大模型的迭代更新,使先进的AI工具更快投入实际应用。未来,用户也能在充沛的算力资源下自由使用AI辅助创作。在联想集团HIMP的推动下,AI普惠的愿景正在稳步实现。