4月9日-13日,2024 ASC世界大学生超级计算机竞赛(ASC24)总决赛即将在上海大学举行。从全球300多支参赛队伍中晋级的25支队伍将继续向AI大模型优化发起挑战——参赛队伍要基于开源大语言模型AquilaChat2-34B,构建并优化推理引擎,在组委会提供的样本数据集上使用4比特及以下量化来进行推理,在保证精度的前提下提升推理速度。各参赛队伍需要充分了解并掌握大模型常见的量化策略与并行方法,并学习使用各种技术来优化推理过程。
推理优化:大模型应用落地关键
随着大模型技术的飞速发展,AIGC技术的切实落地应用成为焦点。然而,AI大模型庞大的参数量面临着巨大的计算资源需求与计算效率挑战。在技术发展的同时,只有不断提高大模型的运行效率、减少资源消耗并改善用户体验,才能让大模型实现规模化应用,将生产力和创新力更好释放到千行百业。
因此,大模型推理优化技术已经成为AIGC领域的前沿技术课题,其是指对具有大量参数的复杂AI大模型进行有效的推理运行过程优化,实现更低延迟和更高吞吐量,使得大规模AI模型能够在有限的计算资源下高效运行,大幅降低对计算设备的需求与计算成本。
ASC超算竞赛一直聚焦前沿科学,引导大学生学习、使用最新的计算产品和技术,探索和解决当下最紧迫的科技创新问题。一直以来,ASC竞赛特别关注人工智能领域的最新动态,已经连续多年将AI热点技术纳入赛题,这不仅推动了超算与AI计算的融合发展,也为培养下一代的AI计算人才提供了宝贵的机会和平台。
大模型4 bit量化:在精度与效率之间追求极致平衡
模型量化(Model Quantization)是大模型推理优化的主流技术之一,旨在通过减少表示权重或激活值所需的位数来实现模型压缩,降低模型的大小和计算复杂度。然而,压缩模型可能会影响其性能,如何在压缩的同时保持模型精度,是量化技术的核心挑战。
ASC24总决赛将要求参赛选手基于开源大语言模型Aquila2-34B进行量化推理加速。Aquila2-34B是智源研究院发布的悟道・天鹰340亿参数开源中英双语大模型,在推理、泛化等方面表现出色,在智能体、代码生成、文献检索等场景方面取得了一系列成绩。
在大模型推理优化比拼中,参赛选手需要将AquilaChat2-34B所需的推理权重减少到4 bit及以下。当前,低位量化技术已经成为大模型量化的重点趋势,相较于FP16(半精度浮点)或者8 bit的量化要求,4 bit及以下量化能够更大程度减少模型的内存占用和计算资源消耗,但对于精度损失的控制挑战也更大。本届ASC参赛选手们要在保证推理精度的前提下尽可能提升推理速度,以减少推理时间。
要想在这道赛题中取得佳绩,各参赛队伍需要充分了解并掌握大模型量化的策略与方法,并在3000W的限制下进行数据并行加快推理,在精度损失和计算效率之间追求极致平衡。
大模型推理优化赛题,不但可以让参赛选手掌握大模型量化策略,探索更加有效的推理加速技术,降低大模型应用落地门槛,激发他们深度参与人工智能产业的热情,同时也预示着超级计算领域正在主动拥抱大模型,并将在大模型应用中发挥重要作用。大赛鼓励参赛队伍做更多更深的优化工作,将大模型的推理性能提升到极致,也期待竞赛中涌现出令人惊喜的高质量创新成果,未来顶尖人工智能科学家也许就来自本次参赛队伍当中。
ASC世界大学生超级计算机竞赛(ASC Student Supercomputer Challenge)由中国发起组织,并得到亚洲及欧美相关专家和机构支持,旨在通过大赛平台推动各国及地区间超算青年人才交流和培养,提升超算应用水平和研发能力,发挥超算的科技驱动力,促进科技与产业创新。ASC超算大赛迄今已举行至第十一届,吸引来自全球六大洲上万名大学生报名参赛,是全球最大规模的大学生超算竞赛。