文/黄海峰的通信生活
过去两个月,金融、医疗、教育等企业机构,争相搭上DeepSeek列车,能够将DeepSeek技术快速融入自身业务流程的算力设备成了香饽饽,但近期市场上又出现了新风向。
根据DeepSeek首次披露的成本利润率关键信息来看,根据假定,企业使用DeepSeek理论上一天总收入为562027美元,成本利润率高达545%。这说明DeepSeek确实为企业带来的巨大价值。
所以与之相伴的是,千行百业对DeepSeek的应用更加深入,企业从试水阶段走向重金规模投入。但是,当前算力设备的有限算力难以支撑暴增的用户和访问量,企业需要更大规模的算力基础设施。而选择英伟达H20来部署的话,则面临性能挑战以及被禁的困境。
当企业扩容需求如潮水般涌来,特别是大型企业的大并发推理需求猛增,业界应该如何应对?究竟哪种解决方案能脱颖而出,成为引领行业的关键力量?
DeepSeek出圈,大EP成推理发展方向
DeepSeek的火爆已成为不争的事实。DeepSeek在发布后迎来用户激增,仅用7天注册用户过亿,这一路程ChatGPT走了60天。同时,在DeepSeek发布20天内,有超过160家企业集体“联姻”DeepSeek,加速大语言模型的全面普及。
随着DeepSeek出圈,大模型发展逐渐形成两条路径,即技术摸高和工程创新。
一方面,头部企业不断推动大模型能力持续摸高,算力需求与日俱增。像OpenAI、谷歌、字节等公司,追求更高的性能和更强大的功能,丰富模型组合,加速探索通用人工智能。
另一方面,DeepSeek开辟“工程创新”道路。DeepSeek凭借高性能模型和深开源策略,极大降低了业界部署模型的门槛,使得更多企业能够涉足大模型领域。而且头部客户在反思自身优势的同时,也积极借鉴DeepSeek的优化技术。
基于DeepSeek引起的大模型平权效应,金融、互联网、通信等行业纷纷部署DeepSeek,但随着中大型企业机构对大模型需求从几卡、几十卡扩展到几百甚至几千卡,挑战接踵而至。
例如,某金融企业初期仅需几十卡就能满足业务需求,但随着业务规模扩大和用户量激增,几百卡的集群在高并发情况下,出现严重的性能瓶颈,影响业务正常开展。
上述种种趋势,推动大模型从少量大专家向大量小专家演进。其中,少量大专家模式继续追求性能摸高,用于对精度和性能要求极高的特定场景。同时,大量小专家模式则凭借其高效的计算方式和较低的成本,更适合广泛的应用场景,推动大模型普及。
随着大量小专家的出现,大规模跨节点专家并行(EP)成为推理系统发展方向,它能减少每张卡权重加载时延和显存占用,提升单卡并行路数,提高矩阵乘效率,实现更大吞吐和更低时延。但更多专家也带来了专家负载不均和ALL2ALL通信耗时占比高的挑战。
昇腾大EP:性能、吞吐、并发的全能战士
面对上述种种挑战,昇腾推出大EP推理解决方案,旨在破解高性能、高吞吐、高并发的“不可能三角”,助力各行各业大模型应用落地。具体如何实现?
据笔者了解,昇腾大EP从推理硬件、硬件使能和推理引擎三大层面,构建起全方位的能力。其中,推理硬件是基石,昇腾具备海量推理资源池,为大模型推理提供强大计算能力;硬件使能层负责对硬件资源进行有效管理优化,具备算子库、算子执行ACL等;推理引擎是核心部分,昇腾具备MindIE LLM、MindIE RT等,实现高效推理过程。
企业最关心的是,大EP推理解决方案能为客户带来哪些提升?笔者总结了三点。
一是更高性能。大EP方案通过将专家分布到更多卡上,降低权重占用和加载时延,从而做大并发,实现更高吞吐和更低时延。
在多专家负载均衡方面,大EP方案能做到跨机器部署,不管是一百张卡还是一千张卡的大规模场景都能适用,通过均衡分配任务(MoE负载均衡)和灵活安排数据处理阶段(自适应PD分离部署),让每张卡处理数据的能力更强。
在通信优化方面,大EP方案对数据传输方式进行优化,比如采用新的并行处理方法,即双流和多维混合并行,把小的数据处理步骤合并成大步骤,让数据传输更快。
二是极致吞吐。大EP方案能大幅提升数据处理速度,单卡性能能提升到原来3倍。
对于刚开始尝试使用大模型的中小企业,可配置2台机器共16张卡的设备。对于深度使用大模型的大型企业,可配置P节点机16卡加上D节点机8台64卡,甚至可扩展到1024卡以及9216卡的规模进行大EP推理。
经过测试,如果用DeepSeek V3/R1 - 671B模型,采用64卡的大EP方案,单张卡每秒处理的数据量(Tokens),从原来的80提升到240,整整提升3倍,非常可观。
三是更高并发。大EP方案能减少每张卡的内存占用,让设备能同时处理更多任务。
以DeepSeek 256个“专家”分工处理数据,输出长度为256为例,如果用的卡数量(EP 卡数)越多,每张卡需要处理的数据量越少,占用内存就会降低,从而每张卡能同时处理的任务量(并发)会更大。
同时,随着卡数量从16张增加到288张,数据处理的关键步骤(Decode)所花费时间能降低50%。究其原因,是因为卡数增多,每张卡处理数据量减少,加载数据时间减少。
上述成效的取得,离不开MoE负载均衡、自适应PD分离部署、双流/多维混合并行、MLAPO融合算子和适配MTP五大硬核技术作为支撑。
以MLAPO融合算子技术为例,在MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高。而昇腾MLAPO融合算子将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销,降低计算耗时70%。
再来谈谈适配MTP技术,昇腾早于DeepSeek研究类似MTP(多Token预测)技术,即Draft Decoding启发式解码。DeepSeek通过MTP技术实现性能提升,每次生成两个Token,且第二个Token准确率较高。而昇腾Draft Decoding技术可生成多个Token,减少读取和等待时间,提高采信率,降低冗余计算,使多用户并发提升至少2倍。
为什么选择昇腾大EP?方案、性能、生态三管齐下
你是否也好奇,昇腾不乏强劲的竞争对手,为何企业纷纷选择昇腾?以英伟达为例,昇腾具备显著优势。在硬件性能方面,昇腾针对AI推理进行专门优化,打造出计算能力强大的硬件资源。在某些场景下,其单卡性能与英伟达相当,甚至在特定任务上表现更优。
拿最近很火的英伟达H20来说,其FP16稠密算力为148TFLOPS,是H100算力的15%。同时,H20的内存带宽为4.0TB/s,低于顶级H100的8.0TB/s。此外,H20还面临禁售风险,企业不仅在硬件采购上面临困境,后续技术支持、升级维护等也将陷入被动。
在软件生态方面,英伟达CUDA生态虽然成熟,但存在一定封闭性。昇腾软件开源且开放,兼容业界主流框架,开发者能使用熟悉的框架进行开发,降低开发门槛,提高开发效率。
综合来看,昇腾是更适合中国企业体质的大模型落地“最优解”。
首先,方案最全。昇腾提供从预训练到微调到强化学习,再到推理集群的全流程解决方案。无论是金融、政务还是医疗等行业,昇腾都能提供合适方案。同时,昇腾是业界首个复现DeepSeek R1强化学习流程,并沉淀到套件,使能客户快速完成后训练。
其次,性能最优。昇腾凭借MTP、MLA、大EP并行等技术亲和架构,充分利用底层资源,释放极致性能,并且昇腾是国内唯一与DeepSeek团队深度适配并实现Day0发布的厂商,在市场竞争中占据优势。
最后,生态最好。昇腾软件开源开放,兼容业界主流框架和推理引擎,助力业界高效自主创新。截至目前,已有超100家伙伴基于昇腾打造DeepSeek方案,25家人工智能中心上线,满足各行业场景需求。
笔者观察:昇腾大EP+DeepSeek,中国算力突围的破局之道
昇腾大EP方案与DeepSeek的强强联合,正在重构全球AI产业竞争逻辑,二者的双向奔赴打破了传统竞争模式,不再单纯追求硬件的高性能,而是注重技术的创新和优化,以智取胜,它让中国企业在AI领域有了更大的话语权。
当DeepSeek的开源生态与昇腾的硬件优化深度结合,为中国企业在算力受限情况下,开辟出一条“低成本、高性价比”的AI普惠之路。中国企业可以以较低成本,获取强大的AI能力,加速大模型在各行业的落地应用。
千淘万漉虽辛苦,吹尽狂沙始到金。随着中国AI产业步入"智算效能"竞争新纪元,全球AI竞赛的决胜点也已悄然转向,即谁能在单位算力内创造更大价值,谁就能掌握智能时代的制胜密钥。对于中国AI产业的未来,笔者很是期待。