当前,国内算力市场的发展态势备受关注,万卡集群稀缺与算力闲置浪费并存的矛盾现象,引发了行业内外的广泛探讨。
“中国算力市场从发展初期就陷入了过度碎片化的困境。” 长期关注算力产业的分析师李博士指出,“企业和地方政府盲目采购GPU的现象屡见不鲜。许多企业在未充分评估自身实际需求、应用场景以及后续运营能力的情况下,便跟风大规模采购GPU;一些地方政府为推动当地数字经济发展,在缺乏科学规划和产业调研的基础上,仓促上马算力基础设施建设项目,大量购置GPU设备。这种盲目行为使得算力资源在市场上呈现出分散布局的态势,难以形成规模效应和协同效应。”算力基础设施的物理分布也很不合理,和当年的新能源汽车行业一样,目的就是要去拿补贴,然而当地根本就没有使用算力需求的企业。截止到2024年10月,国内通过官方已经备案的188个大模型中,超过30%后续已经没有进任何进展;约10%仍然坚持序列,其中一半以上已经转向了AI的应用开发,这对国内算力中心的需求又是雪上加霜。如果算力闲置问题继续持续下去,有可能出现卖卡求生的现象了,这可能就意味着前期的算力配套建设的投资基本上就打了水漂。

谈及算力基础设施物理分布不合理的问题,某大型云计算企业的技术负责人王总表示:“从区域分布来看,东部沿海地区经济发达,数字化程度高,对算力需求极为旺盛,但算力供给却相对不足;中西部地区在政策推动下建设了不少算力中心,算力资源相对充裕,可应用需求却严重不足,大量算力处于闲置状态。这种空间上的供需错配,极大地浪费了算力资源。这与当年新能源汽车行业初期为拿补贴盲目扩张产能的情况类似,部分参与者过于关注短期利益,忽视了行业的长远发展。”
对于万卡集群稀缺的成因,技术集成难度高是重要因素之一。从事高性能计算研发多年的张教授解释道:“万卡集群绝非简单的硬件堆砌,它涉及高性能GPU计算、高性能网络、高性能并行文件存储、智算平台等一系列复杂关键技术的深度整合。在GPU计算方面,要保证每张加速卡稳定高效运行并协同工作;高性能网络搭建需确保数据在海量加速卡间快速、稳定传输,避免拥塞和延迟;高性能并行文件存储要支持大规模数据的快速读写;智算平台则要有强大的管理和调度能力,实时监控和优化调配硬件资源。任何一个环节出问题,都会影响整个集群性能。比如网络带宽不足,即便有大量GPU加速卡,计算能力也无法充分发挥,造成资源浪费。”

建设万卡集群的资金投入巨大,这也是制约其发展的关键。金融分析师刘先生称:“以高端GPU为例,单张价格可能高达数万元甚至更高,采购一万张及以上加速卡的成本就是天文数字。除了硬件采购,后续运维成本也不容小觑,需要专业技术团队进行日常维护,包括硬件故障排查与修复、软件系统升级、网络安全防护等。而且万卡集群运行的电力成本持续且高昂,一个万卡规模的智算中心,每年电费支出可能高达数千万元。如此巨大的资金压力,让许多企业望而却步。”
此外,高端芯片获取受限也严重制约了万卡集群的规模化发展。我国在高性能计算和AI硬件方面与国际先进水平存在差距,尤其是在算力芯片领域。目前,高端算力芯片市场被国外厂商主导。由于国际形势等因素,我国获取高端GPU等AI硬件面临诸多限制,这不仅导致算力服务售价昂贵,增加企业运营成本,还使得建设万卡集群时难以获取足够数量的高端芯片。一些企业原本计划建设万卡集群,就因无法按时获得足够数量的高端GPU芯片,项目不得不延期甚至搁置。
在算力闲置浪费方面,规划与需求脱节是深层原因之一。行业研究员陈女士表示:“许多企业和地方政府在规划算力基础设施建设时,没有做好充分的市场调研和需求分析。对自身所处行业的发展趋势、未来对算力的实际需求规模和类型缺乏准确判断。部分企业盲目追求算力规模,忽视了自身业务场景对算力的实际适配性。比如一些传统制造业企业,业务流程对算力需求主要集中在日常办公和简单数据处理,却跟风建设庞大算力中心,导致大量算力闲置。地方政府在规划区域算力建设时,若未充分考虑当地产业结构和企业分布,建设的算力中心也会与实际需求不匹配,造成资源浪费。”
应用场景开发不足同样不容忽视。某人工智能初创企业的CEO林先生认为:“算力的价值需通过实际应用场景体现。目前国内在算力基础设施建设上有一定进展,但应用场景开发相对滞后。很多企业虽有算力资源,却缺乏与之匹配的创新应用。在人工智能领域,大模型发展迅速,但与实际业务深度融合的应用案例还不够丰富。像医疗领域,理论上可利用算力进行疾病预测、医学影像分析等,但因缺乏成熟应用模式和配套软件,许多医疗机构的算力设备未能充分利用。新兴行业如智能交通、智慧农业等,对算力潜在需求巨大,但相关应用场景还在探索阶段,尚未规模化,导致大量算力闲置。”
市场机制不完善也是导致算力闲置浪费的重要因素。一位不愿具名的行业资深人士透露:“当前国内算力市场缺乏完善的市场机制来有效配置算力资源。一方面,算力租赁市场发展不成熟,存在信息不对称、价格不透明等问题。拥有闲置算力的企业,因缺乏信息发布平台和市场渠道,难以将闲置算力出租;急需算力的企业又找不到合适租赁资源。另一方面,算力交易市场规则和标准不统一,不同企业的算力资源在质量、性能等方面存在差异,却缺乏统一评估和定价体系,阻碍了算力资源的流通和共享。比如在算力租赁市场,有些企业提供的算力服务质量不稳定,时常出现故障,由于缺乏市场监管和约束机制,租用方难以维权,影响了企业参与算力租赁市场的积极性,使得大量算力资源无法合理利用。”
总之,国内算力市场面临的万卡集群稀缺和算力闲置浪费问题,是由技术、资金、规划、应用场景、市场机制等多种因素共同作用导致的。要解决这些问题,推动我国算力产业健康、可持续发展,需要政府、企业、科研机构等各方共同努力,从技术创新、合理规划、完善市场机制等多个方面入手,加强算力建设与大模型发展之间的协同合作。