4月1日-2日,以“大拐点 新征程”为主题的2025中国生成式AI大会(北京站)隆重举行。
在这场汇聚了50余位产学研嘉宾、1500名观众的盛会上,GMI Cloud 亚太区总裁 King Cui发表了主题为《AI推理的全球算力革命:从单点爆发到全球扩容》的演讲。
其提到,GMI Cloud的核心价值在于:通过顶级生态协作获取高端硬件资源,依托自研Cluster Engine云平台和Inference Engine推理引擎云平台实现算力的全球化智能调度、扩容与极致性能释放。
在目前这个AI推理的时代,重构AI算力的成本效益模型,为AI应用的研发提供“随需而变”的全球化算力底座,助力企业在用户激增、竞争激烈的全球市场中,以算力优势构筑商业壁垒,推动“全球AGI”从技术可能迈向商业必然。
随着DeepSeek等国产大模型改写全球商业竞争格局,AI应用出海浪潮席卷全球。King 在演讲中分享了一个数据:“中国AI应用下载量年增速超100%,但算力稳定性与成本效率仍是核心瓶颈。”在全球AI应用爆发式增长的产业变革期,算力已成为驱动技术落地与商业扩张的核心生产要素。
作为NVIDIA全球TOP10 NCP,GMI Cloud 目前已在北美、欧洲、亚太部署12座数据中心,帮助企业实现全球算力调度与扩容。GMI Cloud深耕AI全球化的算力基础设施领域,以“技术纵深+全球布局”双轮驱动,构建起覆盖硬件适配、弹性调度、性能优化与稳定保障的全栈解决方案,破解企业出海面临的算力部署难题。
以下为King Cui的演讲实录精华:
大家下午好!我是来自GMI Cloud的King Cui,今天为大家分享的主题是《AI推理的全球算力革命:从单点爆发到全球扩容》。从GMI Cloud的角度出发,我们探讨如何帮助企业实现全球化的推理云服务。
一、GMICloud:从GPU硬件架构到顶层应用,建立全栈AI基础设施平台在今天正式演讲之前,我首先快速地和大家再介绍一下GMI Cloud,我们是一家AI Native Cloud公司,致力于为全球化AI应用提供英伟达最新的GPU云服务。作为NVIDIA全球TOP 10的NVIDIA Cloud Partner(NCP),GMI Cloud与NVIDIA保持密切合作,定期进行技术交流,以帮助我们将AI应用做的更完善。同时,得益于投资者的支持,GMI Cloud在亚太地区拥有最新的GPU分配权,能够快速获取最新、最强的GPU云服务。
我们推出了“Cluster Engine自研云平台”,专注于为从事大语言模型、文生图、文生视频模型的公司提供训练云平台的支持。同时,因为GMI Cloud相信,未来的AI应用将快速遍布全球,未来将是一个全新的“推理世界”,Token changes the world,因此GMI Cloud面向全球打造了AI推理引擎平台“Inference Engine”。
(上图)从技术架构来看,GMI Cloud提供从底层GPU硬件到支持应用层的全栈服务:
第一,底层提供NVIDIA生态体系内最新、最强的GPU云资源,同时也提供适合AI存储的云服务,支持NVMe高速存储和普通存储,适配不同场景的存储介质,提供不同的云服务。在网络层面,我们提供高速带宽的数据通道,确保AI应用的高效运行。再往上就是MaaS( Model as a Service)模型的推理,同时我们集成了大量已经开源的大模型,并且基于自己的技术自研了Inference Engine推理引擎平台。
第二,GMI Cloud研发了一套计算存储网络,具备laaS能力。在计算资源方面,提供裸金属服务器、云主机、K8s云服务等多种计算形态。
第三,MaaS(Model as a Service)层集成了大量开源大模型,并基于Inference Engine自研推理引擎平台,将英伟达H100、H200或更先进的B200进行适配,以提升模型的token吞吐速度。同时,我们具备端到端的监控能力,帮助企业快速发现、定位和解决问题。
第四,应用层得益于各行业企业的实践。特别强调的是,IaaS层和MaaS层均为GMI Cloud自主研发,MaaS层还支持所有B2B服务企业接入,以MarketPlace的方式为企业提供更好的MaaS服务。
二、AI 应用全球化服务趋势下,推理服务的及时性、扩展性、稳定性是核心挑战自2022年底OpenAI发布ChatGPT以来,AI产业在算力和模型方面投入巨大,每隔三到六个月,大模型能力便提升一个台阶。
如今,多模态大模型的生成内容质量更高,同时,如今的大模型对物理世界的理解及生成质量的可控性也更强,而且许多公司都已经具备这些能力,在产业层面,这为应用层的爆发提供了很大基础。可以说,AI的应用爆发具备了技术条件。
2024年,全球AI应用产品已有1890个,其中中国相关产品有356个,出海产品有143个。从访问量来看,2024年初为30多亿,年底已超过140亿,增速超过300%。AI下载的应用数量也比以前有所增加,中国AI应用出海在大规模高速增长。
所以如果大家要做出海,就需要了解在就近国家是否有相应的应用算力提供服务。我们摘取了中国头部应用出海的下载量情况(如图):
中国AI应用出海主要集中在美国、印度、亚太、德国和欧洲等地区。收入方面,美国付费意愿较强,亚太地区则以东北亚和东南亚部分地区为主。
中国头部出海AI产品的下载主要集中在印度、亚太、德国和欧洲地区。从收入角度来看,美国的付费意愿相对较强。
从全球化角度分析,中国的AI应用已经得到了全世界的广泛认可,大家的出海在商业化层面已经迈出了一大步。这里有几个例子,首先是Manus,前段时间非常火爆,发布7天之内达到了200万的等待清单,原因是后端的算力和Web Service不足以支撑那么多用户的请求。Deepseek在春节前也非常火爆。它创造了全球所有应用获取用户从0~1亿的最快速度,7天达到1亿。当时大家用时发现很多服务不被响应,这也是因为后端算力不足以支撑这么多请求量。当大量用户涌入时,如果后端的推理云服务算力能够及时跟上,整个服务的稳定性和响应及时性将显著提升,从而帮助提高用户留存率。
从这两个案例中,我们发现在AI全球化服务浪潮下,推理服务的及时性、可扩展性和稳定性是提高用户留存的核心。
总结一下就是,当AI应用选择出海,它将会分布在欧洲、美洲、东南亚、东北亚以及拉美等各个地区,因此大家需要找到在不同地区提供就近的推理算力服务商,以响应AI应用请求。当用户增长爆发时,推理相关的算力弹性还需要提高才能满足客户需求,这意味着云厂商的推理服务需要具备自动扩容能力。
在具备大规模用户在线时,我们要考虑如何保障AI应用的稳定性和可靠性。
GMI Cloud推出的推理服务能够有效应对上述挑战。在英伟达技术峰会GTC上,我们发布了GMI Cloud Inference Engine。这套Inference Engine部署在我们自己研发的Cluster Engine上,Cluster Engine专注于做云管平台,目前整个中间态部分,这是一套自己研发GM I云推理引擎的全球调度策略,能够帮助企业客户在全球范围内就近调度所需要的GPU云服务。
为了应对AI应用的推理需求,Inference Engine主要包括四个特性:
01弹性伸缩,跨集群自动扩容
AI应用的全球用户分布广泛,资源靠近用户可显著降低延迟,而在推理过程中,资源越远,用户推理请求的延时就越高。当用户量快速增长时,系统需快速弹性扩容,提供大量GPU云服务。在CPU云时代,大家都知道ECS的CPU云服务速度非常快,每分钟可以谈论几十万核,而在GPU时代,对资源的可控性和调度准确性要求非常高。
根据不同客户的需求,我们的服务节点主要分布在欧洲、美洲和亚洲(尤其是东北亚和东南亚地区),Inference Engine能够动态感知用户网络压力负载,根据负载变化调整负载均衡;基于不同IP请求调度到不同地区,并且利用不同地区的资源提供inference服务。同时,我们的调度服务也支持与企业内部自建的GPU集群之间进行打通,实现统一调度。
02可视化部署工作流,快速高效部署
对于AI应来说,部署分布式推理集群虽然不难,但整个流程较为复杂。首先需准备对应资源,然后下载模型服务,进行资源配置,最后进行软硬件调优。这整个流程耗费企业的Inference团队人力资源。
针对热门开源模型(如DeepSeek、通义千问和Llama等),GMI Cloud已完成高端GPU云资源的适配,企业可直接在Marketplace上部署;针对自研模型,Inference Engine提供可视化工作台,支持从部署镜像构建到推理服务上线的全流程可视化操作、零代码操作。
03集成最先进的高性能GPU,提供高效推理性能
Inference Engine已集成英伟达最先进的高性能GPU服务。根据英伟达提供的DeepSeek-FP4版本报告,优化后的H200的token吞吐量是H100的6倍,B200的token吞吐量更是达到H100的25倍。从效率和经济成本来看,使用更先进、更高性能的GPU,实际上综合成本会下降。黄教主说,”The More You Buy,The More You Save“。
04主动监控:自动容错+故障诊断+极速恢复
大家都知道提供目前的云服务不可能是SLA Service 100%,但GMI Cloud尽可能提供主动监控功能,帮助所有企业用户及时发现问题。
GMI Cloud拥有一个可视化的云推理监控服务平台,可以看到整个IP请求从进来到落到每台服务器上,以及整个网络链路上出现拥塞。我们可以精准定位问题、找到问题原因并以最短的停机时间快速修复。所有流程都可以在Inference Engine控制台上实现可视化。同时GMI Cloud可以将API暴露给所有企业,帮助企业提升自己的监控管理平台。
GMI Cloud致力于提供全栈AI基础设施,包括一朵云和两个引擎(Cluster Engine和Inference Engine),Cluster Engine为企业客户提供高稳定性的模型训练服务,Inference Engine则为企业客户提供走向全球化应用的AI推理服务。
感谢大家的关注,希望大家的AI应用出海越来越顺利!