春节假期渐近尾声,可“神秘来客”DeepSeek在全球范围内掀起的讨论热潮丝毫未减。各路行家纷纷从不同维度解读DeepSeek的模型与技术,试图揭开它神秘的面纱。其中,韩国Mirae Asset Securities Research分析师在X平台发表的长文引发轩然大波,文中指出:DeepSeek在大模型研发过程中,绕过了英伟达的CUDA,通过大量细粒度优化与英伟达汇编式PTX编程实现了技术突破。
CUDA作为英伟达开发的通用编程框架,让开发者能借助英伟达GPU进行通用计算。以往,大模型开发商基于CUDA研发,就像在高级语言环境下作业,调用现成接口即可,开发难度大大降低。不过,这种便利性也牺牲了执行效率,就像穿了一件宽松却不太合身的衣服。而且,CUDA通用性虽强,但面对多机多卡训练时对GPU精细控制、数据传输等特定需求,它就显得力不从心了。
那绕过CUDA意味着什么呢?北京航空航天大学黄雷副教授给出了解读。当开发者仅使用单个GPU,CUDA是个不错的选择。但在多节点多GPU协作场景下,CUDA的通用性反而成了阻碍,抽象层面效率较低。而绕过CUDA,直接基于GPU驱动函数开发,能实现更细粒度的操作。比如DeepSeek在多节点通信时采用PTX,虽无法直接提升硬件性能,却能通过算法高效利用硬件加速,为模型输送更多数据,间接提升模型效果。
其实,绕过CUDA并非DeepSeek首创。开源的Triton编程框架就是CUDA的有力竞品,北京智源研究院的研究人员就曾基于Triton加速英伟达及国产GPU,这也是一种绕过CUDA调用GPU驱动函数的实践。
不过,绕过CUDA开发并非易事。PTX语言虽能实现更精细的GPU控制,但代码复杂、维护困难,要求开发者既懂AI模型算法,又熟悉计算机系统架构,能高效分配硬件资源。DeepSeek能在技术报告中提及绕开CUDA进行通信,说明其团队具备强大的人才储备与协作能力。
从DeepSeek的技术报告来看,其学术研究并非独树一帜,但工程实践技巧高超。AMD宣布将DeepSeek-V3集成到MI300X GPU,未来或许会有更多GPU厂商与DeepSeek展开合作。而且,DeepSeek此举还有更深层次的意义。在“GPU短缺危机”因美国制裁加剧的背景下,它展现出的紧迫感与创造力,为行业发展开辟了新路径。
如果DeepSeek未来适配国产GPU,凭借其绕过CUDA积累的经验,只需了解国产硬件驱动的基本函数接口,就能仿照英伟达GPU的编程接口编写代码,让自家大模型更易适配国产硬件,为国产GPU发展注入新活力。