在人工智能与高性能计算的激烈竞争的当下,一则重磅消息引发广泛关注:DeepSeek绕过了英伟达的CUDA框架,为国产GPU的适配与发展带来了新的曙光。
![](http://image.uc.cn/s/wemedia/s/upload/2024/49812fdd36cb21968ecbd478a1081ff7.jpg)
长期以来,英伟达凭借CUDA构建的软硬件生态壁垒,在GPU及AI计算领域占据主导地位。CUDA自2006年推出,是包含编译器、函数库、开发工具链的完整生态系统,全球90%以上的深度学习框架默认支持它,使得开发者对英伟达硬件平台形成路径依赖。这让非CUDA生态的GPU,尤其是国产GPU面临“有卡无生态”的困境。
![](http://image.uc.cn/s/wemedia/s/upload/2024/cade9723cb5c686d057572d76570f1b8.jpg)
而DeepSeek在使用英伟达H800芯片训练时,采用英伟达底层硬件指令PTX语言,绕过了CUDA。PTX语言能让开发者直接接触硬件底层,实现更细粒度的操作和优化。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d755dac49904e7c8f098aea61b918a6e.jpg)
DeepSeek此举具意义重大。从技术层面看,打破了CUDA的性能限制,可实现更高效的模型训练。从产业层面讲,为国产GPU的发展提供了强大的软件支持。它已全面适配华为昇腾系列AI处理器,还完成了与天数智芯、摩尔线程等国产GPU的适配工作。
![](http://image.uc.cn/s/wemedia/s/upload/2024/aea2be0edd28c394f361c80e341cdda1.jpg)
DeepSeek在推动国产GPU适配的道路上也面临诸多挑战,如CUDA成熟的开发者生态与丰富工具链难以复制,重建生态、吸引开发者任重道远。