DeepSeekR1用15分钟生成GPU内核代码，性能竟然比传统优化更强

不久前的一次技术会议上，有人提出了这么一个问题：“如果有一天，编写底层代码的程序员被机器替代了，该怎么办？

”这话让不少人皱起了眉头。

程序员往往被认为是技术行业的核心——许多人觉得，这么复杂的领域是机器无法企及的。

英伟达最近用实际成果挑战了这一传统认知。

他们让AI模型 DeepSeek R1试着去写GPU内核代码，而短短15分钟的实验，成果竟然比许多人类工程师的手工优化还要优秀。

这件事，为我们理解“未来编程”打开了新的视角。

打造全新开发方式：AI 解锁 GPU 内核代码编写

写程序，尤其是底层代码，一直是被认为需要高度技巧和专业经验的事情。

尤其是GPU内核代码，听起来就很令人头晕——这些代码负责控制硬件的深度运算能力，稍有错误可能就会导致整体性能大打折扣。

不少工程师熬了多少个深夜，才能在这些代码上找到一个稍微好一点的优化方案。

英伟达团队决定试试另一种思路。

他们不是靠人来硬啃，而是打开了自动化的大门。

他们把任务交给了一个叫DeepSeek R1的AI模型，让它来写Attention机制（这是一种广泛用于深度学习的关键技术）相关的GPU内核代码。

怎么让机器写这种看似“高智商”代码呢？

这很考验设计者的方式。

英伟达不是直接让AI一次性解决问题，而是让它先写一版初步代码，然后通过不断的测试反馈继续优化，直到生成一个出色的结果。

这种流程被称为“闭环验证”，就像用一套循环式方案培养了一位虚拟的程序员。

推理时序缩放：让 AI 具备“长思考”的能力

人能越想越清楚问题，机器当然也可以。

英伟达能够让DeepSeek R1完成任务的另一个关键点在于他们借助了一项名为“推理时序缩放”的技术，说得简单点，这让AI具备了一种类似“慢慢想仔细点”的能力。

平时在机器运行时，时间是宝贵的，所以任何计算任务都需要用最短的时间完成。

但英伟达的想法是，既然时间够用，为何不给机器更多的计算资源，让它自己在模拟中多试几种解决问题的办法？

这个思路就像是，我们在做复杂选择时给自己多一些时间反复推演，从而找到最终的最优解。

这是计算机技术的一次逆向思考，以时间换取代码的质量。

举个例子，这次实验给DeepSeek R1预留了15分钟的时间，这期间，模型能够创建多个优化版本，并通过不断反馈和调试，逐步得到性能提升显著的代码结果。

试验发现，给予更多时间确实对AI的解决方案质量有很大提高，这也让“推理时序缩放”的未来应用充满想象空间。

闭环验证：AI 的程序员与代码评审员合作方法

可能有人纳闷，AI生成的代码怎么知道有没有问题呢？

这里的关键是一个闭环的验证机制。

系统会自动生成一个版本的代码后，再交由另一个部分的程序——被称为“验证器”的工具——在真正的硬件上进行测试。

这个流程类似于做实验时的实际测验机制。

英伟达的工程师们设计了这个组合，让DeepSeek R1像一个不知疲倦的程序员，而“验证器”则成了它的代码评审官。

生成一个代码版本，验证器跑一遍把问题指出来；DeepSeek R1再根据问题调整，这样循环了几十次后，一套优秀的内核代码就诞生了。

实验证明，这种“对话式”工作模式特别有效。

团队发现，通过封闭的反馈环节，哪怕是较难的代码问题，AI也能凭借短时间的不断优化，最终达到与传统方式接近甚至更高的性能输出。

实验结果：当人工智能挑战工程师优化代码

那实验的结果到底如何呢？

英伟达用了一组实验标准——斯坦福KernelBench基准——来测评代码性能。

数据显示，DeepSeek R1在简单问题上的数值正确率达到了100%，而在稍复杂的问题上也有96%的高得分。

这样的表现，对比人类工程师手动优化的成果并没有逊色，甚至在部分细节指标上，还更胜一筹。

其中一个亮点是性能测试中，DeepSeek R1生成的代码对GPU的资源调配非常合理，很多做法让研究团队自己都感到意外。

这样的表现不仅展示了AI的潜力，也为未来的研发提供了新思路：让AI分担程序员的工作，可能不只是个人效率的提升，更是软件开发整体格局的变化。

结尾：

机器能取代程序员吗？

可能以前这个问题会显得荒诞，但英伟达如今的实验让我们不得不重新思考。

多年以后，AI是否能写出更加复杂的程序可能还值得探讨，但眼下，我们看到的是人类和机器更高效地配合，共同推动技术进步。

或许技术的核心不在于取代，而在于协作——那些独立完成不了的事情，就通过合作来解决。

未来的编程路还很长，但可以期待的是，更多技术创新的背后，能有AI的身影与人类一起前行。

而这，不只是技术圈的一个突破，更是改写科技与人类关系的一个新起点。

玩酷网

DeepSeekR1用15分钟生成GPU内核代码，性能竟然比传统优化更强

极客科技前沿