清华和蚂蚁的新思路：用编程语言训练AI大模型

小王是一位AI开发者，他平时在工作中需要频繁和不同的大模型打交道。

在一次员工大会上，老板提出了一个看似简单的问题：“2+3等于几？”令人啼笑皆非的是，公司最新引进的AI大模型居然生成了一段长达200多字的思维过程，去解答这个简单的加法题。

不仅如此，在解决更复杂的问题时，这个大模型还经常跳来跳去，让人摸不着头脑。

小王心里一直有个疑问：这些大模型到底出了什么问题？

他们是否真的像广告中所说的那样智能？

这种现象其实暴露了当前AI推理方式中的一个根本性矛盾：自然语言虽然灵活，但往往缺乏严谨性。

大模型在处理逻辑推理时，时常会出现思路混乱、缺乏系统性的问题。

小王的困惑代表了很多人对大模型推理能力的质疑。

面对大模型推理的难题，清华和蚂蚁的研究团队推出了一种名为CodePlan的新方法。

其核心思想是在推理过程中引入“代码形式规划”。

简单来说，就是让大模型在思考时，先用编程思维制定计划，然后再用自然语言表达出来。

举个例子，当AI需要解决复杂的问题时，它会先用类似Python的伪代码勾勒出一个高层次的架构，然后再一步步展开具体的推理步骤。

这种方式不仅让推理过程更加有条理，而且还能清晰地呈现出每一步的内在逻辑。

代码形式规划的好处在于，编程语言本身就具有条件分支、循环迭代和函数调用等结构，能帮助大模型精确地构建并执行复杂的推理过程。

和自然语言相比，代码能更加精确和清晰地传递流程信息，避免了思维中的杂乱无章。

为了验证CodePlan的有效性，研究团队进行了大量的实验。

在13个挑战性基准测试中，CodePlan平均实现了25.1%的性能提升。

比如，在一个名为“Last Letter”的任务上，使用CodePlan的大模型准确率提升了超过20个百分点。

这些实验结果表明，CodePlan在处理复杂推理问题方面，表现出色。

这种方法不仅提升了推理的准确性，还大大提高了训练效率。

比如在数学推理和多跳问答这两项任务中，CodePlan的训练曲线表现出明显的优势，不仅提升速度快，还保持稳定。

连小王都不得不承认，这些数据看起来相当振奋人心。

研究团队已经开源了200万条包含代码形式规划的推理数据，希望能够推动这个方向的进一步研究和应用。

我们不妨通过几个具体的例子，来看看CodePlan是如何让大模型更聪明的。

第一个例子是数值比较的问题：9.8和9.11谁更大？

以前的大模型要么直接给出模糊的答案，要么生成长篇大论的解释，让人无所适从。

但使用CodePlan之后，模型会先用代码形式明确表述比较过程，然后简单明了地给出答案。

第二个例子是字母计数的问题：统计单词“strawberry”中字母r的出现次数。

使用CodePlan的大模型，会先用代码来分解这个任务，逐步统计并汇总结果。

而不使用规划的模型，则可能会给出笼统或者错误的回答。

这两个例子清楚地展示了CodePlan在推理过程中的优越性。

它不仅让模型知道“该做什么”，更重要的是教会模型“如何做”，从而生成更加精准和可靠的答案。

CodePlan的方法给我带来了新的启发，推理过程中的严谨性和条理性是在编程语言中天然存在的，但在自然语言中往往被忽视。

通过这种创新方法，我们不仅解决了大模型推理中的一些根本问题，更开辟了一条新的发展道路。

或许将来，我们会看到更多类似的探索，比如在金融、医疗等高要求的场景中，CodePlan能发挥更大的作用。

通过引入编程语言的逻辑严谨性，我们能让大模型更加聪明和可靠，也让我们的AI生活变得更加高效和便捷。

这次的尝试不仅仅是技术上的突破，更是思维方式的一次颠覆。

未来，随着技术的不断进步，不同领域之间的界限可能会越来越模糊。

无论技术如何发展，我们始终要记住：工具和方法是为了解决问题服务的，而不是束缚我们的思维。

希望这篇文章能给正在探索AI技术的你带来一些新的思考和启发。

玩酷网