清华和蚂蚁的新思路:用编程语言训练AI大模型

发现创意科技 2025-03-08 13:20:36

小王是一位AI开发者,他平时在工作中需要频繁和不同的大模型打交道。

在一次员工大会上,老板提出了一个看似简单的问题:“2+3等于几?”令人啼笑皆非的是,公司最新引进的AI大模型居然生成了一段长达200多字的思维过程,去解答这个简单的加法题。

不仅如此,在解决更复杂的问题时,这个大模型还经常跳来跳去,让人摸不着头脑。

小王心里一直有个疑问:这些大模型到底出了什么问题?

他们是否真的像广告中所说的那样智能?

这种现象其实暴露了当前AI推理方式中的一个根本性矛盾:自然语言虽然灵活,但往往缺乏严谨性。

大模型在处理逻辑推理时,时常会出现思路混乱、缺乏系统性的问题。

小王的困惑代表了很多人对大模型推理能力的质疑。

面对大模型推理的难题,清华和蚂蚁的研究团队推出了一种名为CodePlan的新方法。

其核心思想是在推理过程中引入“代码形式规划”。

简单来说,就是让大模型在思考时,先用编程思维制定计划,然后再用自然语言表达出来。

举个例子,当AI需要解决复杂的问题时,它会先用类似Python的伪代码勾勒出一个高层次的架构,然后再一步步展开具体的推理步骤。

这种方式不仅让推理过程更加有条理,而且还能清晰地呈现出每一步的内在逻辑。

代码形式规划的好处在于,编程语言本身就具有条件分支、循环迭代和函数调用等结构,能帮助大模型精确地构建并执行复杂的推理过程。

和自然语言相比,代码能更加精确和清晰地传递流程信息,避免了思维中的杂乱无章。

为了验证CodePlan的有效性,研究团队进行了大量的实验。

在13个挑战性基准测试中,CodePlan平均实现了25.1%的性能提升。

比如,在一个名为“Last Letter”的任务上,使用CodePlan的大模型准确率提升了超过20个百分点。

这些实验结果表明,CodePlan在处理复杂推理问题方面,表现出色。

这种方法不仅提升了推理的准确性,还大大提高了训练效率。

比如在数学推理和多跳问答这两项任务中,CodePlan的训练曲线表现出明显的优势,不仅提升速度快,还保持稳定。

连小王都不得不承认,这些数据看起来相当振奋人心。

研究团队已经开源了200万条包含代码形式规划的推理数据,希望能够推动这个方向的进一步研究和应用。

我们不妨通过几个具体的例子,来看看CodePlan是如何让大模型更聪明的。

第一个例子是数值比较的问题:9.8和9.11谁更大?

以前的大模型要么直接给出模糊的答案,要么生成长篇大论的解释,让人无所适从。

但使用CodePlan之后,模型会先用代码形式明确表述比较过程,然后简单明了地给出答案。

第二个例子是字母计数的问题:统计单词“strawberry”中字母r的出现次数。

使用CodePlan的大模型,会先用代码来分解这个任务,逐步统计并汇总结果。

而不使用规划的模型,则可能会给出笼统或者错误的回答。

这两个例子清楚地展示了CodePlan在推理过程中的优越性。

它不仅让模型知道“该做什么”,更重要的是教会模型“如何做”,从而生成更加精准和可靠的答案。

CodePlan的方法给我带来了新的启发,推理过程中的严谨性和条理性是在编程语言中天然存在的,但在自然语言中往往被忽视。

通过这种创新方法,我们不仅解决了大模型推理中的一些根本问题,更开辟了一条新的发展道路。

或许将来,我们会看到更多类似的探索,比如在金融、医疗等高要求的场景中,CodePlan能发挥更大的作用。

通过引入编程语言的逻辑严谨性,我们能让大模型更加聪明和可靠,也让我们的AI生活变得更加高效和便捷。

这次的尝试不仅仅是技术上的突破,更是思维方式的一次颠覆。

未来,随着技术的不断进步,不同领域之间的界限可能会越来越模糊。

无论技术如何发展,我们始终要记住:工具和方法是为了解决问题服务的,而不是束缚我们的思维。

希望这篇文章能给正在探索AI技术的你带来一些新的思考和启发。

0 阅读:0

发现创意科技

简介:科技赋能生活,发现更多可能