本篇成于2024年8月底,O1发布半个月之前,我与同事讨论,再次坚定,无论是技术路线上,还是需求上,启发式搜索都应当是重要的发展路线,当时也是觉得这些讨论极有价值,怕忘了,就写成文章记录下来。写完了半个月后,O1发布了,就像是照着剧本走一样。也如我所想,O1展现出数学和逻辑推理能力之后,O1展现出数学和逻辑推理能力之后,业界讨论的重点变为,如何将这种“推理”能力泛化到其他领域,也如同预想中一样。所以我依旧认为,OpenAI没有发什么石破天惊的东西,还是合乎逻辑的一次发展。本文的展望也可看作是对O1技术原理的通俗化的解读,实则,笔者认为,这就是一个显而易见的技术道路,但是整个业界现在居然还要靠OpenAI一家机构去维持想象力,更有“O1给大模型方向续命了一年”之说,我深感悲哀。我一直希望,我们不要被所谓“领头羊”所裹胁,大胆发挥想象力,按照正确的发展逻辑继续开发下去。
距离2022年底,ChatGPT发布,已有一年半有余。这一年半,我们看到各种基于 ChatBox 的 app、产品层出不穷,一片繁荣景象。但如果看一下数据,我们就会发现,好像大多数人仍旧没有使用大模型,大模型产品似乎仍处于一个“圈地自嗨”的状态。
而在之前的文章里面,也论述道:当前大模型的形式(即聊天框),对于大多数用户来讲是低效的,诚然现在很多产品已经做了一些改进,让用户输入更加容易,可看上去起到的作用有限。这其中确实有当前大模型能力上的问题,哪怕在已有的形态下,也没有让用户感觉到自己的问题被解决。但有时我也不禁在想,是不是大模型,或者 AI 的发展上,缺失了什么东西?
3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com
我心中的大模型应用现阶段,大模型当然距离想象中那种可以颠覆时代的AI,还有不小的距离。但也不可否认,大模型迈出了关键的一步,即搞定了自然语言。它让人可以以人的方式和机器交互,而非去适应机器的交互方式。最起码,现在的大模型,是可以很好地将我们说出的话,转化成一个或几个机器的指令的。
所以我们可以看到,挂载了外部计算器的模型,能“很好”地计算数学题。挂载了互联网的大模型,能一定程度上有机利用搜索结果,回答问题。以及使用了各种专业工具,形成的各种“智能体”。
不过,正如前面所说,现在的大模型能够很好地将我们说出的话转化成【一个或几个】指令,确实能够让我们做一些事情变得更加简单,但若如想象中一样,让大模型充当我们的生活助手,这种程度显然是不够的。
除此之外,要做到彻底颠覆我们和机器的交流方式,单单靠C端用户,也是不够的。AI显然有更加广阔的海洋,即在产业中应用起来。除了使用某一垂直的技术帮助我们完成一些重复性工作,或危险作业等。AI应当还可以更进一步,达到“完成任务”的能力的,也就是,能够自己将任务拆解成步骤,并根据每一步的结果,去决定怎么使用已有的资源(工具、设备、知识等),最终解决问题。任务可以变得越来越复杂,
我想这个前景大家都有想到,但是如我所见,无论是评测标准,还是各家登场的各种东西,似乎都没有往这个方向发展。虽然 AppBuilder(或者 AgentBuilder,whatever),似乎有一点儿这个意思,但实际观察下来,也更加像是demo。感受上是,产业内很多朋友可能仍旧在前大模型时代的路径依赖中,或互联网产品的路径依赖中。
诚然,现在大模型的能力远远满足不了我们上述说的这些应用要求,但是任何一个破坏性创新,都不是“准备好了”才登场的,应用与反馈应当形成一个闭环,才能促进基础技术计划,最终积攒出来一个跃迁。我相信AI在不远的未来是能够发展到那一步的,起码在垂直领域上。那么,方向是什么呢?
逻辑推理?不,确定性!算数学题,或者逻辑推理,成为了各家大模型主要宣传点之一。然而我们可以从各种不同的角度去论证,仅靠大模型自身,掌握逻辑推理能力,基本上是不可能的。其实,我们想弄出来一个能解决世界上所有逻辑推理问题的AI,也是不可能的。所以,在之前的讨论中,我也持有这样一种观点,即算数学题,或者掌握逻辑推理,这类任务本身,对大模型这种形式是没意义的。毕竟,人类在处理这类问题的时候,往往也是在借助其他工具的。
但是,逻辑推理类任务的衍生意义,我们是不能全盘否定的。这类问题最大的意义在于,给模型带来了逻辑推理的经验性指导。如同我们上学时一样,实则训练的更多的不是怎么样解题,而是记住解体思路,甚至训练成一种条件反射,即,我们看到了一道题,就知道怎么样去拆解;拆解出来的每一个小问题,我们知道使用什么样的工具去解决;解决问题的过程中,一定也会遇到一些新的问题,我们同样知道解决它的方向在哪;最终一个个小步骤的结果汇总到一起,得到最终的答案。当然,工作和生活中,碰到问题,我们更多也是经验先行:(基于认知心理学的实验)深耕某一领域的专家,看问题的视角和新手大不相同,也是大量训练,经验主义的结果。
这个过程中,我们的输入和输出是按阶段不断地反馈的,也就是认知心理学中所说“工作记忆”的过程,这也是我之前说,当前大模型更大的挑战应当是在于如何更加精准使用记忆。
形式化地说,这个能力,是将自然语言描述的需求,转化成一系列确定性的工作流程,其最直观的任务的确是数学题和逻辑推理,但真正的应用点显然不是这两个领域,甚至可以说,过于执着于这两个领域,可能会让模型能力走向一个非常奇怪的方向,甚至O1出现后,一些badcase,似乎也佐证了这一观点。
启发式搜索之野望真正要解决这类问题,实际上是要让模型具备两个能力:
对用户不同需求灵敏识别的能力,现在LLM已大体具备结合自身内化及外部的各种资源,包括知识、工具、设备,去step-by-step规划出一个最可能解决问题的,确定性流程的能力,即启发式搜索能力是的,我们又回到了那个AI的终极问题,启发式搜索。实际上,启发式搜索每一步需要的估值,和经验主义是天生匹配的,超大规模数据中总结出的经验,天然能够解决掉很多搜索中的剪枝问题,这可能正是非确定性推理的最好的时代。
所以,很久之前,我表达过,AlphaGo 使用统计模型结合启发式搜索的思路,是解决这种确定性流程的深度规划能力的一个很合理的路径。当然,大模型时代之后,启发式搜索的过程的确是要被内化到模型能力中的,大模型能够自己找到方向,并通过自身每一步输出去向下调整。实际上,理想态也应当是,大模型作为一切的中控,去决定每一步需要使用什么样的信息,辅助自己解决问题。
这种让模型具备启发式搜索能力的训练方法,如今我们其实也见到了,就是Q-Star,深度学习自身的启发式搜索方法。或许未来也会有更加进阶的训练方法。我想,将Q-Star作为所谓逻辑推理,或者解决数学题的通路来宣传,可能是考虑到所谓舆论接受度,但我想这一方法被提出来,定然不是为了那么点儿小问题而存在的。
最后想说的正如李彦宏所说,大模型需要的不是一个DAU有多么大的超级应用,而应当是渗透到生活的方方面面,“超级能干”的应用。它不仅仅是能够写文案,当搜索引擎等等,而应当能够为各种任务提供解决方案。于C端,它能成为每个人的生活助手,帮助人做出选择、决策,并能够解决生活中更加具体的问题;于B端,它也应当能够成为一个合格的中控,完成一系列的流程。
而想到达到那种愿景,单单靠行业内的人是远远不够的,甚至这两年,我们也见到了,行业内主流的想象力、榜单之类的,似乎也停留在这些应用上,甚至技术人员的做事方法可能还停留在前LLM时代。这固然有当前模型的基础能力尚没有那么强大的原因,但是我们要知道,任何一个破坏性创新的技术,其推出产品的时候,都不是那么完美的,都是靠着市场上真正的需求来完成自身的迭代,在市场上占据住自己的位置。
而且,哪怕是极早期的产品,也都会有一批创新者用户,去帮助产品优化。技术和用户,永远都是双向奔赴的,所以我想不仅仅是行业内的人需要走出去,也需要让行业外的大家走进来,共同去开发这一片星辰大海。