记得梁文峰在接受采访的时候说过,”我们理解人类智能的本质就是语言,人的思维就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。“
这可能就是思维链的诞生起源,按梁文峰的想法,DeepSeek R1推理模型回答问题应该是像人类一样,在大脑中有推理思考的过程,然后顺利表达出来,不然的话就只是知识的罗列,一点都不AI。
我觉得DeepSeek开发团队首先是明确了思维链能提升推理能力的技术事实,然后发现在产品交互上思维链的展示还能加强用户的信任和理解,每次思考开头的‘嗯’字确实一下子拉近了和用户的关系。这样技术和产品都能拿高分,一举两得。

不知道你发现没有,在提问DeepSeek R1的时候,它的回答往往会出现多种信息的选择,然后它会反复的认可和推翻自己,最终会选择一种它认为更合理的解释。

这其实是一种强化学习的准确性奖励机制,R1模型会对各种搜集的信息进行分析、推理和决策,通过某种规则来判断每一种答案的准确性,从自己的行动中来获得反馈,这样就形成了思维链,从而来提高回答的准确率。

另外,R1的核心机制是混合专家模型MoE,不同领域的“专家模型”回答其擅长的问题,比如编程专家之于软件开发,数学专家之于微积分等。
所以当处理用户的问题时,R1得判断调用哪些专家模型来处理,这就需要在不同的知识和逻辑之间进行切换和关联,来挑选出最适合的“专家”们,这也是思维链的关键过程。
比如下面一个关于用Python解答微积分的问题,R1会先调出数学专家分析微积分解题过程,再调出编程专家编写Python代码,来协作处理给出准确回答。
思维链的过程清晰的展示了不同专家前后思考的顺序和逻辑,非常的有条理。


再从从用户视角来看,R1的思考过程并不是作秀,而是真的循着问题这根线索在找寻答案,你会觉得它在认真对待和思考你的问题,就好像你问你高中老师这道题该怎么解,老师看到题沉思片刻,娓娓道来,这种信任感是很难得的。
为了实现思维链模式输出,R1在设计过程中进行了结构化模板设计,使用标签和标签强制分离推理和答案,然后有一套格式激励强化的策略,来确保先展示思维链再回答的固定输出格式。
Assistant: <think> 推理过程 </think> <answer> 最终答案 </answer>
这样准确性激励+格式激励双重的保障,使得思维链模式的R1能更精准的回答问题,同时保证了用户的体验,所以R1的思维链是真实的思考过程,而不是单纯的迎合用户。