玩酷网

蒸馏如何使大模型更便宜什么是知识蒸馏你知道什么是知识蒸馏(Knowledge D

蒸馏如何使大模型更便宜什么是知识蒸馏

你知道什么是知识蒸馏(Knowledge Distillation)吗?

今年初,DeepSeek-R1震荡全球,不仅性能接近GPT-4,训练和部署所需的算力却低了几个数量级。随后,英伟达股价甚至创下单日最大跌幅记录——背后的核心技术之一,就是“蒸馏”(Distillation)。

知识蒸馏是一种模型压缩和迁移学习方法,通俗讲就是,用大模型教小模型怎么做事。

但蒸馏并不是DeepSeek独创的“黑科技”,它其实是AI圈内用了十年的经典方法。

这个概念最早来自2006年Caruana等人的研究。他们用一大堆模型组成的集成模型给数据打标签,再训练一个小模型来模仿,效果居然和大的模型集差不多。

但那时仅停留在实验阶段,并未提出相关概念。

2015年,Hinton等人正式提出“蒸馏”概念,用一个“大脑”清晰的教师模型(Teacher)来教一个结构简单的学生模型(Student)如何思考。

其核心思路是:

- 不是教学生模型记“正确答案”,而是教它模仿老师模型“是怎么想的”;

- 不仅匹配结果,还要尽可能接近老师模型对每个选项的信心(也就是“软标签”);

- 通过特殊的损失函数(Distillation Loss),在训练时同时看两个指标:和正确答案的距离、和老师模型“思路”的相似度。

这个技术在大语言模型(LLM)时代尤其重要。因为大模型虽然厉害,但贵、慢、难部署;小模型虽然轻便,但不够聪明。知识蒸馏就是桥梁,能把大模型的能力“迁移”到小模型上。

现在很多LLM的蒸馏方式都很有意思,比如:

- 多语种模型:用多个语言老师教一个学生,让学生掌握多语言能力;

- 让GPT-4这样的超大模型生成“解题过程”和“思维步骤”,当作训练数据,帮助小模型学会怎么“类人思考”;

- 模型间互相评价输出,形成一种“AI教AI”的反馈机制,叫RLAIF(AI反馈强化学习)。

最终目标,是让更小、更快、可部署的模型拥有接近大模型的能力,甚至能在手机、边缘设备、本地环境中独立运行。

参考链接:www.ibm.com/think/topics/knowledge-distillation