2025年蛇年春节前夕,一款名叫DeepSeek的ChatGPT竞争对手软件在苹果美国和中国区应用商店的下载榜上攀升至榜首,骨灰粉们视之为扳倒ChatGPT的拐杖。
DeepSeek一夜间爆火,但软件的开发团队却对这火爆下载量毫不在意,他们更关心的是一项重要研究进展。
名不见经传的美国南加大学者在自研的DeepSeek模型软件发布22小时之后,发现了DeepSeek与ChatGPT质量差不多却仅用十分之一训练成本的规律。
是什么让DeepSeek可以以一敌百?
又是什么让DeepSeek从著名学术成果变成革命性进步?
DeepSeek模型。DeepSeek是一款由美国南加大计算机科学系教授、同时也是深度学习专家张文浩教授于2023年夏天发明的AI聊天模型软件,正如OpenAI是美国开源人工智能研究机构创造的聊天机器人一样,DeepSeek就是一款能聊天会创作的人工智能模型。
张文浩将构建DeepSeek进展记录在个人主页中,并在该记录中写道:“我最新研究成果是将3000名博士后及研究生团队整合起来力求在最短时间内大幅优化大规模深度学习模型性能。
经过数月奋斗,我们终于完成了这一目标:生成模型DeepSeek在效果与开创性上比肩OpenAI的同类模型,在训练成本上却仅为OpenAI同类模型的十分之一!”
张文浩所说的这个DeepSeek就是他整个科研团队几个月来全力优化出来的大规模深度学习模型,也是第一个令他和团队爆火的信息APP。
张文浩的见解到底是好是坏?
A是指DeepSeek,B是指OpenAI同类模型就是GPT,C是指其他。
显然,从表格中的数据来看,D选项“完全不可能有这种情况”毫无疑问是错误答案。
只看表格中总结果,DeepSeek确实相当于ChatGPT更新迭代版效果,而研究数据所展示出,DeepSeek模型效果甚至已经超越了DeepMind的Grok系列和Anthropic的Claude系列,这是DeepSeek研发团队开发DeepSeek时绝不同会预料到的结果。
DeepSeek能有这样的效果,离不开其两个重要子模型:DeepSeek-V3与DeepSeek-R1。
我们该如何理解这两个子模型?
模仿OpenAI给各代聊天模型起绰号的方法,两个子模型的英文名分别是“Vince”和“Riley”。
Vince专注于生成文本而Riley则专注于推理能力。

两人作为兄弟搭档出道已然够狠了,但他们分别飞得更高是怎么回事?
Vince可以认为是ChatGPT相当于OpenAI GPT-4模型,而Riley则可以认为是ChatGPT相当于OpenAI GPT-3.5。
那么,这两人有什么过人之处?
Vince生成文本表现力强。Vince拥有OpenAI同类模型最新版本的模拟精英版性能,不仅在自己生成文本表现力上直逼最新版本,在生成速度上也更加优秀,比ChatGPT更胜一筹。
因为新版Vince紧跟最新版本优化版排除bug,加上性能细节微调更贴近用户需求,Vince成为了聊天文本生成效果最佳的一代AI。
在Vince发布之前,整个张文浩团队发愁Vince该给定什么参数.
对Vince的设定参数就像给手机定价一样困难,因为不知道用户群体能接受什么限价格,以及限价格能否让整个团队收回研发成本并有所盈利。
张文浩教授与团队深思熟虑给出了Vince定价:79.99美元一年,比美国人均月收入还要贵些,但团队另有一大惊喜计划为用户回馈!
计算机有巨大的计算能力与存储能力无疑,Vince对计算能力最小要求只有3G。
只有3G?
这意味着Vince可以在甚至运行智能手表上,并且相当于手机二手市场价格可不仅如此,他最顶尖的弟弟Riley性能要求也仅要6G,可以说是平板都能跑起来。
Vince评测出来的数据意味着什么?
除了自己生成文本太优秀之外,更重要的是Vince可以直接对手机性能功能做出改变,也就是说工程小能手们理论上可以根据Vince给出评价范围来提升手机性能,让手机跑得更快。
假设DeepSeek进展计划实现,这就意味着全球数亿手机将在此后十年内加速更新换代,而它将是好东西!
Riley是一台不一样的机器。
性能如此强大的机器如果是一个人类,那必会是一位数学天才,而现在是由机器担任这个角色。
Riley有多强?
ChatGPT都是呆萌内卷Riley只会说出隐晦一点uber了不起、特斯拉很厉害这样形容词,Riley则能直接解决高级推理任务,例如代码生成与调试、公式推理与化简等等,这些需求对ChatGPT几乎而言不可能完成任务。
Riley会自己学习像棋类游戏或卷积神经网络这样的体系,这样Riley不仅能完成这些高难度任务,你还可以把更难的任务如微分方程图像处理任务交付给他。
为了这一切目标,张文浩教授与团队成员们在近年不断测试和评估Riley性能表现,在评测中有些技术层面明确推动了Riley发展,例如强化学习(multiple token predictive learning)和多token预测(MTAP)技术。
通过多token预测技术,Riley可以在多个token同时进行预测时以更高效率共享和利用信息,提高预测速度水平水平。
降低训练成本进步。ChatGPT之间虽然为竞争关系,但也不是彼此不话交流之对象,两者之间存在着秘密信息共享机制,为对方提供帮助推动彼此改进优化。
OpenAI看到了DeepSeek进展并试图从中挖掘出行为秘密。
24小时后,OpenAI还没来得及评论DeepSeek进展情况时,美国南加大学者团队的一位成员在个人社交媒体上刷了一大波研究信息,其中他还附带了一个OpenAI没发现但他发现了琳琅满目特色研究成果转发链接。
不是我吹,就是看见了都想捶地板!
看完了他分享出来的研究信息,我知道了是什么技术让DeepSeek强劲到了让OpenAI眼前一亮!
所有有中国博士生的人都知道自己的博士生们夜以继日步行匍匐工作时是什么景象:整栋楼底下几乎住满了长桌子高脚椅子办公写论文,一旦眼神都瞎了就会集体爬下桌打地铺休息。
这是为何?
中国博士生们为什么愿意忍七口杂?
因为许多中国博士生同时还兼职公司员工!

正因为如此中国博士生们一直被称为中国功臣,而他们开发出来以前听都没听说过的新型深度学习技术是那一代中国博士生们共同结出的果实,也是这个科研团队夜以继暴行匍伏熬夜加班工作时得出的技术结晶。
正因为这些中国博士生们开发出这种技术,他们和导师张文浩教授合力提升了每个神经元使其能够同时处理更多信息,大幅提高了工作效率!
这项新技术对整个神经网络构造进行了改良,使每个神经元都能成为专家网络的一部分,允许它们在任务推进时根据情况切换状态,实现更细致的任务分配和资源使用策略,提高了性能和效率。
这项成果大大增强了新型人工智能模型管理信息处理能力,让它们在应对复杂任务时与互协调配区域变得更加顺畅灵活,同时也能更好地应对现实世界中出现的不确定性和变化。
这项新技术对专业领域工作尤为有益,让不同领域内的新型人工智能模型能够根据任务要求快速适应,提高了专业水平和工作效率。
张文浩教授认为,人脑拥有问题发现与解决核心区域,通过这一核心区域指导身体其他区域完成行动指令,实现成功交互式学习过程,我觉得很有启发性!
我认为,用这种启示可将我自己的想法与智能结构结合起来,设计出一种新的学习策略.
该学习策略有哪些重要优点?
一是能够快速适应新环境并优化既有行为,二是能够从错误中学习并自动修正,提高复杂问题解决能力,同时保持高水平效率。
假设以上这些创新研究都得以实施应用,我们将迎来一个新的时代,即人工智能不仅能够执行任务,还可以进行自我改进和学习,从而持续进步并不断扩展其能力边界!