在人工智能蓬勃发展的当下,DeepSeek宛如一颗璀璨的新星,以其极致的技术追求和独特的创新理念,在AI领域中崭露头角。本期,让我们深入探究DeepSeek究竟为何能在众多技术公司中脱颖而出,探寻其背后的技术思路与创新密码。
DeepSeek的宏伟目标是实现通用人工智能(AGI),为了达成这一愿景,它从底层架构创新和工程技术创新等多方面发力,致力于提升AI模型的性能。其技术实践主要体现在两大关键领域:模型架构的改进与模型运行的优化。

在模型架构方面,大模型广泛采用的注意力机制是理解和生成文字的核心技术。它就如同人类阅读书籍,会逐字审视文本,且能同时处理大量文字,通过计算文字间的相关性来生成内容。然而,当面对长篇文章时,注意力机制会消耗过多内存,成为大模型性能提升的一大阻碍。
DeepSeek创新性地提出了MLA多头潜在注意力机制。这一机制革新了模型处理文本的方式,不再对每个字平均用力,而是依据字的重要程度有选择性地分配注意力。对于关键信息,模型会投入更多精力分析;而对于相对次要的内容,则减少关注。这种方式极大地减少了模型需要存储的信息量,使得模型占用内存可降低至原来的5%到13%,从根本上优化了大语言模型的底层架构。
当大语言模型初步处理信息后,如何高效调用知识成为新的挑战。当前大语言模型知识储备丰富,涵盖互联网上几乎所有公开信息,但在回答特定问题时,调用全部知识会导致工作量巨大、效率低下。

为此,DeepSeek引入了MOE混合专家模型技术。该技术将大模型拆分为多个专注特定领域的专家模型,比如语法专家、数学符号专家、编程代码专家等。当模型遇到具体问题时,仅调用相关领域的专家模型,例如遇到语法问题,就只寻求语法专家的“帮助”。以DeepSeek模型为例,当接收一个问题后,会由61层神经网络逐步处理,其中58层采用Moe架构,每层有256个专家模型,而每层仅调用8个相关专家模型进行处理,大幅提升了模型处理问题的效率。
此外,大语言模型在处理长文本时存在诸多难题,如消耗token数量和算力呈平方级增加,容易报错等。传统模型处理长文本时,如同逐字逐句阅读一本超级厚的书,速度慢且容易遗忘关键信息。DeepSeek运用NSA原生稀疏注意力技术解决这一难题,使模型在处理长文本时能够跳过不重要的内容,聚焦关键段落,就像人们跳读书籍一样,快速且准确地理解长文本内容。

DeepSeek通过上述三种方法对大模型底层架构进行了全面改进。在信息理解上,优化注意力机制,精准判断文字重要性;在信息处理中,采用混合专家技术,提高处理效率;在长文本处理方面,利用原生稀疏注意力机制,提升处理长文本的能力。然而,新架构带来了新问题,需要工程创新来解决。
MLA多头潜在注意力机制虽降低了内存需求,但使计算变得复杂。为此,DeepSeek研发新的工程技术,针对英伟达h系列GPU的计算方法进行优化,上周开源的FlashMLA和DeepGEMM专家混合模型MOE,显著提高了大模型的计算效率。但由于256个专家模型分布在多个GPU芯片上,引发了跨设备通信问题以及专家负载不均衡问题,即计算需求可能集中在少数专家模型,而大部分闲置。
DeepSeek通过提高GPU集群内部通信效率,并开发新的调度系统——DeepSeek通信库和EPLB负载均衡器,来平衡256个专家模型的计算负载。同时,为了让大模型更高效地存储文件和处理数据,DeepSeek设计了新的文件系统和数据处理框架,即上周开源的3FS文件系统。

可以说,DeepSeek展现出了世界级的工程能力,其研发过程并非简单的自上而下,而是自下而上积累工程创新,在此基础上提出新架构,通过架构与工程的协同设计,打造出极具性价比的推理模型。即便其API价格仅为ChatGPT对标模型o1的1/27,理论上却能实现高达545%的利润率,效率令人惊叹。
纯强化学习,开启AGI新篇DeepSeek的卓越之处不仅在于其强大的工程能力,更在于其在纯强化学习领域的突破性进展。在DeepSeekR1上,他们成功验证了纯强化学习可大幅提升AI性能。这一发现意义非凡,意味着实现AI性能提升无需依赖大规模的英伟达GPU堆叠和海量数据。只需构建奖惩模型,让AI在不断试错中,答对获得奖励,答错接受惩罚,经过多次重复,AI的智力便能显著提高。这是一条真正有望实现AGI的技术路径,DeepSeek首次公开验证了其可行性。

或许OpenAI在去年推出ChatGPTo1时也有所察觉,但DeepSeek不仅开源了AI模型,连优化算法也一并开源,其格局正如创始人梁文峰所说:DeepSeek的目标是实现AGI,而非局限于某种商业模式。正是怀揣着实现AGI的坚定信念,DeepSeek才有源源不断的动力去拆解复杂问题,充分发挥创造力。
DeepSeek所开辟的,是一条通往AGI的坚实工程之路。通过持续的架构创新与工程实践,它为人工智能的发展注入了新的活力,也为未来实现通用人工智能带来了更多可能与希望。在不断探索与突破的征程中,DeepSeek正引领着行业迈向新的高度。
文本来源@虎嗅APP的视频内容