DeepSeek内存狂砍95%！算力效率暴涨13倍

在人工智能蓬勃发展的当下，DeepSeek宛如一颗璀璨的新星，以其极致的技术追求和独特的创新理念，在AI领域中崭露头角。本期，让我们深入探究DeepSeek究竟为何能在众多技术公司中脱颖而出，探寻其背后的技术思路与创新密码。

DeepSeek的宏伟目标是实现通用人工智能（AGI），为了达成这一愿景，它从底层架构创新和工程技术创新等多方面发力，致力于提升AI模型的性能。其技术实践主要体现在两大关键领域：模型架构的改进与模型运行的优化。

创新架构，突破传统束缚

在模型架构方面，大模型广泛采用的注意力机制是理解和生成文字的核心技术。它就如同人类阅读书籍，会逐字审视文本，且能同时处理大量文字，通过计算文字间的相关性来生成内容。然而，当面对长篇文章时，注意力机制会消耗过多内存，成为大模型性能提升的一大阻碍。

DeepSeek创新性地提出了MLA多头潜在注意力机制。这一机制革新了模型处理文本的方式，不再对每个字平均用力，而是依据字的重要程度有选择性地分配注意力。对于关键信息，模型会投入更多精力分析；而对于相对次要的内容，则减少关注。这种方式极大地减少了模型需要存储的信息量，使得模型占用内存可降低至原来的5%到13%，从根本上优化了大语言模型的底层架构。

当大语言模型初步处理信息后，如何高效调用知识成为新的挑战。当前大语言模型知识储备丰富，涵盖互联网上几乎所有公开信息，但在回答特定问题时，调用全部知识会导致工作量巨大、效率低下。

为此，DeepSeek引入了MOE混合专家模型技术。该技术将大模型拆分为多个专注特定领域的专家模型，比如语法专家、数学符号专家、编程代码专家等。当模型遇到具体问题时，仅调用相关领域的专家模型，例如遇到语法问题，就只寻求语法专家的“帮助”。以DeepSeek模型为例，当接收一个问题后，会由61层神经网络逐步处理，其中58层采用Moe架构，每层有256个专家模型，而每层仅调用8个相关专家模型进行处理，大幅提升了模型处理问题的效率。

此外，大语言模型在处理长文本时存在诸多难题，如消耗token数量和算力呈平方级增加，容易报错等。传统模型处理长文本时，如同逐字逐句阅读一本超级厚的书，速度慢且容易遗忘关键信息。DeepSeek运用NSA原生稀疏注意力技术解决这一难题，使模型在处理长文本时能够跳过不重要的内容，聚焦关键段落，就像人们跳读书籍一样，快速且准确地理解长文本内容。

工程协同，攻克技术难题

DeepSeek通过上述三种方法对大模型底层架构进行了全面改进。在信息理解上，优化注意力机制，精准判断文字重要性；在信息处理中，采用混合专家技术，提高处理效率；在长文本处理方面，利用原生稀疏注意力机制，提升处理长文本的能力。然而，新架构带来了新问题，需要工程创新来解决。

MLA多头潜在注意力机制虽降低了内存需求，但使计算变得复杂。为此，DeepSeek研发新的工程技术，针对英伟达h系列GPU的计算方法进行优化，上周开源的FlashMLA和DeepGEMM专家混合模型MOE，显著提高了大模型的计算效率。但由于256个专家模型分布在多个GPU芯片上，引发了跨设备通信问题以及专家负载不均衡问题，即计算需求可能集中在少数专家模型，而大部分闲置。

DeepSeek通过提高GPU集群内部通信效率，并开发新的调度系统——DeepSeek通信库和EPLB负载均衡器，来平衡256个专家模型的计算负载。同时，为了让大模型更高效地存储文件和处理数据，DeepSeek设计了新的文件系统和数据处理框架，即上周开源的3FS文件系统。

可以说，DeepSeek展现出了世界级的工程能力，其研发过程并非简单的自上而下，而是自下而上积累工程创新，在此基础上提出新架构，通过架构与工程的协同设计，打造出极具性价比的推理模型。即便其API价格仅为ChatGPT对标模型o1的1/27，理论上却能实现高达545%的利润率，效率令人惊叹。

纯强化学习，开启AGI新篇

DeepSeek的卓越之处不仅在于其强大的工程能力，更在于其在纯强化学习领域的突破性进展。在DeepSeekR1上，他们成功验证了纯强化学习可大幅提升AI性能。这一发现意义非凡，意味着实现AI性能提升无需依赖大规模的英伟达GPU堆叠和海量数据。只需构建奖惩模型，让AI在不断试错中，答对获得奖励，答错接受惩罚，经过多次重复，AI的智力便能显著提高。这是一条真正有望实现AGI的技术路径，DeepSeek首次公开验证了其可行性。

或许OpenAI在去年推出ChatGPTo1时也有所察觉，但DeepSeek不仅开源了AI模型，连优化算法也一并开源，其格局正如创始人梁文峰所说：DeepSeek的目标是实现AGI，而非局限于某种商业模式。正是怀揣着实现AGI的坚定信念，DeepSeek才有源源不断的动力去拆解复杂问题，充分发挥创造力。

DeepSeek所开辟的，是一条通往AGI的坚实工程之路。通过持续的架构创新与工程实践，它为人工智能的发展注入了新的活力，也为未来实现通用人工智能带来了更多可能与希望。在不断探索与突破的征程中，DeepSeek正引领着行业迈向新的高度。

文本来源@虎嗅APP的视频内容

玩酷网

DeepSeek内存狂砍95%！算力效率暴涨13倍

嘉慧浏览趣事