关于Deepseek的十个冷知识!为什么特别权威,因为这是它自己说的

怀英如是说 2025-03-09 20:10:42
以下是关于DeepSeek的一些较少被提及的冷知识,结合多个信息来源整理而成:

1. 并非完全摆脱NVIDIA生态,但优化了PTX编程

很多人大张旗鼓地说Deep seek摆脱了英伟达,事实上DeepSeek通过直接编写PTX(NVIDIA CUDA中间指令)提升跨芯片通信效率,尤其在H800 GPU带宽受限时效果显著。

然而,PTX仍依赖CUDA的编译和运行环境,本质上并未脱离NVIDIA生态,只是通过底层优化提升了硬件利用率。这一技术类似于“用汇编语言写程序”,门槛高但效率更高。

2. 训练成本存在“文字游戏”

官方宣称的557.6万美元训练成本仅涵盖GPU算力直接消耗,未包含软硬件开发、数据采集、人力薪资等综合成本。实际总成本可能高达25亿美元级别。这种“选择性披露”引发了对低成本神话的争议。

3. **回答简单问题反成短板

尽管擅长复杂推理,DeepSeek在处理“今天是几月几日”等基础问题时表现笨拙,需用户主动提供时间信息。例如,它曾用700多字解释无法获取实时时间,被用户调侃为“严谨但冗余”。

4. 混合专家模型(MoE)的极致创新

DeepSeek的MoE架构包含200多个“专家”,远超OpenAI的20个左右。任务执行时仅激活部分专家模块,大幅降低计算资源消耗。这一设计使其在保持高性能的同时显著压缩成本。

5. 开源策略与闭源巨头的差异

不同于OpenAI等技术保密,DeepSeek开源了模型权重及核心技术文档(如MLA注意力机制、DualPipe并行训练方法),推动技术平权。其API定价低廉,甚至支持个人开发者低成本调用。

6. 多模态功能的“半成品”现状

当前版本仅支持文本处理,无法处理图像、音频或视频。

但团队计划在DeepSeek-V3基础上扩展多模态能力,且已发布文生图模型Janus-Pro和JanusFlow(参数10亿至70亿),暗示未来方向。

7. 创始人背景与“杭州六小龙”称号

创始人梁文锋为85后技术极客,公司成立仅一年半便被硅谷称为“东方神秘力量”,与阿里、百度等巨头并列“杭州六小龙”。其快速崛起引发了对中国AI初创企业潜力的重新评估。

8. 曾因访问量过载限制注册

爆红后,DeepSeek遭遇大规模恶意攻击和用户激增,一度仅允许中国+86手机号注册,其他地区用户需等待开放。服务器频繁宕机也暴露了初期承载能力的不足。

9. 强化学习算法的低调突破

DeepSeek开发了GRPO算法(PPO变种),通过简化的强化学习流程复现了OpenAI o1模型的推理能力。这一方法被开源社区评价为“为何早没人尝试”。

10. 引发美股AI板块震荡

发布当日,英伟达股价暴跌17%,博通、AMD跟跌,市场担忧其低成本路线冲击算力需求。纳斯达克副主席麦柯奕却称其为“AI革命的重要组成部分”,凸显行业态度分化。

这些冷知识揭示了DeepSeek的技术特性、市场影响与争议,既有创新亮点,也暴露了成长中的局限。

0 阅读:599

怀英如是说

简介:的历流光小,飘飘弱翅轻。