DeepSeek何以创造了“行业奇迹”|新京报专栏

新京报评论5 2025-01-27 20:21:13
DeepSeek的最大启发,是我们仍旧处在充满不确定性的创新探索周期里。 ▲坚持长期视角,专注底层创新,探索新的路径。图/DeepSeek界面截图 文 | 王晓凯

一家此前不在多数媒体的“明星企业”列表中的“小企业”,一家走开源路线而非走闭源或率先开发应用的“创新组织”,却意外在2025年开年成为了中国大模型领域科技创新的全球代表。

据多家媒体报道,这家名为DeepSeek(深度求索)的中国大模型企业,最近发布的大模型,在多项性能测试中已经达到了OpenAI的最新大模型o1水平,部分项目还实现了超越。由此引发了全球科技行业的热烈讨论,有媒体形容“DeepSeek朝硅谷‘开了一枪’”,甚至“震动美国科技界”。

底层创新提升算力效率

DeepSeek当前所创造的“神话”,主要是两类叙事。第一类,是DeepSeek的算力成本投入与表现出来的性能对比,超出了行业的一般认知。据部分行业媒体报道,DeepSeek r1的训练成本仅为ChatGPT o1的零头。第二类神话则是,DeepSeek的成功证明了开源路线的逆袭胜利,对大公司、巨头的闭源路线进行了一次底层颠覆。

这两类看法被灌注到社交平台上进行广泛讨论后,事实上都或多或少因人们的真诚期待而略有扭曲。例如,DeepSeek r1的真实算力成本投入远不止600万美元,且最早报道的媒体混淆了DeepSeek在论文中提及的训练成本。根据原文,550万美元是DeepSeek v3在正式训练阶段的成本,不包括前期研究、实验的成本。

并且,从行业发展的逻辑看,探索与迭代、追赶所需的算力成本,也不应该放在一起对比。OpenAI在ChatGPT o1的研发探索,与v3在前序产品基础上的迭代,成本无法简单对比。创新和探索必然伴随着算力和各项成本的浪费,在确定性的路径上优化所付出的代价,与探索未知所付出的代价,互相之间不宜简单对比。

而从大模型现阶段的发展看,准确地说,一家企业的阶段性产品的成功,还不能定义为闭源与开源路线的成败。

综合以上,比较严谨地看待DeepSeek带给我们的惊喜,应该是:DeepSeek展示了模型架构底层创新的价值,不断提升了算力效率。并且,这一家架构的底层创新,推动了开源大模型产品在能力上的超越,从而将进一步提升行业整体的应用研发水平。

更重要的仍是“创新”本身

尽管比起人们热爱的传奇故事,上面的这个故事显得有些过于审慎无聊。但事实上,这样一个严谨的故事,更值得我们去探讨本文开篇的两句话:为什么是一家资金量不占优势的、专注于底层创新而非商业化的开源企业,创造了中国企业在大模型领域的一次“弯道超车”?

2024年8月,在接受媒体专访时,DeepSeek创始人梁文锋提及了团队的研发思路,“如果目标是做应用,那沿用LLaMA模型(LLaMA,是元宇宙平台公司,即Meta公开发布的产品)短平快上产品也是合理的,但我们的目的地是AGI(通用人工智能),这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力”。

这句话揭示了“奇迹”诞生的出发点:因为目标不同,所以方法不同,面对差距的态度也不同。

就在DeepSeek创造“行业奇迹”不久前,国内大模型行业的共识几乎仍然是“要做应用”,因为做通用大模型的机会已经没有了。一些明星创业企业更是放弃了对通用AGI的探索,转而借助现有的模型去研发应用。

在这种行业共识之下,我们所接触到的多数国产大模型企业,津津乐道的多数都是具体且仍不成熟的应用。如,多如牛毛的陪伴型AI聊天机器人,或是文生图、文生视频等“奇观展示”。

这并非刻意贬低应用层的研发努力,面对差距做策略性的舍弃,是正常的科技与商业选择。就连梁文锋自己也在访谈中承认,在模型结构和训练动力学上,国内的最高水平比起国外最高水平可能有一倍的差距,与此同时,数据效率上国内比起海外可能也有一倍的差距,两者相加,相当于国内要用四倍的算力才能取得同样的效果。

再加上复杂宏观环境下算力本身的成本差距。在这种现实下,多数企业选择了绕开这些差距,确实是一个直觉上可以理解的选项。

但DeepSeek选择的方向却显得反直觉和常识。既然资源差距大,那就干脆回到模型架构底层去创新和优化。而事实证明,这条路最终反而能更快地达成目标。

事实上,AGI的长期发展固然与算力成本息息相关,但AGI本身仍然处在不断迭代的过程之中。在科技创新之中,决定长期结果的固然是宏观环境、经济投入等底层基础,但在动态的创新发生过程中,更重要的或许仍旧是“创新”本身。

大模型已经火热许久,但时至今日,仍然不是简单的资源加总游戏,不是简单地囤更多算力就能快速实现突破,也不是谁更早拥有更多用户,有更多商业化的场景和赚钱的能力,就能笑到最后。而这正是那些曾经风光无二但却迅速退潮的企业所没有想明白的基础逻辑。

从这个更严谨的行业发展故事来看,DeepSeek的最大启发,是我们仍旧处在充满不确定性的创新探索周期里。而短视,恰恰是创新的最大敌人。坚持长期视角,专注底层创新,探索新的路径,比起融资、囤卡和商业化,更有可能获得最终的胜利。

撰稿 / 王晓凯(媒体人)

编辑 / 迟道华 马小龙

校对 / 赵琳

新京报评论,欢迎读者朋友投稿。投稿邮箱:xjbpl2009@sina.com 评论选题须是机构媒体当天报道的新闻。来稿将择优发表,有稿酬。 投稿请在邮件主题栏写明文章标题,并在文末按照我们的发稿规范,附上作者署名、身份职业、身份证号码、电话号码以及银行账户(包括户名、开户行支行名称)等信息,如用笔名,则需要备注真实姓名,以便发表后支付稿酬。
0 阅读:73
评论列表
  • 2025-01-28 09:58

    deepseek,底部死磕。磕死了美国大模型的霸权,数字殖民的计划被釜底抽薪,华尔街的神灯熄灭了。祝贺中国深海公司

  • 2025-01-29 04:12

    人们都热爱传奇性的故事,都希望能看到奇迹,但事实上,这是一个严谨的科技故事,容不得半点取巧和虚假,所以,我们大可以抱着“让子弹飞一会”的心态,静待国内的顶尖公司经过不懈努力开花结果!

  • 2025-01-29 06:44

    港股2025年会大涨还是大跌

  • 2025-01-28 05:38

    试用了一下,个人发现的缺点:无论搜索什么,搜索到的结果不可以选择性复制,只可以全部复制,目前不好用,多改善功能的话后期还可以吧。优点:该软件目前无广告。和百度可以竞争一下。

  • 2025-01-29 05:26

    如果这边放开下载Chat,排名估计又会不一样了吧?

  • 2025-01-28 07:09

    下载试用了.deepseek,效果真的很一般!比豆包和智谱差的不是一般二般的远

  • 2025-01-28 01:11

    架构创新加上开源动作把对手的故事刺破了

  • 2025-01-27 22:50

    Deep seek 今天以一己之力拉跨NVDA和整个纳斯达克股市[捂脸哭]

  • 2025-01-28 07:44

    这是中国在人工智能领域投下的一颗震撼弹,也是送给大洋彼岸的一份厚礼!

  • 2025-01-28 06:07

    比美国厉害但是还要用美国英伟达芯片

  • 2025-01-29 19:06

    美国马上要制裁这家中国公司了,威胁美国国家安全!怎么办?

  • 2025-01-28 09:01

    有关媒体的媒体人大过年的成体系报道深度搜索系列信息,快完成工作任务了么?提前祝媒体人春节快乐!

  • 2025-01-28 02:47

    再过二十年,人们就会发现,AI不但不是什么科技,反而是一种笑话!!!立帖为证!!!