Deepseek一出世,就被冠名以“AI界拼多多”大名了。
这不,如媒体报道的,性价比高,而且开源,大大降低了AI推理的成本。
据悉,有人说了,幻方储备了上万张A100芯片。
Deepseek推理成本有多低呢,7个Deepseek的成本等于1个Llama3 70B的成本,70个Deepseek的成本等于1个GPT-4 Turbo的成本。
当年苹果系统改变了微软系统复杂的运行逻辑,将APP置于沙盒体系之中,相较于微软系统,大大减少了对CPU和GPU的占用。
所以Deepseek可以降低AI推理的成本,并非没有可能。
Deepseek的创新在于对模型架构的创新,而不是AI的内核系统,这应该是一种微创新。
崭新的MLA,即多头潜在注意力机制,加上独创的DeepSeekMoESparse结构,大大降低了成本,以及对GPU的耗能。
作为一个不被人注意的AI公司,Deepseek可以说是AI大军中的一匹黑马。
DeepSeek创始人梁文锋,就读于浙江大学电子工程系人工智能方向。其本身具有的infra工程能力和模型研究能力,给Deepseek注入了力量。
对于DeepSeek,梁文锋说了在成本之上稍微有点利润,看来真是奔着AI界“拼多多”去的。
这价格这么低,也有好处,让AI人人能用,正如汽车人人能开一样。
梁文锋将目标瞄准了AGI,并不是只做个推理AI的APP。
看访谈,梁文锋还是个年轻人的样子,凭着好奇心和创造欲,在研究和创新,并且很有信心,正在组织高密度人才,以创新贡献者的姿态,加入到AI这个朝阳行业里来。
我觉得梁文锋的态度很好,就是要开源,要免费,这是一种互联网文化的存在,就没想着赚钱。
梁文锋说了,咱们缺少具有原创性的技术社区。仔细一想,是这样。他决定了Deepseek永远开源下去,绝对不会闭源。
说到要做到啊,到时要是闭源了,可不要怪大家骂梁文锋了。
梁文锋居然说面临的问题不是钱,而是高端芯片被禁运。不是说好的AI界的拼多多的吗?不是要低成本的吗?如果使用高端芯片,岂不是会增加成本了,成为同样的高成本AI公司?
说好的高端大气上档次又兼备“拼多多”优点的AI,可不能想着使用高端芯片,应该坚持优化模型架构才对啊,要不然怎么改变世界?
梁文锋还说了更多的投入并不一定产生更多的创新。这很对。但是如果没有更多的投入,如何有更多的创新可能?
不知道为什么,本来Deepseek是对模型架构的创新,为什么又说“只负责基础模型和前沿的创新”?明明只是对模型架构创新呀,怎么都可以对基础模型进行创新了?
Deepseek的团队只是一群应届毕业生,以及没毕业的博四、博五实习生,也有一些年轻人也才毕业几年。由此可见,年轻人厉害啊,全凭一颗想做开源应用的热爱和好奇心。
希望Deepseek的团队保持这样的热爱和好奇心,千万不要闭源Deepseek,千万不要对金钱抱以极大的热情。
梁文锋说对于未来,有三个方向,一个是数学和代码,一个是多模态,第三个是自然语言本身。
Deepseek说到底会成为AI语言模型上的一个分工体系,并不是想做一整套AI语言模型系统。
Deepseek其实不是一蹴而就的存在,而是花了16年时间,也就是2009年就开始了,真是先知一般的存在,知道AI将来必火。不管你信不信,反正梁文锋是信了。
梁文锋说了,“整个社会群体需要被事实教育”,年轻人的话真牛了,准确来说,应该是梁文锋带着一群刚毕业的年轻人要教育啥也不懂的社会群体了。
对了,事实是deepseek的模型是谷歌开发的开源的Transformer模型。事实还有英伟达显卡在为Deepseek助力,除了一万张A100卡,还有3000张H800卡。
还有一个事实,Deepseek的回复相对较慢,要几十秒时间,甚至有时长达几分钟。
有一个有利于deepseek的事实是,deepseek可以抓取足够多的中文数据。不过,中文数据本身有很多虚假信息,未做事实核查。Deepseek将如何分辨事实与谎言呢?
今天是腊月二十九,祝春节愉快。此时此刻,烟花的声音基本上停了,但是我祝福的心还没有降温。
恭喜发财。毕竟不是所有人都可以像拼多多一样靠低利润生活。钱赚得越多越好,不是吗?
但是像Deepseek这样的热爱和好奇心也不能少,对人文,对现代,对科学,在即将到来的蛇年里,让我们继续怀抱勇气,仰望星空。
大家都要幸福啊。
(木田之光写于2025年1月28日)
小编的语气,是把醋当酒喝高了吧?