人工智能的世界一直是“烧钱”大赛,AI公司训练一个大模型,动辄就是上亿美元的算力成本,GPU芯片一买就是上万块,就跟不要钱一样。
可就在大家以为“没钱玩不转”时,一家叫DeepSeek(深度求索)的中国公司,直接来了个降维打击——他们只用2000块芯片,就打造出了世界级的AI系统,而别的公司起步就要1.6万块!
DeepSeek-R1使用MIT协议开源,意味着任何人都可以自由使用该模型,包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。
DeepSeek-R1上线时提供的API服务定价为每百万输入tokens 1元人民币(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,输出API价格仅仅只有OpenAI o1的3%
消息一出,全球科技圈一片哗然,金融市场甚至都跟着抖了三抖。DeepSeek是怎么做到的?他们到底用了哪些“黑科技”?今天我们就来揭开这场“AI界的价格屠夫”行动!
AI训练有多烧钱?要训练一个AI大模型,你得让它在海量数据里“泡澡”,学习各种知识,从写诗、编程,到做菜、讲笑话,全都得拿下。而这一切,都靠神经网络来实现。
简单来说,神经网络就像一个超大号考试刷题机,它疯狂分析数据,总结规律,不断调整自己,直到能精准回答各种问题。可问题是,这种“刷题机”太费电,太费芯片了!
现在训练顶级AI,一般都要用英伟达的GPU芯片,一块4万美元起步,组装起来就是一台超级计算机。这些AI公司动辄上万块GPU,光是电费都够你买好几套房。
所以,DeepSeek想到了一个问题:“有没有可能,花更少的钱,办更大的事?” 于是,他们找到了一条不走寻常路的捷径——“混合专家”+“省位存储”+“精确计算”!
第一招:“混合专家”,让AI团队分工明确!一般AI公司训练模型的方法是“一锅煮”——所有任务都让同一个大模型来学,不管是写情诗,还是写代码,全都一视同仁。这就像让一个人既当诗人,又当程序员,还得兼职医生、物理学家……你说累不累?
DeepSeek的想法是:“何必让一个人全干?干脆让不同的专家各管一摊!”
于是,他们采用了 “混合专家”(Mixture of Experts,MoE)的方法,把AI拆分成很多个小专家 ,比如:
写诗的专家:专门学怎么写优美的诗歌;
编程的专家:专门研究代码的逻辑;
生物学专家:专门钻研生命科学;
物理学专家:负责牛顿、爱因斯坦的活儿……
然后,再加一个“通才”模型,就像一个主编,负责协调所有专家的工作。这么一来,AI训练的效率大幅提升,因为每个部分都专注自己的领域,不需要所有数据都满世界乱传,节省了大量计算资源!
第二招:“省位存储”,AI也能“压缩数据”!还记得你上学时老师讲的圆周率 π 吗?完整值是3.1415926535……,但一般我们只用3.14,因为精度够用了。DeepSeek的AI训练也用了类似的技巧。
传统AI训练时,每次计算都会用16位存储,但DeepSeek的工程师发现,其实用8位存储也够用了!相当于数据压缩了一半,但精度几乎不受影响。
这就好比你买了一堆薯片,袋子看着挺大,但实际里面90%都是空气。DeepSeek直接把这些“空气”挤掉,只留真正有用的数据,一举减少了一半的计算量!
第三招:“精确计算”,该抠的地方抠,该精准的地方精准!当然,光是“省位存储”还不够,DeepSeek在计算时还用了一个妙招——“该省就省,该精确就精确”!
在做普通计算时,他们用8位存储,节省计算量。但当模型做关键计算(比如决定AI怎么回答你的问题)时,他们会临时把数据扩展到32位,确保计算结果足够精确。
这就像,你平时做饭可以随便撒盐,但做蛋糕的时候,就得精准到克,不然味道全毁了!DeepSeek的AI训练也是这个道理,在不影响结果的地方省钱,在关键地方下足功夫!
DeepSeek的成功,让AI降本成现实!DeepSeek的这些“省钱大法”,让他们用2000块芯片,就干出了1.6万块芯片的活儿,训练成本只花了600万美元,比Meta的十分之一!
这就像别人开法拉利烧油狂飙,DeepSeek直接造了辆节能超跑,跑得一样快,还超级省油!
DeepSeek的成功告诉我们,AI训练不一定非要砸钱,关键在于技术创新。他们的做法,未来可能会被更多公司采用,让AI训练成本大幅下降,让AI技术更加普及!
所以,DeepSeek到底做对了什么?答案很简单:他们不是靠“砸钱”取胜,而是靠“聪明”取胜!
未来,AI的价格战才刚刚开始,我们拭目以待!