最近AI界又开始“卷生卷死”了,马斯克的Grok-3听说也是准备上线,号称地表最强的ai模型,投入了大量训练。这个模型一出来直接在AI性能排行榜上杀疯了,分数高达1402,勇夺世界第一,在多个分类测试里面也是独占鳌头的。比如,数学(AIME’24):96分,超DeepSeek-R1(87分)、GPT-4o;科学(GPQA):研究生级知识问答断层领先;编程(LCB):生成复杂代码效率碾压Claude 3.5、Gemini 2.0268。
那对比一下之前很牛的谷歌Gemini 2.0,还有Open AI的chatgpt4O,以及咱们中国最近出圈的deepseek R1大模型,在Grok3面前性能都有点不够看了。
马斯克在直播里一顿操作,让Grok3生成3D动画,求解开普勒定律,甚至做游戏,Grok3都能轻轻松松的搞定。在演示的时候,他还能实时的检查运算,自己修正逻辑错误,而其他的大模型在做这些的时候就没有那么顺了。
这还没完,马斯克在Grok3的基础上又搞出了个智能体深度探索deepsearch,这个名字听着有点蹭deepseek的热度,但是实力也真的是不一般,深度思考加上全网搜索,比普通的搜索引擎省时多了。
马斯克团队还放话说,以后实习生都得下岗了,因为实习生能干的它能干,实习生干不了的它也能干。那你说马斯克作为AI行业的后起之秀,他凭啥能够逆袭美国那些大厂,登顶全球第一呢?
秘诀其实就是两个字——砸钱!
为了训练这个Grok3大模型,马斯克是直接建了一座AI数据中心,一开始就豪掷了10万块H100芯片,3个月之后又加了10万张。要知道,在算法不变的情况之下,算力就等于性能,20万张GPU的加持之下,你说Grok3的性能能够不强吗?
除了有钱之外,马斯克的成功当然也离不开人才了,特别是我们中国人才。
发布Grok3的时候,马斯克自己是坐在最右边的,而中间是2位华人面孔,左边第二个是多伦多大学科学系助理教授Jimmy Ba,而马斯克旁边的是来自中国杭州的AI数学家吴宇怀,而且马斯克的这家AI公司12个初始成员里面有5个都是华人。
比如张国栋,本科就读于浙江大学信息工程专业,大学时连续三年排名专业第一,拿了三年的国家奖学金,还获得过全国大学生数学建模竞赛一等奖,美国大学生数学建模竞赛一等奖。大二时,他对人工智能产生了浓厚兴趣,投入到计算机视觉领域的研究中;大三暑假,跟着全球著名计算机视觉专家朱松纯从事相关研究。
另一位联合创始人杨格出生在湖南,本硕就读于哈佛大学数学系,大学时期的导师是数学家丘成桐。在加入xAI前,他是微软的高级研究员。
还有一位戴子航,本科就读于清华大学工商管理学,硕博就读于卡内基梅隆大学计算机科学学院。他曾在网易、百度深度学习研究所、谷歌有过实习经历,2020年成为谷歌大脑的研究科学家。
那么,马斯克真的赢麻了吗?
这可不一定,因为虽然Grok3分数是世界第一的,但是和其他大模型相比差距也没有多大,综合性能只是略胜一筹,提升是有限的。
那么,对于咱们中国的普通用户和企业来说,Grok3参数是高,可是价格也贵。反观咱们的deepseek,又开源又便宜,干嘛要花大价钱用它呢?
而且,就应用场景和市场普及这块,Grok-3目前主要服务X平台用户,搞聊天机器人、智能搜索和创意生成,还搞付费模式(Super Grok订阅服务),这不是自己限制自己的发展嘛?初期想大规模普及,简直难如登天。
DeepSeek就不一样了,开源生态玩得飞起,教育、医疗、金融等领域到处都有它的身影,企业能定制工具,普通用户也能低成本调用API,这才是把AI融入生活的正确打开方式啊!
反正,说到底,马斯克这个Grok3就是美国那种靠算力砸钱砸出奇迹的大模型产品,20万张H100芯片的功耗,差不多相当于一个欧洲小国的功耗了,一年光是电费就能让一家普通的企业破产。
而咱们中国的deepseek走的是低成本高性能,更加务实的改良路线,并且就在今天,中国deepseek创始人梁文峰又提交了一篇新的技术论文,论文里说deepseek又研究出了一种叫做NSA的技术,能够在技术推理的同时,还降低训练成本。更厉害的是,降低成本还不牺牲性能,甚至还能提升性能。他说在基于64K上下文长度训练时,正向传播加速9倍,反向传播加速6倍,而且上下文越长的话,优势就越明显。
总的来说,Grok-3就像个高高在上的贵族,性能虽强,但成本高、门槛高,只适合资源充足的大企业玩尖端领域。DeepSeek则是亲民的实干派,以低成本、开源生态和真实数据处理能力,在各个行业发光发热。
现在马斯克靠资本和算力占了上风,但是deepseek马上用新算法做了回应,这事情是巧合还是故意,咱们不知道,但是中美在大模型这个赛道的对决才刚刚开始。未来这“高性能闭源”和“普惠开源”的竞争格局,到底谁能笑到最后?让我们拭目以待!