全体起立,你的强来了!
2月18日中午12点,马斯克在X平台直播,重磅发布了“地球最强AI”Grok 3模型。
这次,马斯克继续保持了“爱迟到”的人设,发布会迟到18分钟,让屏幕前的百万网友好一顿苦等。
发布会,除了马斯克以外,还有3位发言人,分别是来自xAI设计、图像和推理部门的工程师。

发布会上官宣了Grok 3、Grok 3 mini两款模型。
目前Apple Store还未正式上线Grok 3,不过第一批预订Grok 3的用户可以提前通过X平台或网页端体验。
同时团队还推出了SuperGrok高级订阅服务,能够提供额外的推理和DeepSearch查询功能,月费30美元,年费300美元。
用20万张显卡堆砌出来的Grok 3,到底表现如何?

AI界的数学天才
一上来就是排行榜单,Grok 3在Chatbot 竞技场盲测中,代码、指令响应等各方面排名第一。

马斯克重点提到了它的数学逻辑推理、科学逻辑推理以及计算机编程能力。
称美国大部分的测试题目,Grok 3都可以准确给出答案。并表示这种能力不是通过将所有题目都记忆下来,而是数学逻辑推理能力。
随后还对比了Grok 3 mini、o3mini、o1、DeepSeek-R1以及Gemini-2。

Grok 3和Grok 3 mini明显优越于其他模型。
而跟前一代Grok 2相比,能力则是“提升了一个量级”。
为了重点展示Grok 3的数学逻辑推理能力,马斯克还附上了5天前,Grok 3在AIME(美国数学邀请赛,比美国数学奥林匹克竞赛稍弱)中的测试结果,同样和其他模型进行了对比,Grok 3表现更好。

工程师称,Grok 2的能力就相当于刚刚进入高中,而Grok 3代表已经毕业了。
此外,Grok 3还具有修正能力,它能够发现自己推理中的错误并更改。
从数学问题延展到现实社会,马斯克希望通过Grok 3来解决现实中的实际问题,比如造特斯拉、火箭等,真正运用在它们的数据中心。
Grok 3支持“Big Brain”模式,能够使用更多算力进行更深度的思考。
比如,他们向Grok 3提问:如何从地球上发射火箭到火星上并返回地球?
这个问题涉及到大量的数学、物理逻辑的演算。

Grok 3不仅完成了准确的推理计算,包括登入火星的任务、火星探索的发射方式、宇航员的出舱时间、火星探索的轨道的运转等,而且根据代码生成了3D动画。
马斯克称明年11月将会出现重大突破,未来让Space按照Grok 3演算的过程来发射探索火星,将成为现实。

他还预测在3年之内,计算机就能打败人类。

游戏创意大师
在发布会开始前的几个小时,马斯克在X上确认,xAI将成立一家AI游戏公司。

发布会上,马斯克也展示了Grok 3在游戏上的创造力。
不同于常规游戏,Grok 3可以将两个游戏的要素融合在一起打造全新的游戏。
现场演示中,他们将经典游戏“俄罗斯方块”和“宝石方块”(类似消消乐游戏)喂给了Grok 3,最终生成了一个结合两款游戏特色的新游戏。

不过演示环节惨遭翻车,马斯克也直言吐槽“oh man”,好在后续恢复“正常”。
工程师称,将很快发布AI游戏设计社区,以后可以在xAI上设计游戏、玩游戏。

Grok 3也有深度思索
Grok 3带来了全新的产品DeepSearch,被称作是下一代搜索引擎,支持联网,能给用户提供像Agents一样的服务。
当用户搜索信息时,DeepSearch不仅会给出答案,而且右侧会附上深度思索的过程,并显示网页来源,左侧还能设计次任务栏。

比如询问“下一次星舰的发射时间”,Grok 3回答4月24日,并给出了推理过程。

马斯克回复:可能。也许为了给Grok 3造势,真有可能就是这天?

暂不开源Grok 3
在直播过程中,可能是为了减少事后被喷,工程师多次表示可能会有“不完美”的情况,承认模型的不足,但称模型每天都有在更新,会有实时的数据和信息不断更迭,修正信息。
在发布会尾声,团队还简短回答了网友提出的问题。比如,语音助手将在一周后上线。
关于开源问题,尽管马斯克多次称赞DeepSeek的开源策略,拉踩OpenAI的闭源盈利模式,但Grok 3仍为闭源版本。
团队称会在新版本发布后,对上个版本进行开源,暂不会对Grok 3开源,可能要等几个月。马斯克解释称“需优先保障商业竞争力”。
发布会前,OpenAI 首席执行官奥尔特曼在X上,正式官宣了下一个项目将开源,并给出了两种方案:o3-mini还是端侧模型,目前o3-mini投票已领先,看来更有可能先在o3-mini落地。

开源之光还得是DeepSeek!
另外,在被网友问到Grok是男孩还是女孩时,马斯克显示出了不同于以往的开放心态,称由它自己定义性别,并警告用户不要爱上它。

网友实测
发布会结束后,已经有部分网友实测了Grok 3。
有网友非常看好Grok 3,称它是唯一胜者。

也有网友发现了Grok 3的缺陷,比如不擅长编码。

此外还有网友质疑其订阅政策,担忧可能会在之后向所有人免费,就像ChatGPT一样。

“地球最强AI”的称号究竟能否名副其实,也许还得等到全面上线后见分晓。