![](http://image.uc.cn/s/wemedia/s/upload/2024/6a4dd65e604b8668911ac6856432e52f.gif)
今年过年,年味浓不浓俺不好说,但 AI 味肯定是够够的了。
小到年夜饭桌,大到热搜新闻,哪哪都是 DeepSeek ,就连世超家族群里平时不咋关注科技的亲戚,也在说中国的人工智能这次胜了老美一筹。
这么说吧, DeepSeek 凭一己之力,拉高了全国对 AI 的认知程度。
![](http://image.uc.cn/s/wemedia/s/upload/2024/90e3b182c135c0270f4b631838d082c5.png)
至于 DeepSeek 到底有多厉害,想必这段时间哥几个也已经上手体验过了,说它是目前最懂中文互联网的 AI 模型,应该没人有意见吧?
反正从身边人统计学来看,这段时间什么 Claude 、 ChatGPT 通通都不香了。
不过大伙儿也先别急着开香槟,这次 DeepSeek 一冒头,对手们就从四面八方吻了上来。
OpenAI 大年初四发 o3 推理模型,今天又免费开放了搜索功能,谷歌的 Gemini2.0 全量开放,还有阿里的 Qwen2.5-Max 也发力打榜 DeepSeek 。。。
![](http://image.uc.cn/s/wemedia/s/upload/2024/28a41e9772a599536d11af9121f41df1.png)
要我说,这些科技公司还是得逼一把,不然你都不知道他们的实力到底有多少。
先说 OpenAI 的 o3 ,去年底的发布会就传出了消息,说今年 1 月份要上线。
但奥特曼估计也没想到,被 DeepSeek 狙了一手,现在这个发布的时间节点,多少就有点耐人寻味了。包括世超也觉着, o3-mini 的发布是为了反击 DeepSeek 。
当然回到正题啊,这次的 o3-mini ,号称是他们的推理系列中最具成本效益的模型,还尤其擅长科学、数学和编码,响应的速度也更快。
一句话总结, o3-mini 就像一个家庭条件一般,但智商很高的理科学霸。
就拿编程来说,除了 o3-mini ( low )打不过 o1 以外, o3-mini 三个档位的模型,基本乱杀前辈 o1 系列。
![](http://image.uc.cn/s/wemedia/s/upload/2024/1d6a4c49e0cad0a5b391880d465c9437.png)
竞赛数学也不在话下, o3-mini ( high )的表现都要好过 o1 系列。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d0e8aa5dad6266418b0ca0140090d41c.png)
就连博士级别的题目, o3-mini 也能跟 o1 系列打得有来有回。
![](http://image.uc.cn/s/wemedia/s/upload/2024/3421738ae53d1de65abaec93a829bf8f.png)
x 上有老哥用同一组 prompt 测试了 o3-mini 和 DeepSeek R1 ,得出的结论是 “ o3-mini ( 编程能力 )碾压 DeepSeek R1 ” 。
![](http://image.uc.cn/s/wemedia/s/upload/2024/9fbbe922e7ed6b11a8bd69368cb78d16.jpg)
说实话,光看视频的话,确实是 o3-mini 的效果更逼真。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d4c3b735ba04abb5d8dec927cb5fa86c.gif)
另外一位老哥也测试了一把 o3-mini 的物理理解能力( prompt :编写一个球在超立方体内弹跳的 Python 脚本 ),直接夸 o3-mini 可能是物理学得最好的模型。
![](http://image.uc.cn/s/wemedia/s/upload/2024/8bf3d5a0f8f9dc32818af1fe733b13f8.gif)
反正看了一波大伙儿的测试,世超觉着 o3-mini 似乎更接近咱们一直在说的,能够理解物理世界、模拟物理规律的世界模型。
重点是, o3-mini 现在免费就能用上,可比之前的 o1 要大方的多了。
而且, o3-mini 只是 o3 系列的第一个版本,后面还会有满血版的 o3 出来。我的建议是让 DeepSeek 再整个大活,给奥特曼上点强度,到时候指不定还会有大升级。
这不,除了发布 o3-mini 外, OpenAI 又趁着咱们开工的这两天,免费开放了 ChatGPT 搜索。
现在你甚至都不需要注册,就能直接用。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d487f833db21327ab40c6daaa6d2249a.png)
过年那阵,微软也让所有的 Copilot 用户免费用上了 o1 推理模型,要不说还得谢谢 DeepSeek 呢。
另外一边,谷歌也有点坐不住了。
同样是去年 12 月发布 Gemini 2.0 ,但那会儿只有开发者和一部分测试者能用,一直咕咕咕也不见有动静。
结果被 DeepSeek 这么一激,一口气发了三个版本的 Gemini2.0 模型。
![](http://image.uc.cn/s/wemedia/s/upload/2024/b806c31d90377050c4533d1f8be694e2.jpg)
基准测试中,各方面性能也都优于前代模型。
![](http://image.uc.cn/s/wemedia/s/upload/2024/bb6b6940674926392997136b5404edc3.png)
但相比 DeepSeek 和 OpenAI 的热度,谷歌这边多少就显得有些无人在意了。
再来看国内的情况,阿里云算是第一个对 DeepSeek 发起 “ 进攻 ” 的公司。
根据阿里云官方的说法, Qwen2.5-Max 在多个基准测试中,超越 DeepSeek V3 、 o1-mini 等多个模型。
![](http://image.uc.cn/s/wemedia/s/upload/2024/f55166486a8ca9ef7829904d8c884f99.jpg)
并且在 Chatbot Arena 的大模型盲测排行榜上, Qwen2.5-Max 冲到了第七的位置。
![](http://image.uc.cn/s/wemedia/s/upload/2024/8d2a5c3ed76217dbee8be845389d4f07.png)
具体看模型的数学和编程能力,甚至还能拿第一。
![](http://image.uc.cn/s/wemedia/s/upload/2024/f3e7337171dc51f78094f77c832e9aee.png)
所以 Qwen2.5-Max 在发布后,国内有不少媒体都出来捧了一波。
![](http://image.uc.cn/s/wemedia/s/upload/2024/da297b80ba0273ead80bb1f622473ce3.jpg)
反正世超看下来,这次由 DeepSeek 掀起的新一轮 AI 军备竞赛,领头的这一批公司已经掏出了不少真家伙。
不过说实在的, DeepSeek 这出后来者居上的戏码,的确给咱上了一课。
指不定后边儿还会有更加出色的模型出现,毕竟有 DeepSeek R1 的珠玉在前,如果再不拿出点实力相当,或者足够炸场的东西来,那就没啥意思了。
咱们坐着等就成,今年的模型大战肯定有的看了。
![](http://image.uc.cn/s/wemedia/s/upload/2024/b7f3962b8beddcdc666e611aecdb282d.png)