阿里,全球第一!!!

罗超频道 2024-06-27 21:24:34

近日,全球著名开源平台HuggingFace(笑脸)联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本卫冕冠军,继续位列全球开源模型排行榜第一名。

在OpenAI拒绝中国开发者的当口,这个“第一名”来得非常及时。

第一,中国开发者从OpenAI集体“回家”,国内大模型供应商纷纷推出迁移方案迎接。雷科技在《OpenAI拒绝中国开发者,“百模大战”全面进入下半场》一文已盘点,超过10家大模型供应商推出各种服务来“抢客”。

不过,在很多人固有印象中,中国大模型供应商只是“平替版本”,是实在没得用了,勉强能用的。甚至还有人说GPT是高铁,国产大模型就是拖拉机,虽然都能跑,但其实不一样。

其实这是偏见,在很多领域,国内大模型都已经具有世界级竞争力了,特别是开源大模型。

什么叫具备世界级竞争力的大模型?这里分两种:

一种是每次发布会都号称全面碾压GPT4的玩家,参数没输过,评测没赢过,这是自卖自夸,自吹自擂。

还有一类,是在权威榜单上拿到名次的。HuggingFace是全球最权威的开源模型榜单,它给阿里云的Qwen2“正名”,或者说给了“权威认证”。

第二,为什么HuggingFace能做全球最权威的开源模型榜单?

为什么HuggingFace能做全球最权威的开源模型榜单?这个定义不是随便给的,而是跟这个平台的背景有关系。HuggingFace不是大模型供应商,而是全球最受欢迎的大模型和数据集开源社区,开发者可以在这里获取大模型开源代码、获取数据集进行训练。可以说,做AI开发,基本绕不过HuggingFace,因此它也被称为大模型/机器学习的GitHub。

也就是说,HuggingFace更像是一个大模型的应用、分发、发布平台。包括微软、Facebook、特斯拉等等巨头的大模型,都会在HuggingFace主发布。比如在前段时间的微软Build大会,纳德拉就宣布微软在 Huggingface 上发布了 Phi-3-medium,Phi-3-small,以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消费级硬件上可用的最好模型。

有海量开源大模型以及数据集,有海量AI开发者以及使用数据,因此HuggingFace可以做出行业最权威的开源模型榜单。这跟媒体或者专门的第三方评测机构做的榜单有本质不同。很多评测榜单源自这样的“第三方”,姑且不说权威性、客观性、中立性,恐怕专业性也会大打折扣。

好了,说清楚HuggingFace榜单的权威性后,我们再看阿里云的Qwen2有多强?

第三,为什么HuggingFace 6月两次发榜?榜单V2意义在哪里?

其实今年6月7日,HuggingFace也发过一次榜单,当时第一也是Qwen2。为什么要更新榜单到V2呢?HuggingFace说是,“榜单内的测试集,更难、更好、更快、更强(Harder, better, faster, stronger)。”因此,对模型的考察也更有说服力。

其实对大模型基于测试数据集进行评测的过程,形象点说就是“做题考分”,跟我们考试一样。但问题是,这个题目是开放的。因此就出现了一种情况:很多大模型会“刷题”,就是让大模型先训练几波,进而拿到好的评测分数,有的公司会雇佣人类“数据标注员”来做题将答案给到大模型,还有的公司会让GPT-4来答题再将答案用来训练自家大模型,大模型做题就可以“满分”了。许多大模型刚推出就可以拿满分“排第一”碾压GPT-4,玄妙正在于这里。

也就是说,开源评测数据集相当于高考搞“开卷考试”一样,除非是特别开放的问题(如职场面试),否则被试者完全可以提前针对性地刷题背答案,最终得分自然完全无法反映出其真实水平。

HuggingFace也在技术博文指出,“过去一年,Open LLM Leaderboard的基准指标已经被过度使用,出现几个问题:题目对模型来说变得太简单;一些新近出现的模型出现数据污染迹象;有些测评基准存在错误。因此,平台提出了更有挑战性的V2榜单,基于未受污染、高质量数据集的新基准,运用可靠的度量标准。”

好了,现在测试数据集(题目)大更新,最新的试卷、最新的考试,阿里云的Qwen2还是第一。也正是因为此,Huggingface联合创始人兼首席执行官Clem才会公开发文称“Qwen2-72B是王者,中国在全球开源大模型领域处于领导地位。”如果没有严格、充分的测试,他不可能公开进行这样的“点赞”。

期待以后HuggingFace的榜单可以升级更快,测试数据集可以更新更快,阿里云的Qwen2以及国产大模型可以继续拥有更好的名次。

OpenAI不支持中国开发者,开源大模型厂商必须要快速精进,勇敢补位。现在,是国产大模型、国产开源大模型生态被倒逼加速进步的绝佳时机,也是证明自己的好时机。

11 阅读:3537
评论列表
  • 2024-06-28 00:45

    马云,真的是外星人,那些老家伙们能支持他一下,他就是中国的马斯克

  • 2024-06-28 14:03

    阿里炒作水平 世界第一

    虞山舜水 回复:
    阿里云也是炒出来的?飞天云计算操作系统获得中国电子学会15年来首个科技进步特等奖也是假的?阿里是得罪你们什么了,一天天地往死里黑?[静静吃瓜][静静吃瓜][静静吃瓜]
  • 2024-06-28 13:22

    ​中国企业做大了,美国满世界的迫害! 美国企业做大了,一堆人天天吹捧!! 这就是我们要支持国货的原因!

  • 2024-06-28 13:21

    低调实干,为阿里[点赞]

  • 2024-06-28 13:10

    [赞]千问的确可以,比某言,某火,某元等强了不少

  • 2024-06-28 05:08

    一如既往地支持阿里巴巴

  • 2
    2024-06-28 11:04

    线上个人闭卷赛,含金量为0。 阿里做什么什么业务

    虞山舜水 回复:
    阿里数赛是为了激起社会对数学的兴趣纯属公益,还有青橙奖专门奖励青年学者,飞天云计算操作系统获得中国电子学会15年来首个科技进步特等奖,阿里是得罪你们什么了,一天天地往死里黑?[无奈吐舌][无奈吐舌][无奈吐舌]
  • 2024-06-28 07:25

    国际承认 但国内不认啊

  • 2024-06-28 02:41

    马桑高利贷高科技世界第一!

    虞山舜水 回复:
    阿里云也是炒出来的?飞天云计算操作系统获得中国电子学会15年来首个科技进步特等奖也是假的?阿里是得罪你们什么了,一天天地往死里黑?[无奈吐舌][无奈吐舌]
  • Best 2
    2024-06-28 00:07

    这个社会喷子怎么这么多啊?!是哪里出了问题?!对社会不满、抱怨,那是被淘汰的节奏,除了这个结果,不可能有其他结果。社会的进步、文明的进步、科技的进步也不因为这些喷子的存在而停滞不前!

  • 2024-06-28 12:11

    标题党 只是开源第一

  • ABC 1
    2024-06-28 12:25

    吹牛逼

    虞山舜水 回复:
    阿里云也是炒出来的?飞天云计算操作系统获得中国电子学会15年来首个科技进步特等奖也是假的?阿里是得罪你们什么了,一天天地往死里黑?[无奈吐舌][无奈吐舌]
  • 2024-06-28 00:18

    说得好像抱脸我们上的去一样

  • 2024-06-28 00:06

    大模型…不就是量化嘛

罗超频道

简介:专注于AI科技行业观察。