OpenAI封禁令出,“卡脖子”为啥对大模型不灵了?

了不起的云计算 2024-06-28 08:10:13

近几年来,中美在科学技术方面的竞争日益激烈,美国更是不惜以"芯片法案"来压制中国的技术发展。

由于国内自主芯片产业相对薄弱,近几年被“卡脖子”事件屡屡上演,“缺芯”、“芯痛”成为国产芯片市场亟待解决的难题。不过,凭借着坚韧不拔的精神,国产芯片近年接连取得突破,中国芯片自给率逐年稳步提升。

但美国对中国的科技限制并没有停手,眼见一计不成,如今又再生一计。OpenAI 在近日突然宣布将从7月9日起阻止来自非支持国家和地区列表中的地区的 API 流量,中国并不在支持区域。

OpenAI虽然用词委婉,但“司马昭之心路人皆知”。所谓的“阻止来自不在我们支持国家和地区列表中的APl流量”,实际上不过是美国对中国继光刻机、芯片封锁的延续,是对当前爆火的人工智能软实力领域里的新封禁。

但这次OpenAI封禁所带来效果可能要让美国大失所望。中国有句老话:吃一堑长一智。在“芯片法案”后,中国整个科技产业都意识到发展自主可控对信息技术产业的重要性,这一举措除了对“套壳大模型”企业带来一些影响,但对于一直坚持自主研发的国产大模型可以说是“机遇”大于“危机”,甚至被看作是“泼天富贵”。

如今,国产 AI 大模型在常用领域中已可以做到 80%乃至 90%的替代,随着后续迭代升级,效果会更好。OpenAI 的封禁,让国内的 AI 大模型供应商迎来了机会,多家主流 AI 大模型纷纷发出“招揽令”,并给出各种优惠政策和迁移方案。

阿里云百炼就第一时间宣布,将为OpenAI API用户提供最具性价比的中国大模型替代方案,并为中国开发者提供2200万免费tokens和专属迁移服务。百炼集成了上百款大模型api,除了通义、Llama、ChatGLM等系列,还首家托管零一万物、百川智能等系列三方模型,覆盖国内外主流厂商。

当然,也可能有不了解国内大厂的模型用户担心,国产大模型究竟发展到什么程度了?是否真的可以替代国外大模型?

一名其项目已使用通义千问大模型的开发者表示:“单就我的个人项目应用而言,国产模型的水平已经非常高了,而且相比国外大模型,价格实惠得多。”但他也认为,从普通用户的视角来看,很多时候并不清楚模型实力之间的差距,只是会选择知名度影响度更大的模型服务商。

那么国内大模型厂商如今实力如何呢?

我们不妨看一下大模型领域的最新消息:6月27日凌晨,通义千问再度登顶全球最权威的开源模型测评榜单Open LLM Leaderboard,力压 Llama-3、Mixtral、Phi-3等强大对手,卫冕全球开源大模型第一名。

根据排行榜的数据显示,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;Mistralai的Mixtral-8x22B指令微调版本排名第4;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。

可能一些人并不了解源模型测评榜单Open LLM Leaderboard的含金量,Open LLM Leaderboard由Hugging Face社区支持的、致力于追踪、排名和评估大语言模型性能的开放大语言模型排行榜,评估主要包括AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA四个数据集上的表现,是目前评估和比较大模型能力的重要依据。

目前全新排行榜的前10名竞争非常激烈,很多都是当过之前排行榜第一名的高手,相当于大模型界的“华山论剑”。阿里开源的4款大模型傲视群雄,充分说明中国对全球开源大模型的重要贡献以及领导地位。

HuggingFace联合创始人兼CEO clem更是发文表示:“Qwen2是王者,中国在全球开源大模型领域处于领导地位。”

他表示,为了提供全新的开源大模型排行榜,使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。

据了解,这次发布的榜单是v2版本,是HuggingFace一年来首次全面更新的版本。榜单涵盖的一般任务包括:知识测试、短文本和长文本的理解推理、复杂的数学能力,以及与人类偏好高度相关的任务如指令遵循。榜单用了MMLU-Pro等六个基准来考察这些任务,对模型的考察也更有说服力。

加上之前榜单,Qwen2-72B在新旧榜单都稳稳第一名,也验证了Qwen作为全球最强开源模型的实力。

不仅在国外的大模型测评中表现出色,在6月27日,上海人工智能实验室大模型测评榜单Compass Arena公布最新结果,阿里通义千问Qwen2-72B也仅以1分之差排名榜单第二,成为排名最高的开源大模型,总成绩超过文心4.0、讯飞星火3.5等中国闭源大模型。Compass Arena是由上海人工智能实验室推出的权威榜单,聚焦于中国主流大模型的能力测评。

对于排名结果,StabilityAI的研究总监Tanishq表示,他很早就说过中国在开源大模型领域非常有竞争力。关于中国在开源大模型领域处于落后状态简直可笑,相反,他们却处于领导者地位。

曾经有海外开发者发布过ElyzaTasks100性能评测,Qwen2-72B的指令微调版本也是性能最高的开源大模型,仅次于OpenAI的GPT-4o,高于谷歌的Gemini1.5Pro。

可以说,如今的国产大模型已经具有能够跟国外任何大模型媲美的能力。未来围绕技术、产品、服务、品牌、价格、BD 乃至生态的综合较量将更激烈。但国内已经有了像通义千问这样的大模型,能够实现对国外大模型的完美替代。尤其是在 OpenAI 送来的这份大礼面前,更是让通义千问有了破茧成蝶的机会,相信国产大模型替代国外大模型的过程会格外精彩。

2 阅读:40

了不起的云计算

简介:致力于数字化转型问题的技术探讨和解决!