2025年2月消息:全球知名的AI模型评测平台Chatbot Arena(大模型竞技场)公布了最新一期榜单(Chatbot Arena LLM Leaderboard)。这是业界公认的最公正、最权威榜单之一,采用匿名方式将大模型两两组队,交给用户进行盲测(提出任何相同问题),根据真实对话体验对模型能力进行投票。如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。
公开资料显示:Chatbot Arena于2023年5月推出,由大型模型系统组织(Large Model Systems Organization)创建,目前集成190多种AI模型。LMYSY Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建的公开性质的研究团体,旨在使大型模型技术更加普及和可访问。
大年初一(1月29日)正式升级发布的Qwen2.5-Max,领先DeepSeek V3、OpenAI O1-Mini、谷歌Gemini 2.0 Flash-Lite (Preview) 等模型,以1332分排在全球第七名,也是非推理类的中国大模型冠军。与此同时,数学和编程等单项能力排名第一,在硬提示(Hard prompts)方面位居第二。【注:硬提示是由人工手动设计的文本提示,包含离散的输入标记,与软提示是指导大语言模型行为的两种不同方法】
Qwen2.5-Max是阿里云通义千问旗舰版模型,采用超大规模MoE(Mixture of Experts,混合专家)架构,基于超过20万亿token(词元)的预训练数据及精心设计的后训练方案进行训练。结合监督微调(SFT)和强化学习人类反馈(RLHF),在长文本生成、指令遵循等任务中表现更贴近人类偏好。【注:tokens是自然语言处理NLP领域中的重要概念,指文本中最小的有意义的单元,可以是单词、数字、标点符号或其他字符】
值得一提的是,就在Qwen2.5-Max发布的前一天,阿里云通义千问开源了全新的视觉理解模型Qwen2.5-VL,推出3B、7B、72B三个尺寸版本。自2023年8月开源以来,其相继推出Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖大语言模型、多模态模型、数学模型、代码模型等数十款产品,率先实现“全尺寸、全模态、多场景”的开源布局。全球基于Qwen的衍生模型超过9万个,已超越Llama成为全球最大的人工智能模型族群。
近日,“AI教母”李飞飞团队以通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块英伟达H100 GPU上监督微调26分钟,便训练出性能比肩OpenAI O1和DeepSeek R1等AI推理模型s1-32B。训练成本仅50美元,神奇“低成本”是建立在已具备强大能力的通义千问开源基础模型等“巨人肩膀”之上完成的。
DeepSeek(深度求索)无疑是今年春节假期最火爆的话题之一。这家人工智能公司由幻方量化在2023年出资设立,总部位于杭州,与登上春晚的宇树科技、《黑神话:悟空》发行商游戏科学、强脑科技、云深处科技、群核科技并称为“杭州六小龙”。
2024年12月26日推出的DeepSeek-V3,采用高达6710亿参数的MoE架构,每秒能够处理60个token,比V2快了3倍。时隔不到一个月,2025年1月20日公司又发布其首个通过强化学习 (RL) 训练的推理模型 DeepSeek-R1。
其训练成本仅为557.6万美元,使用的还是H800 GPU(英伟达针对中国市场的低配版GPU)。相比之下,同为开源模型的Meta Llama-3.1模型训练成本超过6000万美元,OpenAI GPT-4o模型训练成本高达1亿美元,且使用的是性能更加优异的H100 GPU集群。
除了深度求索和阿里云通义千问,StepFun(阶跃星辰)的Step-2-16K-Exp和智谱AI的GLM-4-Plus-0111跻身前十。有业内人士分析认为,随着越来越多国产大模型的崛起,低成本开发模式和极具竞争力的使用价格,动摇了美国AI领军企业的巨额研发预算,将让整个AI产业加速变革。