苹果亮大招,发布小模型

趣唠科技不打烊 2024-08-12 03:12:41

文丨俊俊

“Apple Vision Pro 是有史以来最先进的消费电子设备”,库克曾激动地如此表述,但市场并不买单,Apple Vision Pro未引发现象级消费。

消费者的诚实,宣告了Apple Vision 的“暂时失败”,随之而来的还有质疑声:苹果失去创新力了!

但苹果一向不是技术领先者,它没有发明过任何新品类。

苹果是集成创新者,也就是将创新做成产品的,将其广泛普及,能成功将发明找到和市场的结合,推出超级产品。这是其厉害之处。

此前火热的AI赛道,并未见到苹果的深刻入局,大家也一度诟病。

现在变天了,近日,苹果自家AI终于放了个大招。

苹果发布DCLM-7B

近日,苹果发布70亿参数小模型DCLM-7B,发布即开源。最大70亿参数,不仅效果与Llama 3 8B,Gemma相当,更是击败Mistral 7B模型。

但更优秀的是他们完全开源了所有内容,全部训练过程和资源,包括预训练数据集。

苹果大方的开源DCLM-7B带来的不仅是引人关注,更是四方好评,网友表示,真的是苹果嘛?

根据苹果ML小组研究科学家Vaishaal Shankar(也是DCLM研发人员)的说法,这是迄今为止性能最好的“真正开源”的模型,不仅有权重和训练代码,而且是基于开放数据集DCLM-Baseline。

就连NLP科学家、AutoAWQ创建者也为此发出惊叹。

苹果研究团队先是提出了一个语言模型数据比较新基准 ——DCLM,团队使用DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。

基于此,团队构建了一个高质量数据集DCLM-BASELINE,并用它从头训练了一个7B参数模型——DCLM-7B。

模型基础配置:

采用decoder-only架构,使用PyTorch和OpenLM框架进行预训练

7B基础模型,在开放数据集上使用2.5T tokens进行训练

主要是英文数据,拥有2048tokens上下文窗口

数据集包括DCLM-BASELINE、StarCoder和ProofPile2

MMLU得分接近Llama 3 8B

使用PyTorch和OpenLM框架进行训练

DCLM-7B具体表现如何呢?

结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。

与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。

最后,为了测试新数据集效果,有业内人士用卡帕西的llm.c训练了GPT-2 1.5B,来比较DCLM-Baseline与FineWeb-Edu这两个数据集。

结果显示DCLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。

苹果,扳回一局。

小模型,起风了

小模型现在是遍地开花了。

前有微软Phi系列,谷歌Gemma 2 7B,以及openAI的GPT-4o mini,HuggingFace的小模型家族SmolLM,Mistral AI联合英伟达发布的12B参数小模型Mistral NeMo,后有Meta发布的MobileLLM系列……

对于未来的通用人工智能来说,更小、更高效的人工智能模型可能会重新定义人工智能,挑战“越大越好”的近年风向。

小模型速度快、更专业,通常只使用少量数据训练,为特定任务而设计。但在能力相近的情况下,小模型则大大降低了成本。

大模型最为直观的优越性,在于有小模型难以企及的推理演绎能力,能理解更复杂、更广阔的场景。

但聚焦到特定的应用场景,最终发挥作用的往往不是大模型,而是轻量的中小模型。大模型涉猎广,但对具体场景的推理演绎能力往往不如“专家”中小模型。

另一方面,从更现实的成本问题出发,中小模型能将大模型运行所需的算力成本降到1/10甚至1/100。

其实,数据质量是AI训练的关键成功因素,AI系统如何从更少的数据中学到更多始终是模型要面对的问题。

之前就有人认为,如果有充足的计算资源和数据,训练足够长时间,小模型的表现也可以超越大模型。

反方则认为小模型不符合机器学习的基本原理。给其一个节点的网络和无穷的数据,无穷的算力,能达的能力可能并不会到预期。

AGI到底是一个全能大模型,还是来自许多小模型的协作呢?需要在前进中找到答案。让赛道去伪存真,也需要经历一定的时间。

在乔布斯时代,苹果用一个又一个创新性产品重塑了一个个行业,改变了世界!

1984年苹果推出mac,1998年被乔布斯改革后再次亮相,它普及了图形用户界面、引发了家用电脑革命。

2001年推出ipod,2003年推出iTunes,用这两个产品改变了人们消费音乐的方式,并且打开了苹果内容和应用生态的大门。

2007年发布iPhone,惊艳全世界,让苹果公司重新走向伟大。

2010年发布的iPad,开创了平板电脑的高光时代。

乔布斯给电脑、音乐、手机等产业带来了颠覆性变革,改变了大家的生活方式。因此,苹果成为全球最会赚钱的科技公司之一,是业内风向标。

市场端的销量不足以宣判苹果Vision Pro的死亡,DCLM-7B能否为苹果注入新的生命力?我们期待苹果一如既往的创作出更伟大的产品。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注