微软的另一条“腿”,要做真正Open的AI

镁客网 2024-03-01 15:41:01

不过他们很快撤回了这条消息。

这两天,苹果不造车改转AI的新闻闹得火热,另一边,作为老对手的微软也在悄摸扩张自己的AI版图。

是的,坐拥OpenAI这座“人工智能金字招牌”的微软并没有停下脚步,在27号收购了一家名为Mistral AI的欧洲初创公司的少数股权。Mistral与OpenAI一道,成为了微软行走在人工智能领域的坚实“大腿”。

区别于名字带着“Open”实际并不“Open(开源)”的OpenAI,Mistral创立之初的使命就是“引领开放模型的革命。”

欧洲人自己的“Open”AI

Mistral从创立至今,一直很少在打得火热的人工智能竞赛中发声。

(图源:Mistral AI)

团队的三位创始人CEO Arthur Mensch和CTO Timothée Lacroix、首席科学家Guillaume Lample此前分别在DeepMind和Meta从事大模型的相关工作。

由于抱有相同的理念,机缘巧合之下三人在法国创立了Mistral AI。由于人工智能产业在欧洲市场本就不多,再加上几位创始人的履历,在没有任何产品的情况下,Mistral就收获了来自Lightspeed Venture Partners光速全球领投的1.13亿美元种子轮投资。

造就了“6人,4周,7页PPT,1.13亿美元”的AI投融资传奇,当然,这样的故事自然会引起一定的非议,当时也被认为是AI泡沫的代表。

不过好在,收下融资的Mistral AI相当迅速地拿出了第一个作品——Mistral 7B,并且没有任何花里胡哨的宣传、发布会,直接在社交媒体上贴了一个磁力下载链接,让所有想部署的用户都能直接免费获取。

带领“小”模型风潮

根据Mistral官方的说法,在所有的基准测试中,Mistral 7B的表现甚至还要优于130亿参数的Llama 2,在代码、数学和推理测试中,甚至超过了有数倍参数量差距的Llama 1 34B。

(图源:Mistral AI)

不仅在性能上更优,Mistral 7B由于参数量的原因,更适合在消费级设备上进行部署,有人就分享了在自己的苹果笔记本上运行的效果,在量化后更是发现,Mistral 7B只需要不到5GB内存和6GB的GPU显存,只需微调,即可在单卡上运行。

(图源:网络)

而且就在不到2个月后,他们又火速拿出了首个MoE开源模型Mixtral 8x7B,参数量级还是70亿,但是架构方案有了少许变化。

根据描述,Mixtral 8x7B采用了一种稀疏的专家混合网络,模型分成了8个不同方向领域的专家,在每次处理时,选择其中两个专家来实现输出,这样既能够快速响应完成任务,也相应减少了推理成本。

这个模式就非常眼熟,很像传闻中GPT-4的架构方案(即16个专家总数,单个专家166B参数),不过是缩小版的,并且Mixtral 8x7B与GPT-4一样也是32K上下文。

在这样的改变下,Mixtral 8x7B不仅有多项测试能够领先10倍参数的Llama 2 70B,还差不多追平了GPT-3.5。

(图源:Mistral AI)

这样的产品不仅让Mixtral AI在去年11月初收获了一笔3亿美元的战略投资,也掀起了AI行业“小”模型的风潮,毕竟再强的模型也需要有用户才有价值。

初心变了?

可就在AI圈因为有这样的真·“Oepn”AI而雀跃时,事情突然急转之下。

Mixtral AI在被微软收购的同时,带来了一款号称可以跟GPT-4扳手腕的新品——Mistral Large。官方宣称的性能、训练成本等等具体如何姑且不论,有人发现,这次Mixtral没有再大手一挥抛出下载链接任人取拿,反而还把官网中关于开源社区义务的相关内容给删除了。

(图源:Mistral AI)

从后续CEO“坚持开源理念,但也会有闭源模型参与商业竞争”的回应来看,Mistral Large“闭源”是板上钉钉了。

也无怪Mistral,毕竟还是初创公司,在算力、资金等方面还是有所欠缺的,一直“用爱发电”也无法长久。

本文作者:Visssom,观点仅代表个人,题图源:@MistralAI

0 阅读:0

镁客网

简介:硬科技第一产业媒体,提供最有价值的行业观察。