"欧洲版OpenAI"Mistral创始人:长文本正在取代RAG的优势

乌鸦智能说 2024-03-29 14:07:45

3月21日,在Figma的组织之下,硅谷投资人Elad Gil与法国AI创业公司Mistral CEO Arthur Mensch进行了一场炉边谈话。

Mistral在成立之初仅有6人,在尚未有产品推出时就凭7页PPT拿下8亿人民币种子轮融资,被法国媒体誉为“欧洲版OpenAI”,并得到法国总统的认可。

成立以来,Mistral推出了多款语言模型,其中Mistral-7B在基准测试中表现优异,被认为是目前最强的开源大语言模型之一。此外,Mistral AI还发布了Mixtral8x7B模型,展示了其在模型开发和优化方面的实力和潜力。

在本次对谈中,Elad Gil以其精准的投资者眼光,从Mistral的开源运行方式、ToB业务选择、专注欧洲市场等企业特色切入,与Arthur Mensch展开探讨,如Mistral 的发展过程及未来业务规划、模型训练的方式、AI监管及在企业服务领域的落地问题以及全球市场的选择等。

/ 01 / 小团队初创四月超越Llama

Elad Gil:从背景上看,你有机器学习的博士学位,是DeepMind的资深研究科学家。Mistral公司成员不仅来自谷歌,也有来自Meta和Llama项目的人员。你们采取了开源的方式,这种方式很有意思,我们后面可以聊一聊。能先谈谈创立Mistral公司的契机和动机吗?是什么促使你们决定创办这家公司?

Arthur Mensch: 我和Timothée一直有这个想法。当时他在Meta,我在DeepMind工作。ChatGPT的出现让我们意识到有机会创办一家人工智能公司。我们可以很快招聘到一个出色的团队,尽管我们不是第一家,但可以加速一些进程。

Elad Gil: 大多数观看直播的人可能不太了解Mistral公司,您能简单介绍一下公司的产品、平台和各个组成部分吗?

Arthur Mensch: 我们实际上是一家专注于构建基础模型的公司。我们是开源模型领域的领导者。我们之所以创立公司,是从构建文本到文本生成模型开始的,这实际上是创建当下通用虚拟助理应用的基础构件。我知道我们现在在Figma组织的活动,我们暂时还没有专注于图像领域,但这显然是迟早会做的工作。

我们与众不同的地方在于,我们采取了开源核心的方式,在12月份发布了7B模型,并在这些开源模型的基础上构建了一个平台,同时也在12月和2月分别推出了一些商业模型。所以我们一方面在打造开源模型,另一方面也在为企业构建一个可移植的平台,重点关注开发者,为开发者构建工具。

Elad Gil: 从公司创立到推出7B模型,历时多久?

Arthur Mensch: 大约4个月左右。

Elad Gil: 能分享一下你们是如何如此迅速地推出第一款产品,并使之获得快速采用的吗?团队是如何集中精力实现这一个别具一格的目标的?

Arthur Mensch: 我们思考了当前这个领域缺失了什么,意识到小型模型对人们很有吸引力。当时人们正在基于Llama 7B模型进行尝试,但Llama 7B还不够好。所以我们意识到自己可以做得更好,7B模型可以做得更好,这就是我们着力的切入点。

基本上我们不得不从零开始构建整个技术栈,包括获取数据、编写训练代码、获取计算资源。在这4个月里,我们一直在逐步扩大计算力,起初是0个GPU,后来实际上是在500个GPU上训练出7B模型。我们之所以进展如此迅速,是因为团队动力十足,在这4个月里几乎没有休息日。

一般来说,成功的AI团队通常只有4到5人,发明创新的AI团队规模向来如此。所以我们试图打造这样一个组织结构,有5人小分队专注于数据、预训练等工作,到目前为止,这种模式运作得很好。

Elad Gil: 你们的路线图上还有哪些新产品和功能?

Arthur Mensch: 我们会推出新的开源模型,包括通用型和垂直领域型模型,这工作正在紧锣密鼓地进行中。我们还会为平台引入一些新的微调功能。我们最近推出了一款名为Le Chat的基于对话的助理,目前它只是在使用基础模型,相当于ChatGPT最初的版本。我们正在积极开发数据连接器和功能增强,旨在为企业提供一个有吸引力的解决方案。

Elad Gil: 你们计划关注哪些垂直领域?或者能透露一些吗?

Arthur Mensch: 我们最初是从金融服务行业切入的,因为这个领域比较成熟。基本上我们瞄准两大目标市场,一是企业客户,从金融服务行业开始,因为它比较成熟;二是数字化公司和开发者,比如正在创办AI公司或者将AI引入传统非AI公司的公司。通过与云服务商建立合作关系,我们可以接触到企业客户群体,因为他们在这一领域掌控着一定市场;而通过我们自己的平台,我们则直接面向开发者。

Elad Gil: 您最近宣布与微软和Azure达成了合作关系,能透露一些相关内容吗?这为你们开放了哪些企业级市场?

Arthur Mensch: 这为我们开辟了新的客户群体。很多企业难以直接采用第三方服务提供商的产品,因为他们需要经过采购、风险评估等流程。但如果是通过云服务商的渠道作为第三方,则可以加快进程。事实上,当我们在Azure上线产品时,我们立即获得了1000多家企业客户。这说明了我们需要适应企业目前广泛采用云服务的现状,他们不愿轻易引入新平台,所以起步时确实需要通过云服务商的渠道。

/ 02 / Mistral的模型发展计划

Elad Gil: 目前业界的重点是扩大模型规模,追求越来越大、性能越来越好的版本。在接下来的6个月或1年里,你们的目标模型规模是什么?是否有计划长期构建超大型模型?你们是如何考虑要提供的各种模型组合的?

Arthur Mensch: 我们起初的关注点是效率,以更高效的方式训练模型,甚至比当前的做法更高效。一旦我们实现了高效率,我们就开始扩大规模。这就是为什么我们进行了另一轮融资,并开始增加我们的计算力。

所以我们可以期待看到新的更强大的模型,因为我们投入了更多的计算资源。这些模型的规模可能会略有增加,因为当计算量增长时,你需要相应地增加模型容量。但对我们来说,保持高效的推理能力,并拥有高度压缩的模型仍然非常重要,这种模型将继续面向开源世界提供。

Elad Gil: 有人指出,当模型达到某些能力时,你就可以加快构建下一个模型的步伐,因为你可以利用例如GPT-4级别的模型来做数据反馈或生成合成数据,或执行其他一些真正加速工作流程的事情,比如数据标注等各种任务,在某些情况下甚至可以达到超人水平。你是如何看待利用模型来相互帮助提升,这是否实际上加快了每个后续版本的发布时间线?

Arthur Mensch: 我想总的来说,两年前数据反馈确实非常重要,但如今已经没那么重要了,因为模型变得越来越好,有时候足以自我监督自己。正如我们所注意到的,随着模型规模的扩大,这种情况确实在持续改善。这意味着通过人工注释的高成本部分实际上正在减少,从而也降低了进入门槛。

Elad Gil: 关于推理能力的发展,你们有何考虑?是否会专门训练用于推理的子模型,还是认为推理能力将随着模型规模的扩大而自然获得?或者两者兼而有之?

Arthur Mensch: 目前提高推理能力的唯一可靠方式,是在更大的数据集上训练更大的模型。通过构建外部循环、添加新的函数调用、提供更多让模型进行推理所需的数据,也有一些可能性,而不是让模型凭空想象。所以我们并不自诩拥有什么提高推理能力的秘密配方,而是通过关注数据,尤其是涵盖数学内容的数据,从而打造出具备相当推理能力的模型。代码数据也有所助益。总之没有什么魔法配方,只是专注于一些小细节就能奏效。

Elad Gil: 我之所以这样问,是因为在人工智能的发展历史上,似乎存在两种不同的方法。一种是基于Transformer的模型并将其扩大规模;另一种是像AlphaGo和扑克游戏那样,通过自我对弈的方式来自举例获得新的策略或能力,在某种程度上也是一种推理形式。在模型训练的背景下,或许会很自然地采用后一种方式,比如使用代码数据,或者针对真实的评估标准进行测试。所以我不知道你们是否也在考虑这种方式,或者它在你们看来是否重要?

Arthur Mensch: 在Meta工作时,Guillaume和Timothée 就曾尝试过使用大语言模型来做定理证明,这与将大语言模型作为推理单元,然后在外部构建采样循环、进行多指标研究等有着紧密联系。当时制约这一方向的一个因素是,模型的时延很高,如果你想大量采样,就需要缩小模型规模,所以这个问题与效率息息相关。随着我们提高效率,硬件能力和模型容量也会增长,这样就能探索更多可能性,更充分地采样,最终通过外部开发来提高推理能力。

Elad Gil: 还有很多人在讨论记忆和跨动作、代理链式连接时保持更长状态视角的能力问题。你们是否会很快着手构建某种代理模型,还是更多关注为各种应用赋能的核心API?

Arthur Mensch: 我们确实尝试通过函数调用来支持这一点,这是管理和创建具有状态存储能力的代理模型的一种好方式。比如在对话记忆方面,你可以在中间件层引入一些基本函数,提供给模型使用,让它能够基于此更新内存和表示。所以函数调用是一种通用工具,可用于创建复杂的设置和复杂的代理模型。不过要让它正常工作并加以评估都是一个巨大的挑战。我认为这将是我们在产品端需要应对的最大挑战之一,即如何构建出行之有效、经得起评估、反馈优化的代理模型。

Elad Gil: 最近很多人在讨论上下文窗口的重要性,比如针对生物学模型,如果扩大上下文窗口,就能获得更好的蛋白质折叠结果等。上下文确实至关重要。我知道Gemini推出了最多可达几百万的上下文窗口,你觉得这个特性有多重要?它是否会取代RAG或微调技术?或者说这些技术未来都将并行使用?

Arthur Mensch: 上下文窗口不会取代微调,因为微调有完全不同的目的,即灌输你的任务偏好和示范任务本身。但大的上下文窗口确实会简化RAG等技术,因为你可以将更多知识注入上下文中。而且用户反馈是,一旦使用了大上下文窗口的模型,就很难回头了,这简直就像一种"毒品"。所以我们当然希望继续改进和扩展这个特性。从基础设施角度来看,处理大尺寸的注意力矩阵确实是一个挑战,但也有一些变通方法。

Elad Gil: 你认为推理能力的提升会通过传统的基于GPU的方式实现,还是我们会开始看到越来越多针对特定Transformer模型的定制芯片,将权重烧录在芯片上?或者更普遍地针对Transformer架构,只需加载预设权重?

Arthur Mensch: Transformer架构被广泛使用的一个好处是,你可以针对这种架构专门定制硬件,在这方面可以获得很大的性能提升。比如在英伟达芯片上,内存带宽就是一个不幸的瓶颈,通过转向更多定制化芯片,你就可以显著降低推理成本。目前定制化芯片还没有做好准备,所以我们暂时不会在这方面下注。但我确实预计,这将显著提高成本效益。

/ 03 / AI模型在企业服务方面的应用

Elad Gil: Mistral最初是一款面向开发者的产品,采用了开源方式。但现在你们开始为各种企业服务,在企业采用这种技术和方法时,使用案例或应用领域是否存在什么共性?

Arthur Mensch: 是的,企业主要有三种常见的使用案例。第一是开发者生产力,因为现成的方案与他们的开发方式不太契合,通常需要一些挣扎。第二是知识管理工具,企业通常会构建自己的知识库助手。最后是客户服务,很多企业都在大力推进自动化,以减少人工服务,提高效率,这确实是非常有前景的领域。而对于AI公司来说,使用案例就更加多样化了,因为他们在这方面更有创造力。总的来说,企业目前还是集中在这三个领域。这也是为什么我们开始考虑上移价值链,提供更多一体化解决方案的原因,因为企业有时确实需要一些帮助。

Elad Gil: 这确实说得通。我猜很多人都看到了Klarna的CEO的那条推文,讲到他们如何在自助客户服务领域添加了一系列工具,基本上减少了700个客服人员,在短短一个月内就获得了230万个响应。所以我觉得,这种对生产力和就业的冲击确实是一个目前被低估的巨大浪潮。

Arthur Mensch: 是的,我们看到了更多不同的使用案例。其中有一个是建立了一个平台,通过短信与临时工试图为他们匹配工作。之前客户需要150个人与客户直接互动,但现在只需7个人就能大规模支撑平台运营,让临时工更容易获得工作机会。总的来说,客户服务自动化确实有助于提升服务质量,这是这项技术最令人兴奋的地方。

Elad Gil: 你认为现在还缺少什么,会阻碍企业加速采用这种技术?

Arthur Mensch: 我们的赌注是,企业仍在努力评估和验证模型是否真的可以投入生产使用。目前缺少的是一些持续集成的工具,以及自动证明任何大语言模型使用案例的工具。所以我觉得这些对于企业内部开发者来说是缺失的部分。而对于企业内部的终端用户来说,我们离真正能创建出遵循指令良好、可由用户轻松定制的助手还有相当一段距离,这才是目前的短板所在。

Elad Gil: 我觉得你一直非常审慎地思考人工智能的监管问题。我知道你曾参与过关于欧盟监管及其他人工智能监管的一些讨论。你能解释一下你的观点吗?当下和未来我们应该关注哪些重点,以及如何更广泛地看待这个问题?

Arthur Mensch: 是的,当时10月份出现了一股反对开源人工智能的浪潮,所以我们不得不站出来解释,开源实际上是确保这项技术安全可靠、经过评估的正确途径。我们一直在重申,人们将不同层面的话题混为一谈,比如模糊定义且缺乏科学证据的存在风险。再比如将国家安全与人工智能、大语言模型被用于生产生化武器等问题混淆,但后者同样缺乏证据。我们应该关注的是一些非常重要的实际问题,比如如何实际部署模型并控制其输出、如何处理偏见、如何设定模型的语调并加以评估和控制等。我认为这才是最重要的部分,即如何构建可靠、可控、可评估的安全产品,这也是过去几个月来我们一直强调的重点,因为我们不得不发声。

/ 04 / AI发展的地缘分析

Elad Gil: 欧洲现在初创公司蓬勃发展,尤其是人工智能领域。巴黎-伦敦走廊和硅谷是目前两大 AI 初创公司聚集地。您认为是什么因素推动了这一发展?

Arthur Mensch: 伦敦拥有 DeepMind 公司,它一直以来都非常吸引全球顶尖人才。2018 年,DeepMind 和 Google 在巴黎开设了研究办公室,进一步增强了当地的研究实力。法国和其他一些欧盟国家拥有优质的教育体系,培养出优秀的人工智能工程师和科学家,这也是欧洲拥有强大基础模型和应用层公司生态系统的原因之一。

Elad Gil: 您在全球范围内发布了 Mistral 模型,涵盖多种欧洲语言。其他公司也正在针对日本、印度等地开发语言模型。您认为未来会出现大型全球平台公司(除了中国,因为中国可能像对待互联网一样进行防火墙管制),还是会出现区域性冠军,类似于波音和空中客车?

Arthur Mensch: 我们采取了全球化发布策略。仅仅局限于欧洲市场并不可取,因为技术是流动的。我们所构建的技术与语言紧密相关,虽然英语是众多语言中的一种,但大型语言模型对英语的掌握优于其他语言。因此,我们计划通过专注于欧洲语言,开发出优于美国公司所开发模型的产品,这在欧洲市场有巨大潜力。亚洲市场也需要能理解亚洲语言的模型,解决这些市场的科学难题需要大量投入,而美国公司对此并不关注。因此,作为一家欧洲公司,我们有机会更关注全球市场。

0 阅读:9

乌鸦智能说

简介:人工智能新时代的商业智库和价值灯塔