作者丨临风
编辑丨海腰Fireworks AI专注于人工智能的推理部分,其工具帮助企业微调和定制模型以满足特定需求,允许企业使用其平台访问100多个模型。
图源:Fireworks AI
创始人兼CEO 乔琳毕业于复旦,是加利福利亚大学圣巴巴拉分校的计算机科学博士,曾是Meta Pytorch的负责人,在LinkedIn及IBM有过技术工作经验,团队成员内大多来自Meta、Google等大厂,华人成员超1/3。
Fireworks AI选中了小而美的赛道,定制FireAttention推理引擎,与开源的vLLM相比,推理时间缩短12倍,降低使用成本,获得众多资本青睐。
Fireworks AI成立于2022年10月,于2024年7月8日获投5200万美元B轮融资。该轮由红杉资本领投,Benchmark、NVIDIA、Databricks Ventures、Howie Liu、前Snowflake CEO Frank Slootman、AMD、Scale AI首席执行官 Alexandr Wang、前Meta首席运营官Sheryl Sandberg、MongoDB跟投,截至本轮,Fireworks AI估值5.52亿美元。
推理速度提升12倍Fireworks AI认为,人工智能的未来将是复合AI系统,使用各种交互部分(多个模型、模态、检索器、外部工具、数据)来处理任务。
例如,电子邮件公司Superhuman在其平台创建的Ask AI就是一个复合AI系统,用户只需要在收件箱里提出问题,不需要猜测关键词或搜索邮件就能获得响应。
复合AI系统是多模型调用、检索器与外部工具的系统,也是Fireworks致力于达到的目标。
红杉资本评价:“专业地构建高性能推理堆栈、创新地实现复合AI系统,Fireworks AI正在给开发人员提供以前只有科技巨头才能获得的AI解决方案。”
一方面,Fireworks击中了企业务实的需求。当前,Fireworks为开发者、企业提供大模型微调、推理和部署等服务。在模型推理方面,Fireworks AI就像一个专业团队为企业提供成熟的解决方案。
细分场景中,企业使用的大模型通常需要进行一定程度的微调(fine-tuning),提升模型在任务上的表现。尽管大模型在通用任务上表现出色,但通过微调,企业可以更准确地解决自己的问题。
Fireworks AI平台中允许用户通过API访问超过100种不同的模型,包括大语言模型、图像生成模型、音频、嵌入和多模态模型,企业通过这些模型进行微调和部署,从而将AI用于实际业务场景中。
Fireworks AI能让各类公司,尤其是缺乏AI硬件、基础设施的企业低成本、高效地利用模型推出产品。在平台内,企业用户也可以用平台内有效工具将数据融入多种模型中进行产品测试。
另一方面,开源的工具和方案虽然免费易得,但Fireworks AI能让部署和推理更具性价比。为此,他们提供三个方面的服务。
一是无服务器(Serverless)模型。他们定制了CUDA内核的FireAttention推理引擎,在不牺牲质量的前提下,使模型推理速度比vLLM(开源的大语言模型推理与服务引擎)快四倍。FireAttention V2对于用于RAG、多轮推理和多模式应用的长上下文提升,推理速度提高12倍。
图源:Fireworks,FireAttention领先vLLM,在fp8模式下约为12.2倍
“可以是现成的开源模型,可以是我们调整的模型,也可以是客户自行调整的模型,这三种类型都可以通过我们的推理引擎API提供服务,”乔琳描述。
官网显示,Fireworks AI为100多种模型提供极快的推理速度,及时推理广泛使用和特定领域专用的AI模型,如Meta Llama 3.1、Mixtral MoE 8x22b、Stable Diffusion3,针对延迟峰值、吞吐量和上下文长度进行了优化。而且,Fireworks和英伟达一同成为首批接入零一万物Yi-Large大模型的美国主流平台。
图源:Fireworks
二是微调。据TechCrunch,Fireworks AI并不是从头开始训练基础模型,而是帮助微调其他模型以满足企业特定需求。2024年3月,Fireworks AI宣布推出微调服务,可以为包括Mixtral在内的10种模型提供LoRA微调服务。
此前,Stability AI使用其分布式推理服务将SD3\SD3-turbo推向市场,将图像处理速度提升至0.37秒/幅。
速度能提到多快?从另一案例来看,Cursor公司使用其推测解码API构建了“快速应用”(Fast Apply)功能,通过部署特定的微调模型结合推测解码技术,实现每秒1000个tokens的处理速度,比传统方法Llama-3-70b快了约13倍,比GPT-4推测编辑部署快约9倍。
图源:Fireworks
值得注意的是,该平台将模型大小限制在70亿至130亿参数之间,减少计算资源的消耗,从而降低使用成本。尽管小模型没有大模型的知识范围广泛,但更适合处理特定场景的企业。因为其可以通过定制化的数据集和模型优化提升精确度。
乔琳表示:“类似规模的模型(70亿到1000亿参数的模型)在质量上可能会趋同,未来的关键在于,如何根据个人使用场景和工作负载定制这些模型。定制化将成为区分不同AI解决方案的主要因素,而不是模型的规模”。
8月的公告称,该公司与Cursor、Superhuman等个别客户合作,根据具体用例定制量化方案。
三是按需部署,让客户在Fireworks私有的GPU上运行文本模型,按秒计费。
它将自己定位为生产级基础设施,已通过SOC 2 Type II和HIPAA的合规性评估,用户可在其中按需使用。
据官网Blog,他们推出按需(专用)部署,让开发人员可以配置自己的GPU,这些GPU在专有的Fireworks服务堆栈(FireAttention)上运行,能让一个H100相当于三个H100在vLLM的吞吐量,同时速度提高约60%。
图源:Fireworks
速度上去了,价格下来了。Fireworks AI强调,在相同配置的情况下,提速的同时,使用成本大幅降低,他们能给客户更具竞争力的价格。如,同样的Mixtral 8x7b模型中,通过减少GPU总数,切换到7.79美元的Fireworks H100,该平台能节约53%左右的费用。
图源:Fireworks,在Fireworks运行GPU与使用vLLM配置GPU的成本对比
于开发者而言,Fireworks AI提供了一种更灵活的方式,让他们能使用定制、小规模的模型,而不是资源密集型的完整版。正如他们的口号:“从通用AI到专业AI。”(Go from generic to specialized AI)
它可以被视为一个模型托管平台。开发人员可以接入API使用选定的模型来训练数据,添加生成式AI功能。6月初,Fireworks AI推出定制模型,允许开发者导入和使用来自Hugging Face的预训练模型,利用平台优化。
据悉,Fireworks提供了许多开源项目所不具备的自动化服务,包括自动调整复杂性和性能优化,简化开发过程。
以上这系列生成式AI服务都需付费,除了企业方案外,从Serverless文本模型推理、图像生成、微调服务到按需的GPU推理等Fireworks都将按需收费。其中,开发人员可以最多部署100个模型。
7月11日在获得B轮融资时,Fireworks表示,他们与vLLM相比推理时间缩短12倍,与GPT-4相比缩短40倍,平台每天处理1400亿个令牌,API正常运行时间为99.99%。合作伙伴有初创Cursor、Liner,也有数字巨头DoorDash、Quora等。
图源:Fireworks
Fireworks供应商包含MongoDB、Meta、Mistral、NVIDIA、AMD、AWS、Google和甲骨文Oracle Cloud,其中多数也是本轮的投资者。
复旦才女领队,华人超1/3
在震撼的Mixtral MoE 8x7B正式发布前2天,Fireworks就是第一个托管它的平台,给大模型的朋友圈留下深刻印象。凭借优化性能的成果和开发者推荐的技术积累,Fireworks在行业中的地位逐渐提升。8月15日,Fireworks登上福布斯“下一个十亿美元创业公司”榜单。
其背后的技术团队实力不容小觑,只有27人,多数来自Meta、Google、AWS、Zillow、Wayfair、Plaid等公司,其中华人面孔占相当比例,超过1/3。并且,创始团队及工程师是前Meta Pytorch、Google Vertex AI的核心成员,其中就包括前Vertex AI主管赵晨宇。
图源:Fireworks
创始人及首席执行官乔琳(Lin Qiao)曾任Pytorch的负责人。她本硕毕业于复旦大学计算机科学专业,是加州大学圣巴巴拉分校CS博士。
图源:领英
乔琳拥有优秀的工作履历和出色的软件工程经验,她在IBM硅谷实验室担任过顾问软件工程师,曾任LinkedIn技术主管,也是前Meta的高级工程总监,领导过300多名AI框架和平台的世界级工程师。
图源:领英
她在创立Fireworks前5年,一直与现公司联合创始人兼CTO Dmytro Dzhulgakhov共事。Dmytro在哈尔科夫理工学院读研期间两次入围ACM ICPC世界决赛,是前Meta的技术主管,Pytorch的核心维护者以及Caffe2深度学习框架的核心开发人员。
图源:Fireworks
在Meta从业,乔琳明显能感受到的挑战是简化复杂性。乔琳在领英中描述这段职业经历是:“我们已在所有Facebook数据中心、数十亿移动设备和数百万AR/VR设备中广泛构建部署了Caffe2和后来的Pytorch”。不同类型设备的部署方式完全不同,所以在她看来,哪怕一秒钟的数据延迟都将带来极大影响。
Pytorch是Meta推出的深度学习框架,已成为主流,被用于训练计算机视觉的AI模型如特斯拉的自动辅助驾驶、SD生图和OpenAI的Whisper等。与Pytorch一样,Caffe2也是一个兼具灵活性和可扩展性的深度学习框架。这两类框架与Fireworks能简化开发流程、提升效率密切相关。
在红杉的访谈中,乔琳回忆,她曾清楚地看到了Pytorch的“漏斗效益”,从最初作为研究人员的工具,变为更多通用AI模型的运行框架。
在Meta时,她与团队在寻求一种方法,让用户体验变得简单,隐藏起在后端复杂的内容。她与团队延续理想主义的想法,Pytorch前端+Caffe2后端,搭建了PyTorch 1.0。原以为将Pytorch替换其他框架作为库是一个简单的半年项目,而这实际花费了乔琳团队5年时间。
考虑到高效的数据加载和有效的Pytorch分布式推理、扩展训练,他们必须从头开始重建整个堆栈。“它每天维持超过5万亿次推理,是一个巨大的规模”,最终在乔琳团队离开时,Pytorch成效显著。
Pytorch因简单易用且功能强大为开发者所喜爱。有开发人员解释:“简单理解深度学习,就是用算法将数据训练到模型里存起来。自己用C语言写可以实现,用Pytorch、TensorFlow这样的框架也可以实现。这Pytorch就是Python的库,开发者要训练模型,只需要去调用一个一个‘方法’即可,不用自己实现复杂的算法。”
与Pytorch的设计思路类似,Fireworks旨在做到为用户提供创新的复合AI系统,一种“开箱即用”的开放式模型,能通过微调和自定义部署实现定制能力,减少用户需考虑的复杂性。
据介绍,复合AI系统的agent使用LLM来完成单个任务,并共同解决复杂问题,这种方式允许开发者用最少的编码创建多回合、多任务的AI代理工作流,降低成本和复杂性。
乔琳表示:“Pytorch花了5年时间,而Fireworks的使命是加速整个行业的产品上市周期,将其从5年压缩到5周,甚至是5天。”
此外,她在2022年创立Fireworks时就意识到:“我们看到了AI行业中正在经历第一次转型的公司,无论规模大小都正承受痛苦,源于没有合适的人才、专业知识不足、缺乏软件堆栈集、升级GPU的窘迫。”她想要打破这一矛盾。
在她看来,低延迟、高质量反馈是众多客户的要求。早期阶段的GenAI公司找不到契合市场的产品,而随时间推移,已经有一个明确的趋向,那就是定制化的小模型,从大模型到专业模型的演变。
GenAI与传统AI有显著不同,它不需要从头训练模型,使得通过小规模、高质量的数据集进行模型调整成为可能。资源消耗降低,更多公司和个人可以使用这项技术,从而GenAI的普及度也得到提高。
于是乔琳创立Fireworks,将其作为一个SaaS平台用于AI推理和高质量调优,实时应用程序使用其小模型堆栈可以获得低延迟,企业也可在其中定制高质量服务。
她表示,Fireworks在未来5年想要构建一个提供全面知识访问的API。目前他们已经提供超100个模型,涵盖大语言模型、图像生成、音频生成、视频生成等,而这些模型所涵盖的数据有限,大量信息隐藏在无法访问的公共API之后。为克服这一限制,Fireworks致力于创建一个层来混合不同模型的公有/私有API,实现对知识的全面访问。
乔琳打了个比方:“OpenAI正在提供专家的混合体,它有一个路由器,坐在几个非常强大的专家之上,每个专家各司其职。而我们的愿景是,建立一个混合专家,它能接触到数百名小专家,但他们更敏捷、解决特定问题的质量更高。”
“掘金卖铲”的百亿市场
乔琳在攻破“专注于简单性”的大关前,Meta有三个不同的深度学习框架,Caffe2(用于移动设备)、ONNX(用于服务器端)以及Pytorch(用于研究),2018年5月,Facebook(现Meta)正式公布Pytorch1.0,允许开发人员从研究转向生产而无需迁移。
这三类框架与另一位AI大神关系匪浅,那就是Facebook之前的AI工程开发主管贾扬清。
“Caffe之父”贾扬清是Pytorch1.0共同负责人之一,同时也是神经网络标准ONNX的创始人。从重合的履历线来看,2018年他与乔琳在三类框架成功的基础上,共同领导创建了PyTorch 1.0。
在《人物》的访谈中,贾扬清提到,可扩展性、轻便、增强计算模式、模块化设计这四个因素是Facebook深度学习领域努力的方向。另外,他表示,AI工程化的本质就包括了云原生化、规模化和标准普惠化。正如他加强开源框架的普适性和易用性,加速框架对实际应用的效果。
“未来可能不会出现大一统的深度学习框架,曾经TensorFlow的出现解决了大规模系统的问题,而当超大规模系统用起来不方便时,开发者就会思考如何用更像Python、更容易迭代的方式做算法开发和迭代,Pytorch应运而生,”贾扬清说,“解决上层AI应用、科研时的问题才是更为重要的一点”,解决GenAI应用复杂问题,加速开发。这与乔琳Fireworks的创业思路如出一辙。碰巧的是,他们的创业公司走入的也是同一赛道。
2023年7月,Meta的前Pytorch工程主管Soumith Chintala发推表示,他发现Pytorch前员工创办了一家机器学习基础架构公司Fireworks AI。同时,他艾特了贾扬清,表示他离开了阿里也创办了另一家ML Infra公司。
图源:Twitter
Soumith、贾扬清、Dmytro三人曾共同参与2017的机器学习顶会NIPS,分别讲演Meta的三个深度学习框架。有人以为会是贾扬清创业和Dmytro造一个Caffe3,没想到的是,Dmytro去了Fireworks,贾扬清和ONNX的联创、etcd的创始人成立了Lepton AI。
在ChatGPT引起AI浪潮的年头,贾扬清没有选择大模型,而是选择了它背后的生意,帮企业部署模型。跟Fireworks一样,Lepton AI提供算力、模型和服务,包括通用模型的API、平台服务、对模型微调和部署的服务。
Lepton AI的产品经理鱼哲强调,他们的定价目的是确保用户直接购买现成的解决方案比自己做更划算。从单项价格来看,相同模型的服务,Lepton AI甚至优惠一些。
图源:Fireworks、Lepton AI定价页面对比
有分析指出,AI Infra做的就是“掘金卖铲”的生意,给大模型训练、部署和应用时提供的基础设施。AI应用的市场有多大,AI Infra的机会就有多大。
据Precedence Research数据,AI Infra的市场规模还将不断增长,预计亚太地区增速最快,在2024年亚太地区达到139亿美元的市场规模,而北美地区则占据最大的市场份额。
图源:Precedence Research
未来,随着各行业公司领略到AI提升生产力的优势,将会有更多强大的AI Infra来服务他们应用的开发。