MinIO是世界上最受欢迎的开源S3兼容对象存储系统之一。由于其性能和简单性的结合,它已被广泛用于存储各种应用程序的数据。但随着生成式人工智能(GenAI)出现,MinIO公司认识到有机会提供以人工智能为中心的对象存储,如今MinIO推出了AIStor。

MinIO创始人兼首席执行官AB Periasamy以不愿为对象商店(object store)添加功能而闻名。“我们非常努力地不添加新功能,”他在2017年告诉媒体。“去年我们删除了大量代码。我们真诚地试图将其保持在最低限度。”
自MinIO于2014年11月推出对象商店以来,这种极简主义的方法对MinIO非常有效。两年前,该公司报告称,该项目每天为超过100万次读取提供服务,每年为3.3亿次。按照这个速度,MinIO现在的下载量将超过15亿次,使其成为世界上最受欢迎的开源软件之一。
但那是在2022年11月ChatGPT横空出世前,GenAI像火箭一样起飞。MinIO首席营销官Jonathan Symonds表示, GenAI革命大大增强了公司对大数据的需求。
“就存储在MinIO上的数据而言,我们有多个超过Exabyte的客户端,它们运行的工作负载类型与过去完全不同,”Symonds说。“所以,如果你是一个国家实验室,所有数据都在档案中,大部分都在磁带上,你可能会得到Exabyte级数据。但这不是我们在这里谈论的。我们谈论的是Exabyte级数据之上的人工智能和机器学习工作负载。”
组织正在MinIO的对象存储上收集和存储大量非结构化数据,用于构建和训练AI模型的特定目的。数据可以是视频、日志文件和来自汽车的遥测数据。它可以是用于网络威胁检测的日志文件,也可以是用于流媒体服务的媒体。为了服务于这个新兴的存储市场,它在今年早些时候推出了DataPod参考架构。
人工智能用例对MinIO的业务来说变得如此受欢迎和重要,以至于它迫使Periasamy重新评估他天生不愿意添加新功能,并将自己和快速精简的对象存储打开,以应对功能蔓延和产品膨胀的双重风险。MinIO没有继续将其(非开源)企业对象存储构建为擅长广泛用例的横向产品,而是决定加倍重视人工智能,并专门围绕人工智能存储和访问数据的新兴需求重新设计企业产品。

MinIO新的promptObject API允许用户查询非结构化数据,如餐厅收据。
Periasamy说:“企业对象存储……是一个完整的数据基础设施堆栈,但它仍然是一个通用的产品。它是一个横向产品。”“但考虑到我们目前在客户群和新渠道方面的成功率正在建立,越来越多的人都在向人工智能和规模发展。”
曾经感受到100TB左右大数据管理痛苦的组织现在很容易超过100PB,接近1EB门槛的公司数量每天都在增加。这是存储市场的一个重大变化,因此有必要创建AIStore,这是MinIO旗舰产品的人工智能化。
新的AIStor为对象存储添加了特定于人工智能的功能,包括新的兼容S3-API的promptObject,它允许用户与非结构化数据和人工智能模型的私人存储库“对话”,这是Huggingface的一个替代品。AIStore还添加了支持新兴AI数据工作负载的新功能,例如支持S3上的RDMA连接,以及一个使管理更容易的新全局控制台。
新的promptObject API将使用户能够使用自然语言提示直接高效地与数据交互,而无需围绕数据准备、向量数据库、检索增强生成(RAG)和其他GenAI工具和技术进行大量开发工作。
例如,假设一位顾客在他们的目标商店里有一张餐厅菜单的图片。使用promptObject API,开发人员可以要求图像从菜单中提取物理地址,并将其作为输出返回。MinIO工程师Dil Radhakrishnan表示,API还支持提示链接,这使得用户或应用程序能够同时与多个对象交互。API目前支持文本、PDF和图像等非结构化数据,很快也将支持视频,他补充道。
Perasamy说,这是一种查询非结构化数据的新方法。
AIStor还为管理员引入了一个新的GUI控制台。

在上一代,当企业由结构化数据主导时,你会键入SQL查询或类似SQL的东西。在现代世界,大部分企业数据都是非结构化数据。你如何处理这些数据?……你基本上将非结构化数据视为数据库。”
支持400Gb和800Gb以太网网络上的高速远程直接内存访问(RDMA)对于帮助解决用于为GPU供电的大规模存储集群中出现的网络瓶颈也很重要。
Periasamy说:“RDMA非常重要的原因是,现在将GPU带到客户端时,100Gb被认为很慢。”。“如果你今天要启动GPU基础设施,你应该考虑400Gb作为你的起点。”
Periasamy表示,与英伟达、AMD和英特尔合作,确保RoCE(RDMA over Converged Ethernet)版本2标准是一个坚实的、行业中立的接口,这对鼓励企业采用非常重要。
他说:“我们与英伟达、AMD和英特尔密切合作,以兼容所有三种架构的方式实现这一目标,S3 API仍然是S3 API。”“控制通道是通过HTTP的,但当数据被推送时,无论是从CPU到存储器还是GPU到存储器,都是RDMA。我们将其设置为S3。我们没有创建新的API规范,而是在下面保留了S3 API。RDMA是透明的,因此您可以在不了解其复杂性的情况下利用RDMA。”
与此同时,新的AIHub为MinIO客户提供了一个设施,可以在自己的环境中安全地存储他们的AI模型。它是Huggingface的替代品,Huggingface是一个非常受欢迎的人工智能模型存储库,但从定义上讲,它是对公众开放的。
这只是MinIO为其企业对象存储计划的人工智能功能的开始。该公司认为,在使客户能够存储和处理人工智能数据方面将取得重大增长,并渴望将这些功能构建到其产品中以实现这一目标。

Periasamy说:“我们之所以这样做,是因为我们正在将企业对象存储演变为AIStor,以缩小其用例范围。”“不用赢得数百个用例。赢得一个用例,即人工智能用例,并使其变得更大。这个用例足够大,我们不关心其他事情。”