数据标注公司ScaleAI创立8年估值飙至138亿美元

问芯科技吗 2024-05-26 05:29:45

近日,美国 AI 初创 Scale AI宣布已经在新一轮融资中筹集了 10 亿美元,估值达 138 亿美元。该公司表示,计划利用这笔资金将公司推进到下一阶段,打造“AI 数据铸造厂”。

(来源:Scale AI 官网)

Scale AI 成立于 2016 年,总部位于美国加利福尼亚州旧金山,由 Alexandr Wang、Lucy Guo 等联合创立,专注于为用于训练 AI 模型的数据添加标签。

据公开资料显示,截至目前 Scale AI 已经在 9 轮融资中总共筹集了 16 亿美元的资金。

其中,最新的 10 亿美元 F 轮融资,由 Accel 领投,几乎所有的现有投资者均参与其中,包括英伟达、Y Combinator、Spark Capital 以及 Peter Thiel 的风险投资公司 Founders Fund 等,与此同时,新投资者,包括亚马逊、英特尔、思科、Meta、AMD Ventures 以及 ServiceNow Ventures 等也加入了本轮融资。

图|Scale AI 融资概况(来源:Crunchbase)

细看投资者,不乏有包括英伟达、英特尔、亚马逊、Meta、AMD 等一众业界巨头,能够得到这些大咖们的青睐,Scale AI 是一家怎样的公司?而这就要从其核心业务“数据标注”说起。

AI 热潮中的“卖铲人”:给数据打标签

众所周知,大模型的训练需要海量的数据,大模型的优劣很大程度上取决于输入的数据质量。所谓“数据标注”,简单理解,就是把输入给 AI 模型的数据进行分类和处理。

数据标注处于 AI 大模型开发产业链的上游,数据(包括文本、图像、音频、视频等)需要经过标注处理(包括分类、拉框、注释、标记等),这些注释或标记描述数据的特征及属性,以便于机器学习算法能够识别和理解。

数据标注的目的,是为机器学习提供足够多的高质量训练数据,使其能够识别和理解数据的模式、特征以及上下文关系,有了数据标注,机器学习模型可以学习到数据中的关键信息,从而提高其预测、分类或识别的准确性。

通常情况下,像是谷歌、Meta 等很多大型科技公司更倾向于把数据标注工作外包出去,因为在其看来这类费时费力基础工作“没什么技术含量”。

于是,商机就来了。恰如在“淘金热潮”中人们都在去掘金的时候,有人却打起了淘金者的主意 —— 卖铲子给他们。

Scale AI 看到了 AI 大模型训练中要对海量数据进行标注这一细分需求,在当下的 AI 热潮中做起了“卖铲人”,成为谷歌、OpenAI、Meta 等 AI 巨头们的上游供应商。

具体而言,Scale AI 在接到订单后,使用其开发的数据工具和技术平台分析客户提供的海量数据,完成数据集结构/流程设计、数据检测等,大型模型使用这些标注处理后的数据来更好地识别和理解训练的信息。

事实上,数据标注的质量对于机器学习模型的性能有着至关重要的影响,数据标注工作需要由专业的标注员或团队来完成以确保标注的精准性和一致性。

近年来,随着机器学习模型的发展,越来越多的数据标注工作逐渐被计算机取代,人类在其中承担更多的是校审和纠错等工作。

图|生成式 AI 架构(来源:Scale AI 官网)

然而,RLHF(基于人类反馈的强化学习)训练方式让人类所承担的角色变得重要起来,这需要专业人员对数据进行标注以保证模型能够给出符合逻辑的高质量答案,能让大模型更好地与人类指令保持一致。其实,这也是 ChatGPT 等主流大型语言模型(LLM)所使用的训练方式。

很大程度上,人类反馈强化学习训练方式需求的增加促进了 Scale AI 的业绩增长。近年来,AI 热潮中每一个技术创新都有 Scale AI 的身影,只不过人们看到的是站在台前的谷歌、OpenAI 等企业,而 Scale AI 站在幕后。

正如 Scale AI 联合创始人兼首席执行官 Alexandr Wang 所说的,“自公司成立以来的 8 年间,我们几乎为 AI 领域的每一个重大突破提供了动力。”其开发的 Scale Generative AI 数据引擎通过 RLHF、数据生成、模型评估、安全性和对齐,助力大型语言模型等生成式 AI 模型的开发进程。

据公司官网资料显示,Scale AI 开发的数据引擎推动了 L4 级自动驾驶自主性的升级。该公司的公共部门数据引擎为美国国防部的多项 AI 项目提供助力,并达成 2.5 亿美元的协议开发评估人工智能和机器学习系统的工具。此外,哈佛医学院研究团队基于 Scale AI 标注后的视频数据加速其针对啮齿动物行为相关神经机制的研究进程。

值得一提的是,Scale AI 曾与 OpenAI 合作在 GPT-2 上首次开展了人类反馈强化学习实验,并将这些技术扩展到 InstructionGPT 及其他技术。

除了为模型构建者提供标注的数据外,Scale AI 还帮助其合作伙伴微调现有数据集。Meta 使用该公司的平台来帮助在 Llama 2 大型语言模型的开发过程中执行微调任务。OpenAI 委托该公司帮助微调 ChatGPT 背后的原始基础模型 GPT-3.5,在提高模型性能的同时降低运行成本。此外,Scale AI 还为微软的云客户提供了定制和微调其大型语言模型的工具。

能够接到一众国际巨头的数据标注订单,Scale AI 的收入自然不菲。据了解,Scale AI 公司的年化收入高达 7.5 亿美元,而这一数字在一年前还是 2.5 亿美元,一跃成为目前最赚钱的 AI 初创公司之一。

事实上,Scale AI 的赚钱能力早已被资本市场看中。自从 2016 年成立以来,Scale AI 便保持着“一年融资一次”的稳定节奏,截止 2021 年 4 月的 E 轮融资后,该公司已经筹集了 6 亿美元的资金。

而此次完成的 F 轮 10 亿美元融资进一步推高了 Scale AI 的估值,目前已经达到 138 亿美元。Scale AI 用 5 年时间实现估值从 0 到超 70 亿美元,然后又用了 3 年时间将这一数字翻倍。

现阶段,Scale AI 正在开疆扩土,在伦敦开设办事处作为其运营基地开始向欧洲市场扩张。

“学霸”创始人 MIT 辍学创业:靠自动驾驶发家

创办 Scale AI 的 Alexandr Wang 也是一位传奇人物。

公司联合创始人兼首席执行官 Alexandr Wang 于 1997 年出生在美国新墨西哥州,父母都是高级知识分子。

图|Scale AI 联合创始人兼首席执行官 Alexandr Wang(来源:Scale AI 官网)

少年时期的 Alexandr Wang 在同龄人中便已是“学霸”一样的存在,尤其在数学和编程方面,曾在多项美国竞赛中收获奖牌。

颇具天赋的他进入高中后便收到了科技公司的 Offer,比如硅谷财富投资大数据管理平台 Addepar。高中毕业后他进入 MIT 深造,研究方向主要围绕人工智能和机器学习。

彼时,DeepMind 推出 AI 模型 AlphaGo 令全球瞩目。当时的他意识到数据将会在 AI 发展中越来越重要,AI 模型在很大程度上只不过是数据的产物。一年之后,Alexandr Wang 选择了辍学并走上创业之路。

2016 年,19 岁的 Alexandr Wang 和 Lucy Guo(已于 2018 年离开公司并保留少量股权)在美国创业孵化器 Y Combinator 等的资助下联合创立了 Scale AI。值得一提的是,给予 Scale AI 种子轮资金支持的是时任 Y Combinator 总裁、现任 OpenAI CEO 的 Sam Altman,为该公司提供了 12 万美元的资金。

“数据、算力和算法构成生成式 AI 的三大支柱,英伟达是算力领域的领导者,谷歌及 OpenAI 等企业侧重于算法模型,然而,关注数据的公司并不算多,我创立 Scale AI 是为了提供数据支柱。”Alexandr Wang 表示,在他看来,只要有正确的想法和对技术的熟悉,就能把一家初创公司变成独角兽公司。

事实也证明,他确实做到了,在 AI 大赛道中找到了一条差异化路线。

成立不久后,Scale AI 首先迎来了来自自动驾驶汽车领域的多个重量级客户,比如 Alphabet 的自动驾驶汽车的公司 Waymo、通用汽车旗下自动驾驶子公司 Cruise、美国硅谷的科技公司 Uber Technologies 以及丰田汽车等。

图|汽车数据引擎(来源:Scale AI 官网)

Scale AI 构建出第一个支持传感器数据的引擎,可以分析来自多个传感器的 2D 和 3D 数据组合,很快这成为了一个行业标准。

在 Alexandr Wang 看来,计算机吸收数据并从中“学习”的能力越强,其开发就越快、越自主。比如,此前需要一个团队手动检查和标记道路、红绿灯和行人图像,然后将其传输到汽车上,现在借助 Scale AI 开发的技术平台可以在短时间内完成这些操作且不影响精度水平。“如今,Scale AI 为几乎所有领先的 AI 模型提供数据支持。”他表示。

值得一提的是,去年 9 月,Alexandr Wang 入选《时代》周刊 2023 年 AI 领域最有影响力 100 人,这份榜单里的大咖还有英伟达创始人兼 CEO 黄仁勋、xAI 创始人马斯克、Open AI CEO Sam Altman 等。

同样作为 AI 热潮中的“卖铲人”,英伟达向 AI 模型公司出售训练模型所依赖的 AI 芯片,Scale AI 则提供训练模型所需的标注后的数据。

实际上,数据标注这一细分赛道中的玩家并非只有 Scale AI,其竞争对手还包括 Mighty AI、CloudFactory、LightTag、Alegion 等,很多企业并没有数据标注作为主业而是作为一个业务部门对待,相较之下,Scale AI 则在这条路上走的更扎实一些,通过标注大量数据来训练 AI 系统进而提高效率并降低成本。

需要注意的是,国内数据标注产业规模化发展其实要早于国外,但经历数年的野蛮生长之后受困于“劳动密集型”等行业问题难以破圈。相较于国内,美国人力成本更高,必须通过技术平台的方式解决,另外国内 AI 产业结构划分更细,国内数据标注公司更多的是单一服务,而非类似于 Scale AI 的整体解决方案。

为了在竞争中保持优势,在自动驾驶汽车领域成长起来的 Scale AI 开始探索第二增长曲线,除了老本行数据标注,Scale AI 也提供合成、自动化、管理评估等服务,业务布局扩展到企业自动化、电子商务、机器人以及保险等众多行业。

图|Scale AI 的产品布局(来源:Scale AI 官网)

现阶段其开发的产品主要围绕 AI 构建和 AI 应用两个板块,涵盖生成式 AI 和人类反馈强化学习、测试与评估、自动驾驶、以及政府公共部门数据引擎开发等多个领域。

图|Scale AI 服务的客户群体(来源:Scale AI 官网)

与此同时其业务布局也在不断拓展,除了政府业务,Scale AI 服务的客户几乎涵盖全球 AI 产业巨头,包括英伟达、微软、Meta、OpenAI 等,此外还有一些初创公司,比如加拿大自然语言处理软件开发商 Cohere、美国 AI 模型开发商 Adept 等。

建立“AI 数据铸造厂”攻克大模型发展瓶颈

在 Scale AI 看来,未来的发展主要围绕 AI 的数据丰富性,随着模型越来越大,意味着对数据的需求将会呈指数级增长,而这就引出一个关键问题,是否会用完数据,以及当数据用完时会怎样?

要知道,寻找足够的数据来构建更强大的 AI 模型已经被证明存在问题,比如,一些艺术家、摄影师和作者提起诉讼,指控 OpenAI 等大模型公司使用他们的作品训练模型侵犯了创作者的版权,随着模型越来越大这个挑战只会变得愈发严峻。

据彭博社报道称,OpenAI 近日宣布与新闻集团达成 5 年版权协议(交易价值或超过 2.5 亿美元),获得包括《华尔街日报》《纽约邮报》《泰晤士报》等十余家新闻出版物版权,使用这些数据对 ChatGPT 进行训练。

显然,数据的丰富性已经成为大模型发展的瓶颈之一。“我们需要建立‘AI 数据铸造厂’,开创 AI 数据丰富的时代,而不是听天由命于数据稀缺。”Alexandr Wang 指出。

正如数据、算力和算法构成人工智能的三大支柱一样,Scale AI 认为 AI 数据的未来反过来取决于三个原则,丰富的数据、前沿的数据,以及测量和评估,如果通用人工智能(AGI)有希望成为现实,就需要大量的数据,而且数据质量必须足够高,才能真正为更有能力的模型做出贡献。

要知道,数据并非都是平等的,高质量数据或前沿数据的价值可能超普通数据价值的 1 万倍,因此如何对海量数据进行“筛选和浓缩”以获得高质量数据非常关键。

正如 Alexandr Wang 此前所说的,“机器学习是一种垃圾输入、垃圾输出的框架,迫切需要高质量的数据来支持这些算法。”

事实上,每个 AI 模型公司都会经历一个生命周期,通过得到的数据或生成的数据来训练模型,评估这些系统,然后再次进入周期循环,因此对 AI 系统的测量和评估是生命周期的关键组成部分。

此前,Alexandr Wang 在访谈中也曾指出,“我们已经用尽了所有简单的数据(即互联网上的所有数据),随着我们开发出越来越强大的 AI,我们还需要构建前沿数据,这些数据将 AI 能力的边界推向复杂推理、代理、多模态等,前沿数据是对今天的模型真正相关和有价值的数据。同时,我们必须建立一个测量和评估系统,以确定这些 AI 模型是否足够可信,从而被广泛采用。”

参考资料:

1.https://aibusiness.com/data/amazon-meta-backed-scale-ai-raises-1b-boosting-value-to-13-8b

2.https://www.crunchbase.com/organization/scale-2

3.https://www.ildigitale.it/alexandr-wang-miliardario-a-22-anni-grazie-allintelligenza-artificiale/

4.https://scale.com/blog/scale-ai-series-f

5.https://scale.com/automotive

6.https://scale.com/generative-ai-data-engine

7.https://scale.com/genai-platform

8.https://www.theregister.com/2024/05/21/scale_ai_funding/

0 阅读:6

问芯科技吗

简介:感谢大家的关注