作 者:微澜
来 源:正和岛(ID:zhenghedao)
如果要列出当下全球最有权势的一位95后,他的名字应该大多数人都没听说过——亚历山大·王(Alexandr Wang)。这位在硅谷被称为“下一个扎克伯格”的天才少年,在2022年借助着生成式AI的浪潮,成功登上《福布斯》全球亿万富豪榜,也凭此成为了史上最年轻的白手起家的亿万富豪。尽管在一年后其创立的公司Scale AI因估值大幅下滑,他的名字也从富豪榜上消失。但在今年5月,随着Scale AI宣布获得10亿美元融资,估值138亿美元(约为人民币1000亿元),亚历山大·王也再一次回到大众的视野当中。从2016年创立到成为千亿估值的独角兽企业,亚历山大·王和Scale AI用了短短8年的时间,而凭借着Scale AI,亚历山大不仅在AI数据标注行业上演了一段传奇创业故事,也在全球AI热潮中扮演了一个“卖铲人”的角色,为马斯克、奥特曼、扎克伯格等一众科技大佬提供数据支持,某种程度上来说,他影响了整个AI世界的格局。一、“卖铲子”的天才少年如果用一句话总结亚历山大·王的创业故事,那一定是一出场就手握爽文大男主剧本。1997年,亚历山大出生于美国的新墨西哥州,其父母都是物理学家,在新墨西哥州洛斯·阿拉莫斯国家实验室工作。关于亚历山大这个名字的由来,还有一个蕴含中国文化的故事:Alexandr(亚历山大)是其名字的英文拼写,但比通用拼法少了一个e。在中国传统中,数字“8”承载着许多美好寓意,所以他的父母就想让他的名字刚好为8个字母。受到家庭氛围的熏陶,亚历山大从小就是“别人家的孩子”:小学时,亚历山大便展露出数学天才的一面,到了初中,亚历山大就读于顶尖私立名校洛斯·阿拉莫斯,数次在美国数学人才选拔赛中拿下铜牌、金牌等;
上了高中后,亚历山大又自学了编程技术,成为美国计算机、物理、数学奥林匹克竞赛上的常客,成绩均名列前茅;
此外,他9岁时学过小提琴,还精通中文、英语、法语等多种语言,可以说是“文理两开花”。
除了学有所成,在高中时,亚历山大就收到了多家硅谷科技公司的工作邀请,他先是去了硅谷最热门的财富投资大数据管理平台Addepar,之后又加入了“海外版知乎”Quora从事编码工作并担任技术主管。也就是在Quora,亚历山大结识了同为华裔的女孩Lucy Guo,后者也将成为Scale AI的联合创始人。2015年,凭借优异的成绩,亚历山大考入麻省理工学院(MIT),主要攻读数学和计算机专业。根据领英(Linkedln)的个人资料显示,亚历山大在MIT求学期间GPA为5.0(满分),且其选修的还是研究生级别的计算机科学课程。也正是在其麻省理工学院上大一期间,DeepMind推出的AlphaGo,战胜了围棋世界冠军,开启了人工智能的元年和深度学习的热潮。“我记得当时我在大学里,尝试使用神经网络,尝试训练图像识别神经网络。我很快意识到,这些模型在很大程度上只是数据的产物。”亚历山大在后面一次采访中曾回忆起上大学时的思考,“这些模型或AI总体上是由三个基本支柱构成——算法、计算能力和数据。”在当时,已经有公司在研究算法,比如OpenAI或Google的实验室,或者其他一些AI研究机构;至于算力,英伟达也已展示出了为这些AI系统提供算力的领导者潜力。唯独没有公司专注于数据,亚历山大意识到随着人工智能技术的长期发展,数据智慧变得越来越重要。于是在麻省理工大一刚结束后的暑假,亚历山大决定从MIT辍学,与此同时Lucy Guo也从卡内基梅隆大学辍学,两人一同创办了Scale AI。当时很多人为这两位天才的中途辍学感到惋惜,认为这就是一场豪赌,但亚历山大的看法却不一样:“如果现在不愿意迈出这一步,那什么时候会愿意呢?”这里还有个流传的小插曲:在大一结束后暑假的某一天,亚历山大跟爸妈说,我暑假搞了个项目玩。
爸妈问到,啥项目啊,送柠檬水还是送外卖?
亚历山大回答道,差不多吧,搞了个AI公司,还有个叫Sam Altman的给我投了点钱,对了,airbnb(爱彼迎)也是他们投的,现在估值也就300多亿美金吧。
除了拿到Y Combinator(山姆·奥特曼时任总裁)的天使轮投资,在创立第一年,Scale AI还拿到了风投巨头Accel的A轮融资。两方资助下,Scale AI初期的资金障碍被扫清。 在成立之初,亚历山大对ScaleAI的设想是打造一个一站式服务中心,解决AI生态系统中的数据支柱问题。因此,Scale AI早期的定位就是通过结合自动化技术与人力审核,创建一个高效、精确的数据标注平台,为创建机器学习算法的公司快速处理和标注大规模的数据集。所谓的数据标注,是指为图像、文本、视频或音频等原始数据添加结构化信息,以便机器学习模型能够理解和学习这些数据的过程。通俗来讲,就是给你一段视频或图片,让你分门别类地标出里面的行人、车辆、建筑等元素,某种程度上,这是个小学生也能做的事。虽然原理很简单,但这些经过标注的数据对于人工智能的发展不可或缺。AI模型需要大量的标注数据来进行学习,才能具备识别、分类和预测等功能。这里值得一提的是,尽管一些自动化工具可以加快部分标注过程,但为了得到高质量、高精确度的标注数据,仍然需要大量的人工来处理、标记和验证数据,尤其是在一些如医疗、自动驾驶、军事等对高精度有要求的领域。事实上,在Scale AI崛起之前,数据标注行业在AI领域长期处于“边缘”位置,其对大量人工的需求使得外界打上了劳动密集型产业的标签。在大多数人看来,数据标注行业既不“AI”,也一点都不“性感”。但就是这样一个“低门槛”的“辛苦活”,被亚历山大在8年时间里干出了一家估值千亿的AI独角兽;在2023年《时代周刊》发布AI领域最具影响力的100个人物中,亚历山大与李飞飞、黄仁勋、李彦宏等人共同入选榜单,其本人更是其中最年轻的人之一。而在这背后,亚历山大又是带领Scale AI怎么做到的?二、从0到估值千亿,8年时间Scale AI做对了什么?尽管数据标注看起来是一个低门槛、劳动密集型的行业,但在2016年的节点,它却是一个为数不多的空白市场。除了谷歌、亚马逊等少数大厂因业务需求设立了自己的数据标注部门外,大多数公司不愿意也没有精力去自己管理,这导致标注数据的获取的过程耗时且昂贵。而这也正是Scale AI“卖好铲子”飞速发展的机会所在,并且再回顾Scale AI八年的发展历程,其成功也可以说是天时、地利,加人和的一个结果:1.天时在创立Scale AI后,8年时间里亚历山大带领整个团队抓住了人工智能行业发展的几次大风口。先是自动驾驶领域。2016年是AI时代的元年,也同样是自动驾驶周期的起点,在那一年Cruise被通用以超10亿美元的价格收购。关注到这一消息后,亚历山大意识到自动驾驶行业对于数据标注将产生大规模的刚性需求——自动驾驶技术的发展依赖于大量高精度的标注数据,比如道路场景、行人和其他物体的图像数据,车企需要成千上万小时的视频数据进行标注来训练和验证其算法。“我们构建了第一个支持传感器融合数据的数据引擎,支持2D数据和3D数据的组合,即激光雷达加摄像头,这些设备安装在车辆上,这很快成为整个行业的标准。”通过建立高效的数据标注平台,以及使用模型辅助标注和数据预处理来加速了数据处理流程,使得标注成本和时间得到大幅度降低,很快Scale AI就吸引了通用汽车、丰田和Waymo等车企的合作。亚历山大和Scale AI也凭此在自动驾驶数据标注领域站稳脚跟。而在2019~2020年期间,这个阶段自动驾驶行业技术方面已基本成熟,加上当时语言模型和生成式AI还未诞生,人工智能领域处于一个高度不确定时期。于是,亚历山大和Scale AI开始专注于政府应用,“这是一个显然具有高度适用性的领域,并且在全球范围内变得越来越重要。”也正是在进军新市场的过程中,Scale AI也从过去单纯的数据标记延伸到数据服务,提供从数据标记和管理、模型训练和评估,再到AI 应用开发和部署的全流程解决方案。在之后几年时间里,Scale AI在数据领域迅速崛起,客户也扩展到了医疗、国防、电商、政府服务等领域。另外,为了应对某些行业数据不足的挑战,Scale AI还向下游延伸到合成数据的生成,通过从现有数据中创建新的数据集,帮助训练模型。与此同时,Scale AI在这一阶段也开始致力于生成AI,与OpenAI开展合作,在GPT-2上进行RLHF的首次实验。“当时的模型非常粗糙,真的看起来不怎么样。但我们认为OpenAI是一群聪明的人,我们应该与他们合作。所以我们与发明RLHF的团队合作,并从2019年开始不断创新。”2022年,ChatGPT的问世震惊世界,生成式AI领域迎来了大爆发——生成式AI模型需要海量的训练数据来提升其生成内容的准确性和多样性,加上大语言模型的爆发式增长极大推动了整个行业对高质量标注数据的需求。而靠着和OpenAI的合作,在生成式AI赛道Scale AI已抢占先机,到了今天Scale AI更是成为了通用AI的数据铸造厂,为OpenAI、Meta、Microsoft等行业内几乎所有主要的大型语言模型提供支持。2.地利除了抓住这些行业风口到来的时机,亚历山大还借助着全球化这一地利优势,实现了在数据标注行业里的成本最小化。因为美国人力成本高昂,在LinkedIn、indeed等平台上,数据标注的兼职时薪大多都在30-200美元之间,但作为一个劳动密集型业务,这在客观上就要求企业去思考解决数据生产问题,或者采购相关服务。于是在2017年,Scale AI 成立了 Remotasks 作为其内部外包机构,在肯尼亚、菲律宾、委内瑞拉等地设立了几十家机构,在世界各地培训了成千上万的数据标注员,这些标注员的工作大部分都是按件计酬,一次标注的收入低至几美分,很多合约工在时薪甚至不到1美元。曾有业内人士指出,“Scale AI不是一家人工智能初创企业,它只是一家提供廉价劳动力的公司”。但不管外界如何质疑,无法否认的确是,在这样的“全球工厂”模式下,Scale AI的毛利率长期保持在65%以上,Scale AI也成为了当下AI领域为数不多不需要烧钱,而是狂赚钱的AI初创企业之一。2023年,Scale AI年化收入高达7.5亿美元(约合54.3亿元人民币),预计2024年底将达到14亿美元(约合101亿元人民币)。3.人和除了营收快速增长,创业8年时间,亚历山大和Scale AI的背后还集结了一支豪华的投资人队伍。不仅有着大半个硅谷圈大佬,也出现了亚马逊、英伟达、英特尔、Meta等超级大厂。在前文我们提到,Scale AI刚创立时,就分别获得硅谷著名孵化器Y Combinator和风投巨头Accel的支持,前者的时任总裁山姆·奥特曼在后面的OpenAI又与Scale AI 开展了合作,而后者机构的合伙人还曾将家里的地下室借给Scale AI临时办公。而此后5、6年时间里,Scale AI也基本是一两年就融一次资,而参与投资的机构和个人在这个过程中显然也不止是进行资金上的帮助,更是在多方面都进行了助力。2024年5月,Scale AI再次官宣完成F轮融资,融资额10亿美元,估值增长超过80%至约138亿美元(约1000亿人民币),投资方阵容堪称史诗级豪华,20多家机构和个人:老股东Accel领投,Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、老虎基金、Greenoaks、Y Combinator、Wellington Management和GitHub 前首席执行官 Nat Friedman继续加码,同时英伟达、Elad Gil、亚马逊、Meta、思科、英特尔、AMD、DFJ Growth、WCM、ServiceNow Ventures也参与了此次融资。
时来天地皆同力。毫无疑问,作为这一波AI浪潮中的“闪耀群星”中的一颗,亚历山大和Scale AI注定要留下浓墨重彩的一笔。也正如亚历山大在完成F轮融资后在采访中讲到的:“Scale AI为当今市场上几乎所有领先的 AI 模型提供数据支持。借助此次融资,公司将进入旅程的下一阶段——加速丰富前沿数据,为通用人工智能铺平道路。”而解决人工智能的数据问题将是他一生为之奋斗的事业。三、中国为什么没有Scale AI的诞生?事实上,看完Scale AI的发展故事,大多数人可能会产生的一个疑问是,为什么中国没有类似于Scale AI这样的企业诞生?尤其是在生成式AI热潮前,国内的人工智能行业在应用方面一度领先,并且数据标注作为劳动密集性企业,中国天然就有优势。所以为什么呢?总体来看,这背后有几方面的原因:1.“资源陷阱”这里先引入一个“资源陷阱(诅咒)”的概念,什么是资源陷阱,就是指一个国家或地区拥有丰富的自然资源,但因为过度依赖这些资源,忽视了其他潜在的经济增长领域,如制造业、服务业和技术创新等,导致经济发展单一、结构不合理,同时随着这种自然资源枯竭或市场需求下降,经济可能会遭受严重打击。典型的例子便是委内瑞拉、俄罗斯,它们依靠石油、天然气等赚取大量的外汇,但除了能源行业外,其它的经济产业都非常落后,这种国家也被称为“资源诅咒型国家”。一定程度上,在AI数据标注行业,国内也陷入了这种资源丰富的“诅咒”。事实上,国内的数据标注业务也很早就起步发展了,但并没有形成规模。很多龙头企业虽然成立了数据标注部门,但主要是为自身业务服务,而并不是寻求将数据与各个行业进行资源匹配;加上依靠国内的人口红利,让标注后的数据获取成本变得十分低廉,哪怕是今天国内的数据标注价格依旧偏低,拿重庆这种新一线城市来说也仅为4~6k/月。在这种情况下采用技术平台或者进一步研发来提高数据标注或是从标注行业进一步向上延展创新,对于处在市场竞争中的企业而言,可能反而是得不偿失的做法。但一旦在这个阶段错过了对数据标注行业的技术创新或沉淀,也许就永远地错失了创新升级的机会了。2.生态不足这里的生态不足体现在两个方面,一是单纯从语言生态来讲,必须要承认,英文的使用范围是全球,而中文的使用范围更多还是在国内以及海外的部分华人。所以在数据标注这一产业上,Scale AI天然就有了优势,站在资本的高地,在全球范围内寻找着价值洼地,而国内哪怕是有人口红利,这成本优势终究更高,且在资本(投融资)方面也没有占据高地。另外,需要提到的是在数年前,随着移动互联网格局的成熟,国内互联网生态在当时也进一步走向了对抗封闭,而这也使得数据在流通上出现了阻碍,甚至可以说当时的数据标注行业也被迫参与到这种对抗封闭的生态中去,各为其主、各自而战,无法形成有效的、规模性的创新力量。3.视野局限对于数据标注行业,站在当时那个节点,只有少数人能因为相信而看见。在国外,也只有亚历山大等寥寥几人,在国内这样的人显然就更少了。事实上,大多数参与到数据标注行业中的人,更多就是秉持着过往的劳动密集型产业的逻辑,靠着“内卷”来实现生存以及盈利的。但是亚历山大不同的是,尽管行业逻辑是劳动密集型的特点,但对于他而言,这只是最基础的一点,是作为构建起整个数据行业上下游生态的一个跳板。正如其在最近的访谈中谈到,人们已经用尽了互联网上的所有数据,想要开发出比GPT-4.5更强大的人工智能,则必须构建前沿数据。所谓的“前沿数据”是指那些与应用场景密切相关、能及时反映最新趋势和变化的数据,往往包含大量长尾或少见的场景,有助于提升AI在非典型情况下的表现,推动人工智能能力的边界向复杂推理、多模态等方向发展。随着AI的快速进化,未来的数据训练需要更多地与特定任务、特定应用场景相匹配,因此也需要挖掘和生产出更多新的、差异化的数据,而这可能也正是亚历山大在2016年时就看到的未来。从这个角度来看,Scale AI作为一面镜子,其从最“廉价”的行业中成长为一个估值千亿的AI独角兽企业有太多可以学习的地方了。参考资料:
[1].从麻省理工辍学,他干成亿万富翁,环球人物
[2]. 估值1000亿,辍学90后华裔天才,刚刚融了72亿,融中财经
[3]. 给AI公司“打杂”,95后华人把估值做到138亿美元
[4]. 95后,一举融资70亿,投资界
排版 | 小元编辑 | 微澜 主编 | 孙允广