刚刚，这位华人顶级AI科学家做了场演讲，全球媒体都放上了头条…

这是一场阿信绝对不希望你错过的演讲，因为它很有可能彻底改变我们未来的历史走向。

如果你以为几年前发布的大语言模型——ChatGPT，已经足够颠覆你对科技的未来想象的话，那这场演讲就会喊醒你：这才哪儿跟哪儿！

事实上，直到今天为止，当我们提起AI（人工智能）时，仍没有一款机器能独立完成哪怕是叠衣服、煎鸡蛋这样的简单工作，替代人类进行复杂推理就更是无从谈起。对此，作为站在这场科技革命中心的明星，有着“AI教母”之称的顶级计算机视觉大神、华裔AI学者、美国“三院院士”李飞飞在最近接受媒体采访时就表示，她不认为语言模型是AI的终点，因为这本质上只是“一维”的。

为了“解决人工智能难题的关键拼图”，这位传奇女性科学家在5月初宣布创立一家初创公司，以实现通过利用类人的视觉数据处理使AI能够进行高级推理。

在温哥华TED的演讲中，她首次向全球公众介绍了“空间智能”的概念。

探寻意识与智能的起源，李飞飞认为，相比于语言，“视觉是最古老的感知之一，5.4亿年就演化而出了，所有具有意识的东西都有眼睛”，由此引发了寒武纪大爆发，从而开启了一个生物快速进化多样化的时期。她认为，数字寒武纪大爆发的全部潜力只有在为计算机和机器人赋予空间智能时才能完全实现，就像自然界对我们所做的一样。

李飞飞展示了一张猫伸出爪子将玻璃杯推向桌子边缘的图片：

她表示，在一瞬间，人类大脑可以评估“这个玻璃杯的几何形状，它在三维空间中的位置，它与桌子、猫和所有其他东西的关系”，然后预测会发生什么，并采取行动加以阻止。

而9年前，也是在TED舞台上，李飞飞向世界介绍了刚诞生不久的ImageNet，这是她最为人所知，也是其迄今为止为人工智能行业做出的最重要贡献。

李飞飞在演讲中讲到，目前她们实验室正在收集行为和动作的“行为ImageNet”，来训练计算机和机器人如何在三维世界中行动，并且这次收集的不是静态图像，而是在建构由三维空间模型驱动的模拟环境。

这样，计算机就可以有无限多的可能性来学习如何行动。

如果将这一轮AI革命往前推演，李飞飞开发的 ImageNet数据集，正是深度学习崛起的发端。

在自传《我看见的世界》中，李飞飞回忆了自己从底层移民成长到顶尖科学家的经历，其中就包括ImageNet 的开发。

《我看见的世界：李飞飞自传》

从成都到硅谷，能将自己的个人史，写成一部波澜壮阔、跌宕起伏的人工智能发展史的，除李飞飞之外，全球几乎再难有其他科学家能达到如此级别。

这不是一本枯燥的科技史，几乎所有看过这本书的人都给出了一致评价——“出乎预料的好看”。

“华人”“女性”双重弱势标签叠加，李飞飞是如何在美国科技界实现人生的逆势突围的，她将亲自告诉你答案。

算法，还是数据

2006 年，计算机视觉研究仍然是一个缺乏资金，且很少受到外界关注的学科。

许多研究人员专注于构建更好的算法。他们坚信，算法是计算机视觉的中心，如果把机器智能与生物智能做类比，那么算法就相当于机器的突触，或者说是大脑中错综复杂的神经回路。

但李飞飞并不这么认为。

彼时，她刚刚获得加州理工大学的博士学位，在伊利诺伊大学厄巴纳-香槟分校担任助理教授的职位。

在攻读博士期间，李飞飞意识到了这种研究思路的局限性：如果训练算法的数据不能很好地反映现实世界，那么即使是最好的算法也无法很好地完成工作。

李飞飞的想法是：构建一个能够完全反映真实世界的数据集。

在一个偶然的机会中，李飞飞结识了语言学家克里斯蒂安·费尔鲍姆，WordNet 项目的领导者。费尔鲍姆向李飞飞介绍了 WordNet —— 由心理学和认知科学领域的先驱乔治·阿米蒂奇·米勒创立的项目。

米勒在心理学研究中对语言的结构及其在人类认知过程中的所扮演的角色产生了浓厚的兴趣，设想在更大规模上描绘出语言的结构图。

WordNet 的设计理念是基于语义关联而非拼写相似性，例如，“apple”（苹果）与“appliance”（器具）虽拼写接近，但在 WordNet 中，“apple”会与“food”（食物）、“fruit”（水果）、“tree”（树）等相关词汇形成关联。

这样构建的词汇网络，就像一幅庞大的地图，将人类语言中的概念连接成一个有机整体。

在交谈中，费尔鲍姆提及了一个计划，旨在通过视觉示例，如照片或图表，来阐释 WordNet 中的每一个概念。尽管这个计划最终未能实现，但它激发了李飞飞的兴趣，成为了后来 ImageNet 项目的灵感来源。

几个月后，李飞飞回到了她的母校普林斯顿大学，并在2007年初启动了ImageNet项目。

ImageNet的宏伟目标是为每个类别收集1000张独特的图片，从小提琴到德国牧羊犬，再到抱枕，涵盖了22000个类别，总计需要约2000万张图片。

这个数字仅代表最终数据库的规模，实际上，团队可能需要从数亿甚至十亿张图片中进行筛选。

起初，李飞飞采用的策略是支付本科生每小时10美元的报酬，手动搜索并添加图片到数据库。但她很快意识到，以这种方式收集图片，完成整个项目需要19年的时间。

随后，李飞飞和她的团队考虑使用机器辅助人工标注，但这引发了一个悖论：如果机器能够准确识别物体并协助标注，那么ImageNet本身就变得多余了。

更重要的是，对自动化标注过程的反对不仅仅是技术上的问题，而是哲学上的考量。

ImageNet的使命是在每张图片中嵌入纯粹的人类感知，以期在整个图像集上训练出的计算机视觉模型能够展现出类似人类的智慧。使用机器可能会削弱这一目标。

在一次偶遇的走廊对话中，一个最终的解决方案诞生了。一位名叫孙民的研究生向李飞飞介绍了亚马逊土耳其机器人，这是一个允许全球用户通过完成小型在线任务来赚取报酬的众包平台。

亚马逊土耳其机器人彻底改变了游戏规则，将原本的大学生标注团队转变为一个由数十、数百、甚至数千人组成的国际团队。

随着支持的不断扩大，ImageNet的预计完成时间大幅缩短，极大地提高了项目的成本效益。在ImageNet发展的高峰期，李飞飞的团队成为了土耳其机器人平台上最大的雇主之一。

2009年6月，ImageNet的初始版本正式发布，收录了1500万张图片，覆盖了22000个不同类别。这些图片从近10亿张候选图片中筛选出，并由来自167个国家的近5万名贡献者进行标注。

每张图片都经过了手工标注，并在层次结构中进行了组织，经过三重验证，ImageNet成为了世界上最大的图像标记数据集。

尽管如此，ImageNet并没有立即在计算机视觉领域引起轰动，ImageNet的影响力微乎其微，学界对其实际价值仍持怀疑态度。

转折点

2010年，为了提升 ImageNet 的名气，李飞飞举办了ImageNet 大规模视觉识别挑战赛 (ILSVRC)。参赛者需要在经过精简的1000 个 ImageNet 类别列表、140万张图片中训练自己的算法。

最后用一组算法从未见过的图像对其进行测试，评估算法对图像标注的准确率，以此计算排名，总错误率最低的算法胜出。

然而，现实却与李飞飞团队的期望背道而驰。获胜算法来自一个由 NEC 实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。他们采用的是支持向量机算法——此前被李飞飞认为无法驾驭ImageNet 的一种算法。

2011 年，ImageNet 大规模视觉识别挑战赛的获胜者是法国施乐研究中心，他们也采用了一种支持向量机算法，识别表现虽然比前一年有所提高，但也只是将准确率提高了 2 个百分点左右。

虽然大多数算法都难以应对 ImageNet，但支持向量机比她想象的要强大，它为参赛者提供了安全的避风港。

由于一直没有什么实质性上的突破，ImageNet大赛的参赛人数开始出现急剧下降：报名人数从150人减少到96人，参赛算法也从35个减少到15个，愿意为此付出努力的人似乎越来越少。

转折点发生在2012年。

2012年9月30日，一个名为 AlexNet的算法成为了新一届ImageNet大规模视觉识别挑战赛的冠军。

AlexNet与之前几届冠军有着明显的区别，它的识别准确率高达85%，比上一年的冠军高出 10 个百分点，创造了计算机视觉识别领域的世界纪录。

更令人惊讶的是，AlexNet 采用的算法是计算机视觉领域的老古董——神经网络算法。到了21世纪初，大多数科学家已经把神经网络看成是尘封已久的艺术品，包裹在玻璃罩中，四周用天鹅绒绳索保护，闲人勿近。

AlexNet是卷积神经网络的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中，一系列滤波器在图像上扫过，寻找与网络所识别事物相对应的特征。

这是一种独特的有机设计，灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察，即视觉处理在多个层次上进行。

就像在自然界中一样，卷积神经网络的每一层都会逐渐整合更多的细节信息，从而形成越来越高层次的感知，最终将真实世界的物体完整地呈现在我们的视野中。

这样就形成了一种类似视网膜的算法，凝视着周围的环境。就像真正的眼睛一样，算法的最外层把成千上万个感受野应用于图片的像素，每个感受野都经过特定调整，能够识别出独特的微小图案，并在遇到这种图案时被激活。

在这种感知水平上，滤波器可以对任何事物做出反应，比如小狗皮毛的图案、厨房柜台的边缘，或者阳光下玫瑰花瓣轮廓上的闪光。

研究团队没有预先决定网络应该寻找哪些特征，而是让数十万个神经元在没有人工干预的情况下，完全依靠训练数据逐渐学习到自己的敏感度。AlexNet 就像生物智能一样，也是自身所处环境的自然产物。

接下来，来自成千上万个感受野的信号会深入神经网络，汇聚融合成更加丰富、清晰的提示信息。

最终，经过各层过滤后，仅剩下少数几个信号被融合成识别对象的详细图像，进入网络的最后阶段：识别阶段。

摩托车、豹子、算盘、母鸡、电视机，或是其他上千种选择中的任何一个。所有这些都来自同一种算法，其精确度越来越接近人类水平。

神经网络的世界

AlexNet的成功，催生了新一代神经网络的热潮，每年都取得令人惊叹的飞跃。

像任何占主导地位的生物一样，这种新型神经网络几乎垄断了它们所处的环境。它们是如此有效而优雅，适用范围又如此之广，几乎所有其他技术都在一夜之间被淘汰出局。

很快，AlexNet 被更强大的卷积神经网络取代。微软亚洲研究院在2015年击败了 AlexNet，成为ImageNet大赛的获胜者。

此前，支持向量机等算法还是学术界的宠儿、研究人员的迷恋对象，而 AlexNet 诞生后，这些算法几乎从会议讲座、发表的文章甚至实验室里的谈话中消声遗迹了，所有人都只想谈论神经网络的最新发展。

自 2009 年 ImageNet 数据集在计算机视觉与模式识别大会首次亮相以来，五年多时间里，ImageNet 挑战赛已经发展成为计算机视觉领域的基础赛事，为该领域的技术进步提供了共同的基准。

每年都有新的进展，机器表现与人类表现之间的差距不断缩小。机器的误差率越来越小，越来越接近人类的水平，甚至正在超过人类的水平。

人类的能力维度是丰富多样的，远非任何单一指标所能衡量。但人类的缺点和优点一样具有启发性。

例如，人类可以用各种常识、视觉线索和直觉来解释为什么自己认为附近树上的鸟是沿海蓝鸦，在这方面，人类比机器做得更好。

但人类识别鸟类的能力是非常有限的，即使是经验丰富的鸟类观察者，也很少能识别出几百种以上的鸟类。因此，对普通的观察者来说，绝大多数鸟类是未知的。

在一般物体分类方面，计算机已与人类水平相差无几。当人工智能努力克服相差的最后几个百分点时，它似乎又在其他方面超越了我们，而且超越幅度极大，因为计算机在知识储存方面的能力让人类大脑望尘莫及。

但人工智能技术的发展远比人们预想中的快，一种称为 Transformer 的新型机器学习模型成为自 2012 年的 AlexNet 以来神经网络设计中最大的进化飞跃。

Transformer 具备了所有让大型语言模型成为可能的必要特性：规模庞大，通过处理大量并行数据块来加速训练，并拥有极其复杂的注意力机制。

不管怎么看，Transformer 都是一个里程碑，甚至可以说是一个转折点。它一经发布，就立刻展示出了惊人的能力，甚至连其背后的专家们都感到震惊，而这些进展至今都没有放缓。

可以肯定的是，基于 Transformer 的大型语言生成模型再次展现了大规模数据的力量。

AlexNet 首次亮相时，网络参数为 6000 万个，相比之下，Transformer 的参数已经增长到数千亿个，足以利用文本、照片、视频等形式的数据进行训练。这无疑带来了无尽的工程挑战，但其中所体现的科学性却出奇的优雅。

可以确定的是，高质量数据正在变得前所未有的重要，也变得越来越珍贵。

ImageNet 在人工智能领域改变的一件事是，它让人们意识到，创建高质量的数据集是人工智能研究的核心，尽管这项工作往往不为人所知，这种认识的转变标志着数据在人工智能发展中的起到的关键作用。

五亿年前，视觉的出现颠覆了黑暗的世界，它引发了最深刻的进化过程：动物世界中智力的发展。

过去十年间，人工智能的惊人进展同样令人惊叹。正如李飞飞在演讲中所说，她相信直到我们用空间智能驱动的计算机和机器人，这场数字寒武纪大爆发的全部潜力才会完全实现，就像大自然曾对人类做过的那样。

这将是一个激动人心的时刻，我们的数字伴侣将学会推理，并与人类世界这个美丽的三维空间互动，同时也创造更多我们可以探索的新世界。

实现这一未来并非易事。它需要深思熟虑，始终以人为本开发技术。

但如果我们处理得好，由空间智能驱动的计算机和机器人不仅会成为有用的工具，还将成为值得信赖的伙伴，提升人类生产力，促进人类和谐共处。同时，我们个人的尊严也将更加凸显，引领着人类社会的共同繁荣。

AI 将变得更加敏锐、更加富有洞察力，并具有空间意识。它们将与人类同行，不断追求用更好的方式，来创造更美好的世界。

“人工智能将为人类带来的福祉是没有国界的。”李飞飞说。

三院院士、享誉世界的华人科学家

李飞飞首部个人回忆录

女性突破困境、追寻梦想的成长之作

一部翔实壮阔的现代人工智能发展史

玩酷网

刚刚，这位华人顶级AI科学家做了场演讲，全球媒体都放上了头条…

热门分类