2024年的诺贝尔物理学奖授予了美国普林斯顿大学的约翰·霍普菲尔德(John J. Hopfield)和加拿大多伦多大学的杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们在“推动人工神经网络应用于机器学习的基础性发明和发现”方面的卓越贡献。
这一奖项的颁发让人很意外!
但,仔细想想又好像觉得很合理。
令人意外的地方在于,这两位获奖者长期以来一直是AI算法领域的先驱——霍普菲尔德是变分自编码器(VAE)的创始人,而辛顿则是深度神经网络(如AlexNet)之父。
因此,人们不禁要问,他们的成就与诺贝尔物理学奖究竟有何关联?
然而,从另一个角度来看,他们获奖也是合情合理的。
近年来,若要从所有科技突破中挑选一个进行表彰,人工智能的飞跃无疑是最具代表性的成就。
这个突破甚至可以说是近百年来最重要的科技进步之一。
如果诺贝尔奖评审委员会对此视而不见,确实有点说不过去,那无异于对诺贝尔奖的精神和威望的削弱。
在物理学领域作出杰出贡献的人
特别是诺贝尔遗嘱中强调奖项应关注“对现实有实际价值”的成果,因此,人工智能领域显然不应被忽视。
不过,诺贝尔奖并没有设立计算机科学或数学领域的奖项,而霍普菲尔德和辛顿的成就,表面上看是算法方面的突破。
实际上,这些算法的基础源自物理学原理——变分自编码器(VAE)基于伊辛模型(Ising model),而深度神经网络则与玻尔兹曼分布有着深刻联系。
VAE的基本框架。模型接受为输入。编码器将其压缩到潜空间。解码qi以在潜空间采样的信息为输入,并产生,使其与尽可能相似。
01 伊辛模型与变分自编码器(VAE)的关系
首先,让我们看看伊辛模型与变分自编码器(VAE)之间的联系。
1924年,物理学家恩斯特·伊辛提出了伊辛模型,用以描述磁性材料的特性。
其基础概念是,将一块磁铁视为由无数微小磁性粒子组成的小格子,每个格子里的粒子被简化为一个小箭头,这些箭头只能向上或向下指。
伊辛模型示例
伊辛模型的基本原理包括:
这块磁性材料由许多立方体格子组成,每个格子里有一个小箭头。
2. 相邻的小箭头相互作用,若两个箭头方向相同,它们的能量降低,整个系统的稳定性提升。
3. 温度影响小箭头的行为,温度越高,箭头越容易改变方向。
4. 外部磁场可以施加影响,令小箭头倾向某个方向。
设定好系统参数后,可以依据量子力学原理来预测粒子的分布,从而推导出磁性材料的特性,例如相变、自发磁化和临界行为等。
那么,伊辛模型如何成为神经网络算法的基础呢?
其根本原因在于,两者的假设十分相似:
相似的结构:神经网络中的神经元和伊辛模型中的小箭头类似,都占据系统中的一个位置,并通过相邻单位的影响决定自身状态。
2. 二元状态的对应:在最简单的神经网络模型中,神经元的状态可以表示为1(激活)或-1(未激活),这与伊辛模型中的小箭头方向完全一致。
3. 能量最小化的原则:伊辛模型试图通过降低系统能量来达到稳定状态,神经网络则通过调整“能量函数”来学习和记忆,使其达到最小值。
4. 温度的影响:在神经网络的训练中,模拟退火算法类似于伊辛模型中的温度调控,有助于找到最优解。
如今,VAE在医学图像分析、数据压缩、特征学习和数据合成等领域广泛应用。
例如,谷歌最新的Variational Transformer Network将VAE模块嵌入自注意力机制,进一步提升了AI模型的能力。
02 玻尔兹曼分布与深度神经网络的关系
接下来,再谈谈玻尔兹曼分布与深度神经网络的联系。
玻尔兹曼分布描述了一个系统中粒子的能量分布规律,粒子处于某个能量状态的概率取决于该状态的能量和温度。辛顿的神经网络正是利用了这一分布原理。
如果理解了伊辛模型与神经网络的联系,那么玻尔兹曼分布的应用逻辑也不难理解。
不同之处在于,玻尔兹曼分布的模型更加复杂,神经元的状态不再是简单的二元,而是表现为一个概率值(例如22%、73%等)。
神经网络通过调整连接权重来改变系统能量,使训练数据对应的能量最低,从而实现数据的抽象和特征学习。辛顿的网络可以通过这种机制进行采样和数据生成,从而进行预测和分类。
辛顿更进一步开发了“深度神经网络”,即将多个神经网络层层串联,逐层抽象提取规律。
这一创新大大提高了处理复杂数据的能力,并增强了特征识别的精确性。
总结:
过去两年里,关注科技发展的人,应该都听过辛顿的名字。他被认为是深度神经网络领域的奠基人。
从1983年起,辛顿便开始探索这一领域,尽管在那个年代由于计算力限制,深度神经网络几乎不可能有实质性成果。
然而,2012年辛顿带领两位学生用AlexNet赢得ImageNet比赛,引领了深度学习的崛起。此后,深度神经网络逐渐成为AI领域的核心技术。
辛顿也是OpenAI前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)的博士导师。伊利亚在2023年底的一次“公司内变”中成为关注焦点,这再次证明了辛顿及其门徒在AI界的重要地位。
对于诺贝尔奖,我将其分为三类:
1、诺奖让成果更加荣耀,占比95%以上;
2、成果让诺奖更加荣耀,这类不超过5%;
3、让诺奖蒙羞的,这类少之又少;
2024年的诺贝尔物理学奖无疑属于第二类。
评审委员会如此用心挖掘神经网络与物理学模型的联系,并迅速将奖项颁发给AI领域的领军人物,这显然是在为诺贝尔奖赋予新的高度和意义。
毕竟,从历史数据看,诺贝尔奖项的诞生到授予,平均间隔约为16年,而这次的颁奖却是与最新科技发展的同步响应。