读算法简史：从美索不达米亚到人工智能时代13神经网络

1. 危险边缘

1.1. 《危险边缘》是美国的一个电视节目

1.1.1. 《危险边缘》采用了很多但数量有限的问题类型

1.1.2. 全美最受欢迎的智力竞赛节目

1.2. 2011年，IBM也参与了比赛

1.2.1. 开发了一款能玩《危险边缘》的计算机，取名“沃森”

1.2.2. 沃森的对手是《危险边缘》历史上最强的两位选手-肯·詹宁斯和布拉德·拉特(Brad Rutter)

1.2.2.1. 肯·詹宁斯保持着最长的连胜纪录——74场连胜

1.2.2.1.1. 已经获得了250万美元的奖金

1.2.2.1.2. 时年36岁的詹宁斯在参加《危险边缘》获得成功之前，曾是一名计算机程序员

1.2.2.2. 布拉德·拉特则获得了《危险边缘》比赛历史上最高的总奖金——共325万美元

1.2.2.2.1. 拉特比詹宁斯小4岁，在首次登上节目之前，他在一家唱片店工作

1.2.3. 奖金高达100万美元

1.3. 沃森的处理能力和惊人的内存容量是计算机获得成功的一部分原因

1.3.1. 沃森的硬件是最先进的

1.3.1.1. 由100台IBM Power 750服务器组成的网络，共有15万亿字节内存和2880个处理器核心

1.3.1.2. 满负荷运行时，该设备每秒可执行80万亿次计算

1.3.2. 沃森拥有海量的数据

1.3.2.1. 节目规则要求在比赛进行时，机器必须断开互联网连接

1.3.2.2. 在开发过程中，该团队向沃森下载了100万本书

1.3.2.2.1. 各种重要文件都被塞进了它的内存里，包括教科书、百科全书、宗教文本、戏剧、小说和电影剧本

1.4. 沃森成功的真正秘密还是在于它的算法

1.4.1. 沃森的软件是数百种协作算法的混合体

1.4.2. 解析器(parser)算法将线索分解为各个语法成分

1.4.3. 一旦提取出了各种关系，就可以确定线索的元素

1.4.3.1. 通过将一组“如果-那么-否则”的规则应用于解析器输出来完成的

1.4.4. 3个主要元素得以确立：线索焦点、答案类型和问题分类

1.4.4.1. 线索的焦点是指线索引导选手关注的人物、事件或事物

1.4.4.2. 答案类型是焦点的本质

1.4.4.3. 问题分类是线索所属的类别

1.4.4.3.1. 可能的类别包括事实陈述、定义、多项选择、谜题和缩写

1.5. 搜索会访问沃森存储库中的结构化数据和非结构化数据

1.5.1. 结构化数据是指在组织结构清晰的表格中保存的信息

1.5.1.1. 结构化表格数据非常适合查找事实陈述类信息

1.5.2. 非结构化数据是指没有正规组织结构的信息

1.5.2.1. 非结构化数据包括文本文档中的信息，如报纸或书籍。其中包含了大量的知识，但计算机很难解释

1.5.2.2. 从非结构化数据中检索有用的信息被证明是构建沃森的最大难题之一

1.6. 用线索的焦点作为关键字检索维基百科，寻找到一个相应的词条

1.7. 沃森起源于20世纪七八十年代的专家系统(expert system)和基于案例推理(case-based reasoning，CBR)的技术

1.7.1. 专家系统使用手写的“如果-那么-否则”规则将文本输入转换为输出

1.7.1.1. 第一个流行的专家系统MYCIN是由斯坦福大学的爱德华·费根鲍姆(Edward Feigenbaum)的团队开发的

1.7.1.2. 它被设计用来帮助医生确定感染是细菌性的还是病毒性的

1.7.1.3. 专家系统的主要缺点是，每个规则和考虑的点必须手动编程到系统中

1.7.2. CBR系统比专家系统具有更灵活的决策机制

1.7.2.1. 第一个有效的CBR系统是由耶鲁大学的珍妮特·科洛德纳(Janet Kolodner)开发的CYRUS

1.7.2.2. CYRUS是一个自然语言信息检索系统

1.7.2.2.1. 该系统保存着美国国务卿塞勒斯·万斯(Cyrus Vance)和埃德蒙德·马斯基(Edmund Muskie)的传记与日记

1.7.3. 专家系统和CBR作为AI的古老形式，即将被一场海啸淹没

1.8. 如果《危险边缘》的制作人突然改变线索的格式，沃森就会难于应对

1.8.1. 沃森的人类对手可能就完全能适应

1.8.2. 沃森的程序是专门用来处理《危险边缘》线索的，没有其他的功能

1.8.2.1. 它只是根据预定义的规则摆弄单词

1.8.2.2. 沃森只是比之前的任何自然语言处理系统拥有更多的规则和数据

2. 模仿大脑

2.1. 人类天生具有识别模式的能力

2.1.1. 在短短几年的成长过程中，孩子们能学会识别面孔、物体、声音、气味、质地和口语词汇

2.1.2. 整个20世纪，研究人员试图设计出与人类在模式识别上能力相当的算法，但都以失败告终

2.2. 在灰度(greyscale)图像中，0表示黑色，1表示白色，介于两者之间的值代表不同色度的灰色

2.3. 每个数字都对应于图像中的一个点，或称像素(pixel)

2.4. 困难来自现实世界图像具有可变性

3. 大脑细胞

3.1. 人类的大脑由大约1000亿个细胞组成，这些细胞称为神经元

3.2. 单个神经元由3种结构组成：一个中央胞体，一组被称为树突的输入纤维，以及一些被称为轴突的输出纤维

3.3. 当神经元放电时，它会从中央胞体向所有的轴突发送脉冲

3.4. 唐纳德·赫布(Donald Hebb)

3.4.1. 加拿大神经心理学家

3.4.2. 当神经元持续放电时，接收信号的神经元的树突会发生变化

3.4.2.1. 它们对发出信号的神经元会更加敏感

3.4.2.2. 接收信号的神经元变得更容易做出反应

3.4.3. 赫布的发现揭示了生物神经网络中的学习效应(learning eff ect)——过去的经验会决定未来的活动

3.5. 沃尔特·皮茨

3.5.1. Walter Pitts

3.5.2. 天才儿童

3.5.3. 数学教授诺伯特·维纳(Norbert Wiener)是皮茨在MIT的导师之一

3.5.3.1. 他引导皮茨研究控制论(cybernetics)，即自我调控系统的学问

3.5.4. 1969年，他死于与酗酒相关的疾病，年仅46岁

3.5.5. 遗产是人工神经网络的数学基础

4. 人工神经网络

4.1. 世界上第一个人工神经网络(artifi cial neural network，ANN)是由MIT的贝尔蒙特·法利(Belmont Farley)和韦斯利·克拉克(Wesley Clark)于1954年建立的

4.2. 感知器是一个分类器——它能确定给定输入属于哪个类，或称类别

4.3. 权重模拟了神经元对特定输入信号的敏感度

4.3.1. 所有加权的输入值被与一个偏置值加到一起，得出神经元的兴奋值

4.3.2. 将兴奋值代入一个激活函数

4.4. 在一个全连接的神经网络中，一个层的所有输出都被输入下一层的每个神经元

4.4.1. 输入层的输出连接到第一隐藏层

4.4.1.1. 隐藏层是那些不直接连接到网络输入或输出的层

4.4.2. 在一个简单的神经网络中，可能只有一个隐藏层

4.4.3. 隐藏层之后就是输出层

4.4.3.1. 这一层神经元的输出就是最终的网络输出

4.5. ANN的模拟过程

4.5.1. 取网络输入值

4.5.2. 对每一层重复以下步骤

4.5.2.1. 对层中的每个神经元，重复以下步骤

4.5.2.1.1. 将总兴奋值设为与偏置值相等

4.5.2.1.2. 对神经元的每一个输入，重复以下步骤

4.5.2.1.2.1. 将输入值乘以输入权重

4.5.2.1.2.2. 加入总兴奋值中

4.5.2.1.2.3. 当所有输入都处理完毕后，停止重复

4.5.2.1.3. 如果兴奋值大于阈值，那么将神经元输出设为1，否则将神经元输出设为0

4.5.2.1.4. 当整个层处理完成后，停止重复

4.5.2.2. 当所有层都处理完后，停止重复

4.5.3. 输出与最大网络输出值相关联的类的名称

4.6. 每个神经元都会针对输入做出微小的决定

4.7. 第一个挑战是选择合适的拓扑(topology)

4.7.1. 指神经网络中神经元的排列连接方式

4.7.2. 拓扑结构决定了层的数量、每层含神经元的数量以及它们之间的相互连接关系，拓扑会影响网络能够处理任务的复杂度

4.8. 第二个挑战是确定网络参数的值

4.8.1. 参数控制着网络的行为

4.8.2. 网络要正确地对输入进行分类，参数值必须恰当

4.9. 感知器在20世纪60年代末遇到了批评和争议

4.9.1. 马文·明斯基和西摩·佩珀特出版了一本名为《感知器》(Perceptrons)的书，给整个概念泼了一盆冷水

4.9.1.1. 明斯基和佩珀特于2016年去世，均享年88岁

4.9.2. 1969年，明斯基因对该领域的进步所做出的贡献获得了图灵奖

4.10. 罗森布拉特

4.10.1. 反向传播误差校正(back-propagating error correction)

4.10.1.1. 他不停地转动感知器的旋钮，直到它工作为止

4.10.2. 于1971年他43岁生日那天死于切萨皮克湾的一次航海事故

4.10.3. 为了纪念罗森布拉特，明斯基和佩珀特将《感知器》的第2版题献给了他

4.11. 单层感知器不能学习某些基本的逻辑函数，但多层感知器可以

5. 反向传播

5.1. ANN的正常运算称为正向传播［forward-propagation，或称推断(inference)］

5.1.1. ANN接受一个输入，逐个神经元、逐层地处理这些值，然后产生一个输出

5.1.2. 在正向传播过程中，参数是固定的

5.2. back-propagation，或简写为backprop

5.3. 它已经存在一段时间了，但之前不曾应用到ANN的训练中

5.3.1. 反向传播算法最终成为ANN的训练算法

5.4. 保罗·韦伯斯

5.4.1. Paul Werbos

5.5. 反向传播算法需要对人工神经元的激活函数做微小的调整

5.5.1. 阈值运算需要用更平滑(smoother)的函数代替

5.5.2. 新函数确保了神经元输出随着兴奋值增加能从0逐渐上升到1

5.5.3. 感知器中那种通过阈值控制的从0到1的突然转变不见了

5.5.4. 从0到1的平滑转变让网络参数在反向传播期间得以逐步调整

5.6. 学习率(learning rate)

5.7. ANN的强大之处在于它能够学习和概括(generalize)

5.7.1. 即使是对于网络以前从未见过的输入的类，只要它与训练时所用的输入是相似的，网络也能正确地判断它的类

5.7.2. 一个经过许多圆形图像训练的网络，能够对它从未见过的圆形的草图进行正确分类

5.7.3. 神经网络不只是把训练数据都记住了，它确实还学习了输入类和输出类之间的一般关系

5.8. 反向传播算法首次令研究人员能够有效地训练多层网络

5.8.1. 结果是，网络变得更加准确，能够完成更复杂的分类任务了

6. 卷积神经网络

6.1. 杨立昆

6.1.1. 1960年出生于巴黎

6.1.2. 1983年，他获得了电气技术和电子工程师高等学校(École Supérieure d’Ingénieurs en Electrotechnique et Electro-nique，ESIEE)的工程师文凭

6.1.3. 单个组中的所有单位共享相同的权重

6.2. 在图像上复制和移动单个计算单元的数学过程称为卷积(convolu-tion)

6.2.1. 这种类型的网络被称为卷积神经网络(convolutional neural network)

7. 深度学习

7.1. 辛顿

7.1.1. 1947年出生于战后的英格兰温布尔登

7.1.2. 2006年，辛顿和多伦多大学的西蒙·奥辛德洛(Simon Osindero)以及新加坡国立大学的郑宇怀发表了一篇革命性的论文

7.1.2.1. 该论文标志着现在被称为深度学习(deep learning)的开端

7.1.2.2. 文章描述了由3个全连接的隐藏层组成的网络

7.1.2.2.1. 这个网络有太多的参数，用反向传播算法的方式进行训练会非常缓慢

7.1.2.2.2. 反向传播算法以随机参数值开始训练

7.2. 反向传播算法是监督(supervised)训练的一个例子

7.2.1. 意味着训练要为网络提供输入和输出相匹配的示例

7.3. 顿和其他共同作者建议采用无监督(unsupervised)训练

7.3.1. 无监督训练只使用输入示例

7.3.2. 在无监督的预训练中，示例输入被提供给网络

7.4. 深度网络才是前进的方向

7.5. 深度学习的海啸分3波袭来：首先是语音识别，然后是图像识别，再之后是自然语言处理

7.5.1. 半个世纪的模式识别研究在短短3年内被淘汰出局

7.5.2. 60年来，科技界一直在努力将口语表达准确地转化为文本

7.5.2.1. 最好的算法依赖傅里叶变换来提取谐波的振幅

7.5.2.2. 然后利用隐马尔可夫模型(Hidden Markov Model，HMM)，根据观察到的谐波情况和声音序列在真实语音中已知的出现概率来判断发出的音素

7.6. ANN-HMM混合体语音识别系统

7.6.1. 包含一个4层的ANN

7.6.2. 该团队使用来自谷歌语音搜索的5870小时的语音录音来训练ANN，并添加了来自视频网站YouTube的1400小时的对话音频

7.6.3. 新的ANN-HMM混合体比谷歌先前使用的基于HMM的语音识别系统性能高出4.7%

7.7. 本吉奥

7.7.1. 生于1964年，来自法国巴黎，是神经网络复兴的领军人物之一

7.7.2. 2014年，谷歌选择了本吉奥的工作，将其用于解决把文档从一种语言翻译成另一种语言的难题

7.7.2.1. 那时，谷歌翻译网络服务已经运行了8年

7.8. 杨立昆、辛顿和本吉奥于2018年获得了图灵奖，他们分享了谷歌赞助的100万美元奖金

玩酷网

读算法简史：从美索不达米亚到人工智能时代13神经网络

躺柒