
1. 辅助博弈1.1. assistance game1.2. 逆强化学习如今已经是构建有效的人工智能系统的重要工具,但它做了一些简化的假设1.2.1. 机器人一旦通过观察人类学会了奖励函数,它就会采用奖励函数,这样它就可以执行相同的任务1.2.1.1. 解决这个问题很容易,我们只需确保机器人将偏好与人类联系起来,而不是与自身联系起来1.2.2. 机器人正在观察一个人类解决单智能体决策问题1.2.2.1. 机器人不知道人类有什么偏好,但它无论如何都想满足他们1.3. “回形针”博弈1.3.1. 在这个游戏中,人类哈里特有一种动机来向机器人罗比“发送”一些她的偏好信息1.3.2. 罗比能够解读这个信号,因为它能玩这个游戏,由此它能理解哈里特有什么样的偏好,以便让她发出那样的信号1.4. 关机博弈1.4.1. 工具性目标通常可以用作几乎任何原始目标的子目标1.4.2. 自我保护是一个工具性目标,因为很少有原始目标在死后能更好地实现1.4.2.1. 这导致了关机问题:具有固定目标的机器将不允许自己被关机,并有动机禁用自己的关机按钮1.4.3. 事实证明,目标的不确定性对于确保我们能够关闭机器至关重要,即便机器比我们更智能1.4.3.1. 它知道自己不想做错事,但它不知道做错事意味着什么1.4.4. 只要罗比不能完全确定自己将要做的事情就是哈里特自己会做的事,它就会更愿意被哈里特关闭1.4.4.1. 哈里特的决定为罗比提供了信息,而信息对于改进罗比的决定总是有用的1.4.4.2. 如果罗比对哈里特的决定有把握,那么她的决定就不会提供新的信息,所以罗比没有动机让她做决定1.4.5. 允许有人为错误发生的可能性1.4.5.1. 即使罗比提议的行动是合理的,哈里特有时也可能会关掉罗比1.4.5.2. 即使罗比提议的行动并不可取,哈里特有时也会让罗比继续1.4.6. 博弈的解决方案表明,罗比不太倾向于听从一个有时违背自己最大利益的、非理性的哈里特1.4.6.1. 她的行为越随意,罗比在服从她之前就越不确定她的偏好1.5. 有益的、顺从的行为和机器对人类偏好的不确定性之间的重要联系,会经受住这些细化和复杂化的考验1.6. 随着罗比对哈里特的偏好越来越确定,它将和那些有固定目标的糟糕的旧人工智能系统越来越像:它不会征求许可,也不会让哈里特选择关闭它,而且它的目标不正确1.7. 永远不要预先排除世界上可能成为哈里特偏好的一部分的属性1.7.1. 当罗比根据已知的属性无法解释哈里特的决定时,罗比可以推断,有一个或多个先前未知的属性(例如天空的颜色)可能在起作用,而且它可以试着找出那些属性可能是什么2. 禁例与漏洞原则2.1. 保有人类目标的不确定性,或许并不是说服机器人在拿咖啡时不要禁用关机按钮的唯一方法2.2. 以一种万无一失的方式编写这样的禁例就像试图编写无漏洞的税法,这是我们几千年来一直在尝试却一直失败的事情2.2.1. 防止有人避税的最佳解决方案是确保相关实体都愿意纳税2.3. 漏洞原理2.3.1. 如果一台足够智能的机器有动机创造某种条件,那么一般而言,人类无法仅凭写禁例来限制它的行为,阻止它这样做,或是阻止它做一些等效的事情2.3.1.1. 在人工智能系统可能出现问题的情况下,最好的解决方案是确保它愿意服从人类3. 要求和指示3.1. 指令不是不惜一切代价都要实现的目标3.1.1. 这是一种传达哈里特偏好信息的方式,目的是诱导罗比进行某些行为3.2. 机器永远无法确定人类的偏好3.2.1. 尽管存在这种不确定性,它们仍然可以发挥作用3.3. 语用学是语言学的一个分支,它研究的正是这种延伸的意义概念4. 主动嗑电4.1. 多巴胺的作用在20世纪50年代末被发现,但早在那之前,人们就知道对老鼠大脑直接进行电刺激可以产生一种类似奖励的反应4.2. AlphaGo得到获胜的+1奖励的唯一方法是赢得它正在玩的模拟围棋游戏4.2.1. AlphaGo唯一的动作就是将一枚棋子放在一个空的交叉点上,这些动作只影响围棋棋盘,而不影响其他任何东西,因为AlphaGo的模型中没有其他东西4.2.2. AlphaGo在训练期间的生活一定相当令人沮丧:它做得越好,它的对手就做得越好,因为它的对手几乎就是它自己的翻版4.3. 人们担心的是像AlphaGo这样的强化学习系统可能学会作弊,而不是掌握其预期的任务4.3.1. 当奖励信号来自“宇宙之外”,并由人工智能系统永远无法修改的某个过程生成时,这个过程就能正常工作4.3.2. 如果奖励生成过程(主体是人类)和人工智能系统处于同一个“宇宙”中,这个过程就失败了4.4. 如何才能避免这种自欺行为?4.4.1. 因为它混淆了两个不同的东西:奖励信号和实际奖励4.4.2. 应该被区分对待,就像它们在辅助博弈中一样:奖励信号提供关于实际奖励积累的信息,该信息才是要被最大化的东西4.4.3. 学习系统是在天堂积累积分,而奖励信号充其量只是提供积分的一种记录4.4.3.1. 接管奖励信号机制的控制权只会丢失信息4.4.4. 一个被设计成能够区分二者区别的理性学习者,有动力去避免任何类型的“主动嗑电”5. 递归式自我完善5.1. 机器在设计机器方面会强于人类5.2. AlphaGo是一个不完美的训练过程的结果,即它用自我对弈进行强化学习,而获胜就是奖励5.2.1. AlphaGo并不能保证逢局必胜5.2.2. 事实上,它几乎总是输给AlphaZero5.2.3. 当AlphaGo发现无论它选择什么着法,对手都有获胜的策略时,那么AlphaGo会或多或少地随机选择着法6. 不同的人6.1. 人类不是单一的、理性的实体,而是由多得不计其数的、令人讨厌的、嫉妒驱动的、非理性的、不一致的、不稳定的、计算能力有限的、复杂的、不断进化的、异质的实体组成的6.1.1. 不同的文化,甚至不同的个人,有着完全不同的价值体系6.2. 在人工智能中,我们需要加入心理学、经济学、政治理论和道德哲学的思想6.2.1. 需要将这些思想熔化、塑形和锤炼成一个足够强大的结构,以抵御日益智能的人工智能系统给它带来的巨大压力6.3. 我们不希望机器拥有自己正确的价值体系,我们只是想让它预测其他人的偏好6.4. 关于机器难以满足人类不同偏好的困惑可能来自一种错误的想法,即机器采用的是它学习到的偏好6.4.1. 它只需要学会预测素食者的饮食偏好6.4.2. 根据第一原则,它会避免为这户家庭烹饪肉类6.4.3. 机器人也会了解邻居“肉食狂人”的饮食偏好,而且,如果在主人同意的情况下,周末邻居借机器人帮忙举办晚宴,它会很乐意为他们做肉食吃6.4.4. 除了帮助人类实现他们的偏好外,机器人并没有自己的一套偏好6.5. 原则上,一台机器要学习80亿个偏好模型,即地球上每个人的偏好6.5.1. 机器很容易互相分享它们学到的东西6.5.2. 人类的偏好结构有很多共同点,所以机器通常不会从头开始学习每个模型6.5.3. 机器人带着相当广泛的先验信念从盒子里走出来6.5.3.1. 它不需要像以前从未见过人类一样开始了解特殊的人类6.5.3.2. 相同的论点适用于其他各种各样的个人特征,这些特征在某种程度上可以预测个人偏好结构的各个方面7. 效益主义7.1. 威廉·斯坦利·杰文斯7.1.1. 19世纪英国逻辑学家和经济学家7.1.2. William Stanley Jevons7.1.3. 逻辑钢琴”的机械计算机的发明者7.1.4. 在1871年提出,人际效用是不可比较的7.2. 肯尼斯·阿罗7.2.1. 1972年诺贝尔奖得主、美国经济学家7.2.2. Kenneth Arrow7.2.3. 人际效用比较没有任何意义,事实上,就个人效用的可衡量性而言,对幸福感做比较没有意义7.3. 罗伯特·诺齐克7.3.1. 美国哲学家7.3.2. Robert Nozick7.3.3. 1974年,即使可以对效用进行人际比较,最大化效用的总和仍然不是一个好主意7.3.3.1. 这会与“效用怪兽”(一个快乐和痛苦的体验比普通人强烈许多倍的人)相冲突7.4. 问题在于我们如何衡量结果的可取性7.5. 如果不同的实体有不同的效用尺度的想法已经建立在我们的思维方式中,那么不同的人有不同的尺度也是完全可能的7.6. 机器可以从宽泛的关于人类偏好尺度的先验信念开始,通过长时间的观察来了解更多关于个体尺度的信息,这或许可以将自然观察与神经科学研究的发现联系起来7.7. 在决策中使用适当的道德理论具有不确定性7.7.1. 一种解决方案是为每种道德理论分配一定的概率,并使用“预期道德价值”做决策8. 利他主义8.1. 用现代经济学的说法,对他人的关心通常被归入利他主义的范畴8.2. 一些经济学家把利他主义视为另一种形式的自私,旨在为给予者提供“温情”8.3. 对自己内在幸福的偏好8.3.1. 内在幸福指的是一个人自身的生活品质8.3.2. 拥有住所、吃得饱、穿得暖、安全等,这些生活品质本身就是令人向往的,而不是一个人参考了别人的生活才想要的8.4. 对他人幸福的偏好8.5. 消极利他主义行为比人们想象的要普遍得多8.6. 美国社会学家索尔斯坦·凡勃伦(Thorstein Veblen)在1899年出版的著作《有闲阶级论》8.7. 个人在群体中的身份和地位以及该群体相对于其他群体的整体地位是人类自尊的重要组成部分8.8. 设计得当的机器不会像它们观察的人那样行事,即便这些机器正在学习虐待狂的偏好8.8.1. 事实上,如果我们人类发现自己每天都处于与纯粹利他主义实体打交道的陌生环境中,我们就可能会学习成为更好的人,变得更无私,也更少受到骄傲和嫉妒的驱使