读当我点击时，算法在想什么？02算法在监视我们（中）

1. 主成分分析方法

1.1. 在过去的 50年里，社会学家和心理学家一直利用主成分分析法对我们的个性、社会价值观、政治观点和社会经济地位进行分类

1.2. 主成分分析法可以将这些百万计的复杂维度减少到极少的维度，少到可以把我们“放到小盒子里”，或者用一个更形象的比喻来形容，少到可以用少量的不同符号来代表我们

1.3. 主成分分析是对人类人格实现计算机化的高维理解的第一步，这种高维理解将完胜我们目前对自己的理解

1.3.1. 电脑却可以做一些我们永远也做不到的智能任务

1.4. 主成分分析法可以拆解并分析你与手机或电脑互动的方式，以了解你的情绪状态

2. 迈克尔·科辛斯基

2.1. Michal Kosinski

2.1.1. 斯坦福大学研究生院商学院教授

2.1.2. 最早意识到我们可以根据人们上传至社交媒体的大量数据，利用主成分分析法对他们进行分类的研究人员之一

2.1.3. 迈克尔发现，对我们进行精确分类需要 40到 100 个维度

2.2. 研究能否通过我们的点赞来评估我们的身份：哪些点赞最有可能与某个属性相关联？

2.2.1. 朋友少的人会点赞的帖子普遍与电脑游戏《我的世界》(Minecraft)、硬摇滚音乐，以及和朋友一起散步再突然把他们推向某个人的恶作剧有关

2.2.2. 朋友多的人则会给珍妮弗·洛佩兹(Jennifer Lopez)点赞

2.2.3. 智商偏低的人会给幽默杂志《国家讽刺》(National Lampoon)里的角色克拉克·格里斯沃尔德(Clark Griswold)、“婆婆妈妈”(“being a mom”)和哈雷摩托的相关帖子点赞

2.2.4. 智商偏高的人会给和莫扎特、科学、电影《指环王》(The Lord of the Rings)与《教父》(TheGodfather)相关的帖子点赞

2.2.5. 非裔美国人给涉及凯蒂猫(Hello Kitty)、巴拉克·奥巴马(Barack Obama)和说唱歌手尼基·米娜(Nicki Minaj)的帖子点赞

2.2.5.1. 但他们对露营或米特·罗姆尼(Mitt Romney)的兴趣不如其他种族

2.3. 虽然每个“赞”仅仅提供了关于一个人的点滴信息，但大量的“赞”累积起来就可以让他的算法得出可靠的结论

2.3.1. 揭示我们人格的，不是某一次鼠标单击的“赞”，而是众多不同的赞的组合

2.4. 相比人类，电脑能发现更微妙的关系

2.4.1. 电脑可以针对那些对我们而言不那么显著的信号做出预测

2.5. 你的情绪已被编号，你的行为已被建模和预测

2.6. 我们在告诉脸书我们是什么样的人，我们在想什么

2.6.1. 我们在向一个社交网站展示着自己的点滴细节，而这些细节我们通常只会展示给最亲密的朋友

2.6.2. 朋友往往会忘记这些细节，并对他们得出的有关我们的结论更宽容

2.6.3. 可脸书却不同，它正在系统地收集、处理和分析我们的情绪状态

2.6.3.1. 它在数百个维度上旋转我们的人格，因此能够找到最冷静、最理性的角度来审视我们

2.7. 如果你经常使用脸书、“照片墙”(Instagram)、色拉布(Snapchat)、推特或其他社交媒体网站，那么你的信息就会被他们哄抢

2.7.1. 允许它们将你的人格置于拥有数百个维度的空间中，你的情绪被它们编号分类，你未来的行为被它们建模和预测

2.7.2. 这一切都是以一种你我大多数人都难以理解的方式高效、自动地运行的

2.8. 算法并不依赖于文字对我们进行分类，文字的使用只是为了帮助我们理解人们各种兴趣间的统计学关系

3. 人格的研究

3.1. 心理学家对人格的研究基础是我们对朋友和熟人的日常了解

3.2. 在大多数情况下，通过旋转所有的人格形容词维度，心理学家都能不依赖于所提问题的类型就得到同样的五大人格特质

3.2.1. 经验开放性(openness)

3.2.2. 尽责性(conscientiousness)

3.2.3. 外向性(extroversion)

3.2.4. 亲和性(agreeableness)

3.2.5. 情绪不稳定性(neuroticism)

3.3. 五大特质的提法并非信口雌黄，而是经得起反复检验的、用来归纳人之所以为人的重要理论工具

4. 脸书

4.1. 脸书的研究人员已经掌握了减少我们维度的技术

4.1.1. 脸书采用的方法基于随机数学，将 100万个类别不同的“赞”的数据旋转 100万次需要很长时间

4.1.2. 我们根本就无法理解脸书对我们的高维了解

4.1.3. 当我们不了解脸书如何做到这一点的时候，可笑的是我们，而非算法

4.1.3.1. 我们已经不再有能力完全理解我们创建的算法所给出的结果

4.2. 相亲配对

4.2.1. 脸书的策略是通过分析朋友的朋友的资料找到匹配的对象

4.2.2. 单身用户可以在他们朋友的朋友中“定位符合你理想特质、兴趣或经历的潜在约会对象”，然后询问共同的朋友是否愿意成为媒人

4.3. 帮你找到工作

4.3.1. 无论如何对于使用脸书的雇主来说，脸书较包括领英(LinkedIn)在内的纯专业服务网站的优势在于，你在脸书上的个人资料更有可能揭示真实的你

4.4. 脸书也在研究如何从你的帖子、你照片中的面部表情以及你与屏幕互动的程度来评价你的精神状态

4.4.1. 学术研究已经证实，这些技术可以让我们对自己的精神状态有一定了解

4.4.2. 意味着将来脸书会追踪我们的每一种情绪，并在我们的消费选择、人际关系和工作机会中不断地操纵我们

4.5. 脸书的数据可以用来揭露我们的喜好、智商和个性

4.6. 脸书的人格模型为每个用户分配一个内向/外向的排序，或者给出一个用户“单身”或“恋爱”的概率

4.7. 社交网络的力量

4.7.1. 从一小撮人那里收集数据就能够让研究人员接触到庞大的朋友圈数据

4.7.2. 科研成果和算法的应用之间的界限日渐模糊，其中一个原因在于媒体对此类科研成果的大肆渲染

4.7.3. 算法很了解你，但它未必能预测你的行为

4.7.4. 更好的相关性意味着更好的预测结果

5. 剑桥分析公司

5.1. 只要有权限访问选民的脸书个人资料，剑桥分析公司就可以确定哪些类型的广告会对他们产生最大的影响

5.2. 候选人可能不会把重点放在传统媒体的核心信息上，而是把注意力集中在对记者和新闻机构的诋毁上，因为这些新闻机构在努力让人们对这场竞选形成整体印象

5.3. 在大众媒体被人质疑的同时，被量身定制的信息将被直接推送给个人，为他们提供符合他们现有世界观的宣传信息，进而操纵他们的选票

5.4. 用二元论看待这个世界的是人类

5.4.1. 事实上人类才会通常在非黑即白的二元对立状态下看待事物，例如我们几乎条件反射地说“他太蠢了，这都不懂”，“她是典型的共和党人”，或者“那个人在推特上啥都分享”

5.5. 精心设计的算法很少将事件简单地划归为两类中的一种，它们给出排序或概率

5.6. 只输入年龄信息给模型带来了些许预测能力，然而可供使用的输入越多，预测就会越准

5.7. 剑桥分析公司和其他现代数据分析公司使用的统计方法与 19 世纪80年代使用的大同小异，只不过主要区别在于他们手中所掌握的数据的规模

5.7.1. 将脸书的“赞”、在线投票问题的答案以及我们购物的数据导入到回归模型中了

6. 回归

6.1. 将大量的维度转化为概率或排序的最基本方法是回归(regression)

6.1.1. 统计学家对回归模型的使用已长达一个多世纪，其应用从生物学开始逐步扩展到经济学、保险行业、政治学和社会学

6.1.2. 政治学家长期以来都在使用回归方法

6.2. 所有的回归模型都有一个最根本的局限性

6.2.1. 算法输出的不是非此即彼的结果

6.3. 回归模型利用我们已有的关于某人的数据以预测我们尚不知道的关于他的事情

6.4. 回归模型并不能完美地代表真实的数据

6.4.1. 不一致在试图用单一方程式呈现大量数据点的回归模型中很典型

6.4.2. 不一致并不意味着模型是错的，它只是反映了回归方法的一般限制

6.4.3. 小的不一致并不是大问题——所有的模型在某种程度上都是错误的

6.5. 潜在的因果混淆问题

6.5.1. 这是所有统计分析所固有的问题

6.5.2. 数据显示民主党人倾向于喜欢哈利·波特，但这并不一定意味着其他的哈利·波特迷们也喜欢民主党

玩酷网

读当我点击时，算法在想什么？02算法在监视我们（中）

躺柒