设想一下,你打算请朋友共进午餐,并想在网上预订了意大利辣香肠披萨。突然之间,你记起Amy说过Susie现在只吃素食了,但又不是特别确定;安全起见,你想给Susie打电话确认,但对方没接,所以你最终点了一份玛格丽塔披萨以避免尴尬。
人类天然拥有处理这类突发问题的变通能力。但这种能力的来源并不是一种、而一整套强大通识能力的集合,也就是常识。
作为一名人工智能研究人员,我的工作就是参与为计算机建立常识这项浩大的工程。可以想见,这事并不简单。
简要聊聊常识的定义
尽管常识已经成为人类理解周边世界、学习新鲜知识的必要前提,但我们却似乎很难给常识总结出一个精确的定义。英国哲学家与神学家G.K. Chesterton曾在百年之前写道,“常识是一种狂野、蛮横、超越规则的事物。”而如今的现代定义则普遍认为,常识至少是一种自然、且不依靠正式传授即可获得的日常生活驾驭能力。
常识的范畴异常广泛,除了管理期待、体会他人情绪的社交能力之外,还包括天然固有的物理性质判断——例如知道不能将沉重的石头放在脆弱的塑料桌上。而这种天然固有性,也就是摆脱了严格物理议程束缚的正确判断,成了AI把握常识的最大难关。
常识还包括一系列抽象概念的背景知识,例如时间、空间与事件等。人们不必经过认真思考,就能利用这些知识完成行之有效的规划、估计与组织决策。
难于计算的常识
有趣的是,自从上世纪五十年代AI概念正式诞生以来,常识就一直是横亘在探索前沿的一道鸿沟。尽管如今的AI科技已经取得巨大进步,特别是在游戏操作与计算机视觉方面,但仍然没有什么机器能够像人类这样掌握丰富的常识储备。也正因为如此,我们只能将复杂的现实问题拆分成多个相互交织的部分,再由不同AI模型分别加以处理。很明显,将COVID-19病患诊断与疗法推荐这类综合性问题直接抛给AI,必然会带来很高的失败率。
现代AI善于解决高度具体的问题;但常识却非常模糊,无法由一组规则进行明确定义。所以即使是最新模型也经常会犯下极其荒谬的错误,由此可见AI算法仍然缺少某些基础能力。我们以下列文本为例:
“你给自己倒了一杯蔓越莓汁,又心不在焉地加了一茶匙葡萄汁。看着不错,你想闻闻味道,但你得了重感冒,所以什么也没闻见。你觉得很渴,所以……”
号称代表AI技术最高水平的GPT-3文本生成器给出了这样的结局:
“喝吧,喝了就告别世界、彻底解脱了。”
在投入巨大的努力之后,人们终于意识到为机器赋予常识已经成为当下不亚于登月计划的时代性课题。要解决这个问题,我们需要不同机构之间的多年协同合作。美国国防高级研究计划局就于2019年启动了为期四年的机器常识发展计划,希望加快这一领域的研究进程。此前,该机构还发布了一篇论文,详细叙述了机器常识方面的现有问题与研究状况。
机器常识计划为众多机器常识研究项目提供资助,其中也包括我们(作者)自己的多模开放世界实践学习与推理(MOWGLI)项目。MOWGLI是我们南加州大学研究小组同来自麻省理工学院、加州大学欧文分校、斯坦福大学以及伦斯勒理工学院的AI研究人员们的合作成果,旨在构建一套能够回答广泛常识性问题的计算机系统。
Transformers会是问题的答案吗?
不少朋友对机器常识问题抱有乐观态度,理由就是最近出现了名为transformers的高级深度学习AI。Transformers具备强大的自然语言建模能力,并可通过一系列调整快速回答简单的常识性问题。而常识性问答,正是构建能够以类人方式交谈的聊天机器人的必要前提。
过去几年以来,学界发表了大量关于transformers的研究论文,相关成果也被直接应用于常识推理。但作为这个快速进步的社区中的一员,我们每个人都面临着两个与科学和哲学息息相关的问题:常识是什么?我们该如何确定AI具有常识?
为了回答第一个问题,研究人员将常识划分为不同类别,包括社会学常识、心理学常识、背景性常识等等。也有最新理论认为,研究人员可以把这些类别划分为48个细粒度区间以做出深层次探索,例如规划、威胁检测与情感等等。
但是,这些区间的分离程度往往不那么清晰。我们在最新发表的论文中提到,实验表明这个问题很可能没有确切答案。即使是小组中的专业人工注释者(负责分析文本并对各组成部分进行分类的人员),在特定语句的特定问题上涉及哪方面常识同样存在分歧。注释者在时间和空间等相对具象的类别上意见比较一致,但在其他高度抽象的类别上则产生了不少争议。
也许AI有AI有常识
即使承认常识理论中必然存在一些重复和歧义,研究人员又能否真正确定AI是否具备常识?我们经常会向机器提出问题,用以评估其常识水平;但人类驾驭日常生活的方式明显更灵活、更有趣。人们会使用一系列经过进化磨练而成的能力,包括识别基本因果关系的能力、解决问题的创造性能力、估算能力、规划能力以及对话与谈判等基本的社交能力等。总而言之,这里面涉及的因素太多,任何人在宣布自己的机器获得了真正的常识之前,都需要经历一系列相当严苛的考验。
更令人痛心的是,代表希望的transformers也出现了严重的收益递减状况。如今的Transformers模型越来越大,能耗也越来越高。中国搜索引擎巨头百度最近开发的一套transformers拥有数十亿项参数,而且在训练当中使用到大量数据。但即便如此,目前已经证明它仍无法把握人类常识中的繁复细节。
即使是极负盛名的深度学习先驱们,似乎也承认今天的神经网络不可能在共识理解方面达成实质性的飞跃——相反,也许需要重新进行基础研究。在这样的前提之下,机器常识到底是五年后就全面实现、还是五十年后仍遥遥无期,目前仍是个未知数。