麻省理工学院研究人员推进自动化人工智能模型的可解释性

极光欣色 2024-07-26 21:36:32

随着人工智能模型变得越来越普遍,并被整合到医疗、金融、教育、交通和娱乐等各个领域,了解它们的工作原理至关重要。解释人工智能模型背后的机制使我们能够审核它们的安全性和偏见,并有可能加深我们对智能背后的科学本身的理解。

想象一下,如果我们可以通过操纵每个单独的神经元来直接研究人类大脑,以检查它们在感知特定物体时的作用。虽然这样的实验对人脑的侵入性是令人望而却步的,但在另一种类型的神经网络中更为可行:一种人工的神经网络。然而,与人脑有些相似的是,包含数百万神经元的人工模型过于庞大和复杂,无法手工研究,这使得大规模的可解释性成为一项非常具有挑战性的任务。

为了解决这个问题,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员决定采用一种自动化的方法来解释评估图像不同属性的人工视觉模型。他们开发了“MAIA”(多模态自动可解释性代理),这是一个使用视觉语言模型主干自动执行各种神经网络可解释性任务的系统,该主干配备了在其他人工智能系统上进行实验的工具。

“我们的目标是创造一名能够自主进行可解释性实验的人工智能研究员。现有的自动化可解释性方法仅仅在一次性过程中标记或可视化数据。另一方面,MAIA可以产生假设,设计实验来测试它们,并通过迭代分析来完善它的理解,”麻省理工学院电子工程和计算机科学(EECS)博士后Tamar Rott Shaham说,他是CSAIL的一名博士后,也是一篇关于这项研究的新论文的合著者。“通过将预训练的视觉语言模型与可解释性工具库相结合,我们的多模态方法可以通过在特定模型上组合和运行有针对性的实验来响应用户的查询,不断改进其方法,直到它可以提供一个全面的答案。”

自动代理被证明可以解决三个关键任务:它标记视觉模型中的单个组件并描述激活它们的视觉概念,它通过删除不相关的特征来清理图像分类器,使其对新情况更加健壮,它在人工智能系统中寻找隐藏的偏见,以帮助发现其输出中潜在的公平性问题。“但是像MAIA这样的系统的一个关键优势是它的灵活性,”CSAIL的研究科学家、该研究的联合负责人萨拉·施魏特曼博士说。“我们在一些特定的任务上展示了MAIA的实用性,但鉴于该系统是基于具有广泛推理能力的基础模型构建的,它可以回答用户提出的许多不同类型的可解释性查询,并在飞行中设计实验来调查它们。”

一个神经元接一个神经元

在一个示例任务中,一个人类用户要求MAIA描述视觉模型中一个特定神经元负责检测的概念。为了研究这个问题,MAIA首先使用一个工具,从ImageNet数据集中检索“数据集范例”,最大限度地激活神经元。对于这个神经元来说,这些图像显示的是穿着正装的人,以及他们下巴和脖子的特写。MAIA对驱动神经元活动的因素做出了各种假设:面部表情、下巴或领带。然后,MAIA使用它的工具设计实验,通过生成和编辑合成图像来单独测试每个假设——在一个实验中,在人脸图像上加上领结会增加神经元的反应。罗特·沙厄姆说:“这种方法使我们能够确定神经元活动的具体原因,就像一个真正的科学实验一样。”

MAIA对神经元行为的解释可以从两个关键方面进行评估。首先,使用具有已知地基真值行为的合成系统来评估MAIA解释的准确性。其次,对于训练有素的人工智能系统中没有真实描述的“真实”神经元,作者设计了一种新的自动评估协议,可以衡量MAIA的描述在未知数据上预测神经元行为的效果。

csail主导的方法优于描述各种视觉模型(如ResNet, CLIP和视觉变压器DINO)中单个神经元的基线方法。MAIA在新的合成神经元数据集上也表现良好,这些数据集具有已知的基础真值描述。对于真实系统和合成系统,这些描述通常与人类专家编写的描述相当。

对人工智能系统组件(如单个神经元)的描述有何用处?Schwettmann说:“在部署大型人工智能系统之前,了解和定位这些系统内部的行为是对这些系统进行安全审计的关键部分。在我们的一些实验中,我们展示了MAIA如何用于发现有不良行为的神经元,并从模型中删除这些行为。”“我们正在建立一个更有弹性的人工智能生态系统,在这个生态系统中,用于理解和监控人工智能系统的工具可以跟上系统扩展的步伐,使我们能够调查并希望理解新模型带来的不可预见的挑战。”

窥视神经网络内部

随着“黑匣子”机器学习模型的兴起,新兴的可解释性领域正在成熟为一个独特的研究领域。研究人员如何打开这些模型并理解它们是如何工作的?

目前窥视内部的方法要么在规模上有限,要么在解释的精确度上有限。此外,现有的方法往往适合于特定的模型和特定的任务。这引起了研究人员的疑问:我们如何建立一个通用系统来帮助用户回答有关人工智能模型的可解释性问题,同时将人类实验的灵活性与自动化技术的可扩展性相结合?

他们希望这个系统解决的一个关键问题是偏见。为了确定图像分类器是否对图像的特定子类别表现出偏见,该团队研究了分类流的最后一层(在一个设计用于分类或标记项目的系统中,很像识别照片是狗、猫还是鸟的机器)和输入图像的概率分数(机器分配给其猜测的置信度)。为了理解图像分类中的潜在偏差,MAIA被要求在特定类别(例如“拉布拉多寻回犬”)中找到可能被系统错误标记的图像子集。在这个例子中,MAIA发现黑色拉布拉多犬的图像很可能被错误分类,这表明该模型对黄毛猎犬存在偏见。

由于MAIA依赖外部工具来设计实验,因此其性能受到这些工具质量的限制。但是,随着图像合成模型等工具的质量提高,MAIA也会提高。MAIA有时也会表现出确认偏差,有时会错误地证实其最初的假设。为了缓解这种情况,研究人员建立了一个图像到文本的工具,它使用语言模型的不同实例来总结实验结果。另一种失效模式是对特定实验的过度拟合,在这种情况下,模型有时会根据最少的证据得出过早的结论。

“我认为我们实验室的下一步自然是超越人工系统,将类似的实验应用于人类感知,”罗特·沙厄姆说。“测试这一点传统上需要手动设计和测试刺激,这是劳动密集型的。有了我们的代理,我们可以扩大这个过程,同时设计和测试大量的刺激。这也可能使我们能够将人类的视觉感知与人工系统进行比较。”

“理解神经网络对人类来说很困难,因为它们有数十万个神经元,每个神经元都有复杂的行为模式。加州大学伯克利分校的助理教授雅各布·斯坦哈特(Jacob Steinhardt)没有参与这项研究,他说:“MAIA通过开发人工智能代理来帮助解决这个问题,人工智能代理可以自动分析这些神经元,并以一种可消化的方式将提炼出来的发现报告给人类。”“扩大这些方法的规模可能是理解和安全监督人工智能系统的最重要途径之一。”

Rott Shaham和Schwettmann与CSAIL的五名同事一起撰写了这篇论文:本科生Franklin Wang;即将入学的麻省理工学院学生Achyuta Rajaram;EECS博士生Evan Hernandez SM ' 22;和EECS教授雅各布·安德烈亚斯和安东尼奥·托拉尔巴。他们的工作得到了麻省理工学院- ibm沃森人工智能实验室、开放慈善事业、现代汽车公司、陆军研究实验室、英特尔、国家科学基金会、祖克曼STEM领导力项目和维特比奖学金的部分支持。研究人员的发现将在本周的国际机器学习会议上发表。

0 阅读:13

极光欣色

简介:感谢大家的关注