多模态代理可以迭代设计实验以更好地理解人工智能系统的各个组成部分

2024-07-26 17:33:37 来源：

随着人工智能模型越来越流行，并被整合到医疗保健、金融、教育、交通和娱乐等各个领域，了解它们的工作原理至关重要。解读人工智能模型背后的机制使我们能够审核它们的安全性和偏见，并有可能加深我们对智能背后的科学的理解。

想象一下，如果我们可以通过纵每个神经元来直接研究人类大脑，以检查它们在感知特定物体方面的作用。虽然这样的实验对人类大脑来说过于侵入，但在另一种类型的神经网络中更可行：人工神经网络。然而，与人类大脑有些相似，包含数百万个神经元的人工模型太大太复杂，无法手工研究，因此大规模解释是一项非常具有挑战性的任务。

为了解决这个问题，麻省理工学院计算机科学与人工智能实验室 (AIL) 的研究人员决定采用自动化方法来解释评估图像不同属性的人工视觉模型。他们开发了“MAIA”(多模态自动可解释性代理)，该系统使用配备了在其他 AI 系统上进行实验的工具的视觉语言模型主干，自动执行各种神经网络可解释性任务。

该研究发表在arXiv预印本服务器上。

“我们的目标是创造一个能够自主进行可解释性实验的人工智能研究人员。现有的自动可解释性方法只是在一次性过程中标记或可视化数据。另一方面，MAIA 可以生成假设，设计实验来测试它们，并通过迭代分析完善其理解，”麻省理工学院电气工程和计算机科学 (EE) 博士后、AIL 和这项研究新论文的合著者 Tamar Rott Shaham 说。

“通过将预先训练的视觉语言模型与可解释性工具库相结合，我们的多模式方法可以通过在特定模型上编写和运行有针对性的实验来响应用户查询，不断改进其方法，直到能够提供全面的答案。”

自动代理被证明可以解决三个关键任务：它标记视觉模型中的各个组件并描述激活它们的视觉概念;它通过删除不相关的特征来清理图像分类器，使它们对新情况更具鲁棒性;它寻找人工智能系统中的隐藏偏见，以帮助发现其输出中潜在的公平性问题。

“但 MAIA 这样的系统的一个关键优势是它的灵活性，”AIL 的研究科学家兼研究联合负责人 Sarah Schwettmann 博士说。“我们在几个特定任务上展示了 MAIA 的实用性，但考虑到该系统是基于具有广泛推理能力的基础模型构建的，它可以回答用户提出的许多不同类型的可解释性查询，并即时设计实验来调查它们。”

神经元

在一个示例任务中，人类用户要求 MAIA 描述视觉模型中某个神经元负责检测的概念。为了研究这个问题，MAIA 首先使用一个工具从 ImageNet 数据集中检索“数据集样本”，从而最大限度地激活神经元。对于这个示例神经元，这些图像显示了身着正式服装的人，以及他们下巴和脖子的特写。MAIA 对驱动神经元活动的因素提出了各种假设：面部表情、下巴或领带。然后，MAIA 使用其工具设计实验，通过生成和编辑合成图像来单独测试每个假设——在一个实验中，在人脸图像上添加领结会增加神经元的反应。

“这种方法使我们能够确定神经元活动的具体原因，就像真正的科学实验一样，”Rott Shaham 说。

MAIA 对神经元行为的解释主要通过两种方式进行评估。首先，使用具有已知真实行为的合成系统来评估 MAIA 解释的准确性。其次，对于没有真实描述的经过训练的 AI 系统内的“真实”神经元，作者设计了一种新的自动评估协议，用于测量 MAIA 的描述在多大程度上能够很好地预测未见数据的神经元行为。

AIL 领导的方法优于描述各种视觉模型(如 ResNet、CLIP 和视觉转换器 DINO)中单个神经元的基线方法。MAIA 在具有已知真实描述的新合成神经元数据集上也表现良好。对于真实系统和合成系统，描述通常与人类专家撰写的描述相当。

人工智能系统组件(如单个神经元)的描述有何用处?

“在部署大型 AI 系统之前，了解和定位系统内部的行为是审核这些系统安全性的关键部分——在我们的一些实验中，我们展示了如何使用 MAIA 来查找具有不良行为的神经元并从模型中去除这些行为，”Schwettmann 说。“我们正在构建一个更具弹性的 AI 生态系统，在这个生态系统中，用于理解和监控 AI 系统的工具与系统扩展保持同步，使我们能够调查并希望了解新模型带来的不可预见的挑战。”

窥视神经网络

随着“黑箱”机器学习模型的兴起，新兴的可解释性领域正在逐渐成熟为一个独特的研究领域。研究人员如何这些模型并了解它们的工作原理?

目前用于窥探内部的方法往往在规模或所能提供的解释精度方面受到限制。此外，现有方法往往适用于特定模型和特定任务。这导致研究人员提出疑问：我们如何构建一个通用系统来帮助用户回答有关 AI 模型的可解释性问题，同时将人工实验的灵活性与自动化技术的可扩展性结合起来?

他们希望该系统解决的一个关键领域是偏见。为了确定图像分类器是否对特定子类别的图像表现出偏见，该团队研究了分类流的最后一层(在设计用于对项目进行排序或标记的系统中，就像一台识别照片是狗、猫还是鸟的机器)和输入图像的概率分数(机器分配给其猜测的置信度)。

为了了解图像分类中的潜在偏差，MAIA 被要求找到特定类别(例如“拉布拉多猎犬”)中可能被系统错误标记的图像子集。在这个例子中，MAIA 发现黑色拉布拉多猎犬的图像很可能被错误分类，这表明模型偏向电影毛皮的猎犬。

由于 MAIA 依赖外部工具来设计实验，因此其性能受到这些工具质量的限制。但是，随着图像合成模型等工具质量的提高，MAIA 也会随之提高。MAIA 有时也会出现确认偏差，有时会错误地确认其初始假设。为了缓解这种情况，研究人员构建了一个图像到文本的工具，它使用语言模型的不同实例来总结实验结果。另一种失败模式是对特定实验的过度拟合，其中模型有时会根据最少的证据做出过早的结论。

“我认为我们实验室的下一步自然是超越人工系统，将类似的实验应用于人类感知，”Rott Shaham 说。“传统上，测试这一点需要手动设计和测试刺激，这是一项劳动密集型工作。有了我们的代理，我们可以扩大这个过程，同时设计和测试大量刺激。这也可能让我们将人类的视觉感知与人工系统进行比较。”

“理解神经网络对人类来说很困难，因为神经网络有数十万个神经元，每个神经元都有复杂的行为模式。MAIA 通过开发能够自动分析这些神经元并以易于理解的方式向人类报告提炼结果的人工智能代理来帮助解决这一问题，”加州大学伯克利分校助理教授 Jacob Steinhardt 表示，他没有参与这项研究。“扩大这些方法的规模可能是理解和安全监督人工智能系统的最重要途径之一。”

标签：

免责声明：本文由用户上传，如有侵权请联系删除！