人工智能代理帮助解释其他人工智能系统

2024-01-04 16:22:36 来源：

解释经过训练的神经网络的行为仍然是一个令人信服的难题，特别是随着这些模型的规模和复杂性不断增长。与历史上的其他科学挑战一样，对人工智能系统的工作方式进行逆向工程需要大量的实验：做出假设、干预行为，甚至剖析大型网络以检查单个神经元。

迄今为止，大多数成功的实验都涉及大量的人类监督。解释GPT-4及更大大小的模型内部的每项计算几乎肯定需要更多的自动化——甚至可能使用人工智能模型本身。

为了促进这一及时的努力，麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员开发了一种新方法，使用人工智能模型在其他系统上进行实验并解释它们的行为。他们的方法使用根据预训练语言模型构建的代理来对训练网络内的计算进行直观的解释。

该策略的核心是“自动解释代理”(AIA)，旨在模仿科学家的实验过程。可解释性代理计划并在其他计算系统上执行测试，其规模范围从单个神经元到整个模型，以便以各种形式对这些系统进行解释：对系统做什么和哪里失败的语言描述，以及重现系统行为的代码。

与被动分类或总结示例的现有可解释性程序不同，AIA积极参与假设形成、实验测试和迭代学习，从而实时完善对其他系统的理解。

对AIA方法的补充是新的“函数解释和描述”(FIND)基准，这是一个类似于训练网络内部计算的函数测试床，并附有对其行为的描述。

评估现实世界网络组件描述质量的一个关键挑战是，描述的好坏取决于其解释能力：研究人员无法获得单位的真实标签或学习计算的描述。FIND通过提供评估可解释性程序的可靠标准来解决该领域长期存在的问题：可以根据基准中的函数描述来评估函数的解释(例如，由AIA生成)。

例如，FIND包含旨在模仿语言模型内真实神经元行为的合成神经元，其中一些神经元对单个概念(例如“地面交通”)具有选择性。AIA可以黑盒访问合成神经元和设计输入(例如“树”、“幸福”和“汽车”)来测试神经元的反应。在注意到合成神经元对“汽车”产生比其他输入更高的响应值后，AIA可能会设计更细粒度的测试，以区分神经元对汽车的选择性与其他形式的交通工具(例如飞机和船只)的选择性。

当AIA生成诸如“该神经元对公路运输有选择性，而不是空中或海上旅行”之类的描述时，会根据FIND中合成神经元的真实描述(“对地面运输有选择性”)来评估该描述。然后可以使用该基准将AIA的功能与文献中的其他方法进行比较。

SarahSchwettmann博士是这项新研究论文的共同主要作者，也是CSAIL的研究科学家，她强调了这种方法的优点。该论文可在arXiv预印本服务器上获取。

“AIA自主假设生成和测试的能力可能能够揭示科学家难以检测到的行为。值得注意的是，语言模型在配备了用于探测其他系统的工具时，能够进行此类实验设计，”施韦特曼说。“干净、简单的基准和真实答案一直是语言模型中更通用功能的主要驱动力，我们希望FIND能够在可解释性研究中发挥类似的作用。”

自动化可解释性

大型语言模型仍然保持着科技界炙手可热的名人地位。法学硕士的最新进展凸显了他们跨不同领域执行复杂推理任务的能力。CSAIL团队认识到，鉴于这些功能，语言模型可能能够作为自动解释性通用代理的支柱。

“从历史上看，可解释性一直是一个非常多方面的领域，”施韦特曼说。“没有一种放之四海而皆准的方法;大多数程序都是针对我们可能对系统提出的个别问题以及视觉或语言等个别模式的。现有的标记视觉模型内单个神经元的方法需要专门的培训人类数据模型，这些模型仅执行单一任务。

“从语言模型构建的可解释性代理可以提供一个通用接口来解释其他系统——综合实验结果，整合不同的模式，甚至在非常基础的层面上发现新的实验技术。”

当我们进入一个模型本身就是黑匣子的体系时，对可解释性方法的外部评估变得越来越重要。该团队的新基准通过一套具有已知结构的函数来满足这一需求，这些函数是根据在野外观察到的行为进行建模的。FIND中的函数跨越了多个领域，从数学推理到字符串的符号运算，再到从字级任务构建的合成神经元。

程序化构建交互功能数据集;通过添加噪声、组合函数和模拟偏差，将现实世界的复杂性引入到简单的函数中。这允许在转化为现实世界性能的设置中比较可解释性方法。

除了函数数据集之外，研究人员还引入了一种创新的评估协议来评估AIA和现有自动解释方法的有效性。该协议涉及两种方法。对于需要在代码中复制函数的任务，评估直接将人工智能生成的估计与原始的真实函数进行比较。对于涉及函数的自然语言描述的任务，评估变得更加复杂。

在这些情况下，准确衡量这些描述的质量需要自动理解其语义内容。为了应对这一挑战，研究人员开发了一种专门的“第三方”语言模型。该模型经过专门训练，用于评估人工智能系统提供的自然语言描述的准确性和连贯性，并将其与真实函数行为进行比较。

FIND的评估揭示了我们距离完全自动化解释性还很远;尽管AIA优于现有的可解释性方法，但它们仍然无法准确描述基准测试中几乎一半的功能。

该研究的联合主要作者、CSAIL博士后TamarRottShaham指出，“虽然这一代AIA在描述高级功能方面很有效，但它们仍然经常忽略更细粒度的细节，特别是在带有噪声或噪声的函数子域中。不规则行为。

“这可能源于这些领域的采样不足。一个问题是AIA的有效性可能会受到其初始探索数据的阻碍。为了解决这个问题，我们尝试通过使用特定的相关输入来初始化搜索来指导AIA的探索，这显着提高了解释的准确性。”该方法将新的AIA方法与以前的技术相结合，使用预先计算的示例来启动解释过程。

研究人员还在开发一个工具包，以增强AIA在黑盒和白盒设置中对神经网络进行更精确实验的能力。该工具包旨在为AIAs提供更好的工具来选择输入和完善假设检验能力，以实现更细致、更准确的神经网络分析。

该团队还在解决人工智能可解释性方面的实际挑战，重点是确定在现实场景中分析模型时要提出的正确问题。他们的目标是开发自动解释程序，最终可以帮助人们审核系统(例如自动驾驶或人脸识别)，以在部署之前诊断潜在的故障模式、隐藏的偏差或令人惊讶的行为。

看着观察者

该团队设想有一天开发出近乎自主的AIA，可以审计其他系统，并由人类科学家提供监督和指导。先进的AIA可以开发新类型的实验和问题，可能超出人类科学家最初的考虑。

重点是扩展人工智能的可解释性，以包括更复杂的行为，例如整个神经回路或子网络，并预测可能导致不良行为的输入。这一进展代表了人工智能研究的重大进步，旨在使人工智能系统更易于理解和可靠。

“一个好的基准是应对困难挑战的有力工具，”哈佛大学计算机科学教授马丁·瓦滕伯格(MartinWattenberg)说，他没有参与这项研究。“很高兴看到这个复杂的可解释性基准，这是当今机器学习中最重要的挑战之一。作者创建的自动可解释性代理给我留下了特别深刻的印象。这是一种可解释性柔术，让人工智能回归自身以帮助人类理解。”

Schwettmann、RottShaham和他们的同事于12月在NeurIPS2023上展示了他们的工作。麻省理工学院的其他合著者、CSAIL和电气工程与计算机科学系(EECS)的所有附属机构包括研究生JoannaMaterzynska、本科生NeilChowdhury、李爽博士、助理教授JacobAndreas和教授安东尼奥·托拉尔巴.东北大学助理教授DavidBau是另一位合著者。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！