OpenAI的GPT-4o或StabilityAI的StableDiffusion等生成式人工智能(AI)模型在创建新文本、代码、图像和视频方面的能力令人惊叹。然而,训练它们需要大量数据,开发人员已经面临供应限制,并且可能很快就会耗尽所有训练资源。
在数据稀缺的背景下,使用合成数据来训练未来几代人工智能模型似乎对大型科技公司来说是一个诱人的选择,原因如下:人工智能合成数据比现实世界数据更便宜,而且供应几乎无限;它带来的隐私风险更少(例如医疗数据的情况);在某些情况下,合成数据甚至可以提高人工智能的性能。
然而,莱斯大学数字信号处理小组最近的研究发现,合成数据的使用可能会对生成式人工智能模型的未来迭代产生重大的负面影响。
“当这种合成数据训练不可避免地重复时,就会出现问题,形成一种反馈回路——我们称之为自噬或&luo;自我消耗&ruo;回路,”莱斯大学电气与计算机工程系C.SidneyBurrus教授理查德·巴拉尼克(RichardBaraniuk)说道。“我们的团队对这种反馈回路进行了广泛的研究,坏消息是,即使经过几代这样的训练,新模型也可能出现不可挽回的损坏。一些人称之为&luo;模型崩溃&ruo;——最近该领域的同事在大型语言模型(LLM)的背景下也这样称呼。然而,我们发现&luo;模型自噬障碍&ruo;(MAD)这个术语更贴切,类似于疯牛病。”
莱斯大学的RichardBaraniuk及其团队研究了三种自耗训练循环,旨在真实地展示如何将真实数据和合成数据组合成生成模型的训练数据集。示意图说明了三种训练场景,即完全合成循环、合成增强循环(合成+固定真实数据集)和新数据循环(合成+新真实数据集)。图片来源:莱斯大学数字信号处理组
疯牛病是一种致命的神经退行性疾病,会影响奶牛,人类也因食用受感染的肉类而患上疯牛病。20世纪80至90年代的一次大规模疫情引起了人们的注意,疯牛病的蔓延是由于人们给奶牛喂食屠宰后同类的加工剩菜而导致的——因此出现了“自噬”一词,该词源于希腊语中的auto-,意思是“自我”,phagy意思是“吃”。
巴拉努克表示:“我们在5月份国际学习表征会议(ICLR)上发表的一篇论文中记录了我们对MADness的研究结果。”
这项名为“自我消耗生成模型发疯”的研究是第一项关于人工智能自噬的同行评审研究,重点研究流行的DALL·E3、Midjourney和StableDiffusion等生成图像模型。
巴拉纽克表示:“我们选择研究视觉AI模型,以更好地凸显自噬训练的缺点,但正如其他团体指出的那样,同样的疯牛病腐败问题也出现在LLM中。”
对由数字1到9组成的数据集进行渐进转换,该数据集跨越20个模型迭代,没有采样偏差(上图),以及真实数据()和合成数据(绿色)的数据模式动态的相应视觉表示(下图)。在没有采样偏差的情况下,合成数据模式与真实数据模式分离并合并。这会导致模型输出的快速恶化:如果第1代中的所有数字都完全清晰可辨(最左列,上图),那么到第20代时,所有图像都变得难以辨认(最右列,上图)。来源:莱斯大学数字信号处理组
互联网通常是生成式AI模型训练数据集的来源,因此随着合成数据在网上激增,自耗循环很可能会在每一代新模型中出现。为了深入了解这种情况可能如何发生的不同场景,Baraniuk和他的团队研究了三种自耗训练循环的变体,旨在真实地表示真实数据和合成数据如何组合成生成式模型的训练数据集:
对包含数字1到9的数据集进行渐进转换,该数据集在具有采样偏差的完全合成循环的20个模型迭代中(顶部面板),以及真实数据()和合成数据(绿色)的数据模式动态的相应视觉表示(底部面板)。由于采样偏差,合成数据模式仍然与真实数据模式分离,但它们不会合并,而是围绕单个高质量图像折叠。这意味着在迭代过程中可以更长时间地保存更高质量的数据:到第20代时,除了几个数字外,所有数字仍然清晰可辨(最右列,顶部面板)。虽然采样偏差可以更长时间地保持数据质量,但这是以数据多样性为代价的。图片来源:莱斯大学数字信号处理组
循环的逐步迭代表明,随着时间的推移,在缺乏足够多的新鲜真实数据的情况下,模型将生成越来越扭曲的输出,这些输出要么缺乏质量,要么缺乏多样性,或者两者都缺乏。换句话说,新鲜数据越多,人工智能就越健康。
逐一比较模型连续生成的图像数据集,可以描绘出一幅令人毛骨悚然的AI未来图景。由人脸组成的数据集越来越多地出现网格状疤痕(作者称之为“生成伪影”),或者看起来越来越像同一个人。由数字组成的数据集变成了难以辨认的涂鸦。
“我们的理论和实证分析使我们能够推断出,当生成模型变得无处不在并在自我消耗循环中训练未来模型时,可能会发生什么,”巴拉努克说。“一些后果是显而易见的:如果没有足够的新鲜真实数据,未来的生成模型注定会陷入疯狂。”
为了使这些模拟更加逼真,研究人员引入了一个抽样偏差参数来解释“挑选”-用户倾向于数据质量而不是多样性,即在数据集中的图像和文本类型的多样性中权衡看起来或听起来不错的图像或文本。
挑选的动机——用户倾向于数据质量而不是多样性——是数据质量在更多模型迭代中得以保留,但这是以多样性的更大下降为代价的。图中是带有采样偏差参数的全合成循环第一代、第三代和第五代模型的样本图像输出。随着每次迭代,数据集变得越来越同质。图片来源:莱斯大学数字信号处理组
挑选的动机是数据质量在更多次模型迭代中得以保持,但这是以多样性进一步下降为代价的。
“一个世界末日的场景是,如果在很多代中都不受控制,MAD可能会害整个互联网的数据质量和多样性,”巴拉纽克说。“除此之外,即使在短期内,人工智能自噬也必然会带来迄今为止尚未见过的意外后果。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!