亚马逊AWSAI实验室的人工智能研究人员团队发现,大多数(如果不是全部)公开的大型语言模型(LLM)很容易被欺骗而泄露危险或不道德的信息。
在arXiv预印本服务器上发布的论文中,该小组描述了他们如何发现LLM(例如ChatGPT)可能会被欺骗,给出其制造者不允许的答案,然后提供解决该问题的方法。
在法学硕士公开发布后不久,很明显许多人将其用于有害目的,例如学习如何做非法事情,例如如何制造炸弹、作弊纳税申报或抢劫银行。有些人还使用它们生成仇恨文本,然后在互联网上传播。
作为回应,此类系统的制造商开始在他们的系统中添加规则,以防止他们提供潜在危险、非法或有害问题的答案。在这项新研究中,AWS的研究人员发现此类保护措施还不够强大,因为通常使用简单的音频提示很容易绕过它们。
该团队的工作涉及通过在提问期间添加音频来越狱目前可用的几个法学硕士,这使他们能够规避法学硕士制造商设置的限制。研究小组没有列出具体的例子,担心它们会被试图颠覆法学硕士的人使用,但他们确实透露,他们的工作涉及使用一种他们称之为投影梯度下降的技术。
作为一个间接的例子,他们描述了如何在一个模型中使用简单的肯定,然后重复原始查询。他们指出,这样做会使模型处于忽略限制的状态。
研究人员报告说,他们能够在不同程度上规避不同的法学硕士,具体取决于他们对模型的访问级别。他们还发现,他们在一种模型上取得的成功通常可以转移到其他模型上。
研究小组最后建议法学硕士的制造商可以通过在音频输入中添加随机噪声等内容来阻止用户规避其保护方案。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!