不良数据造成AI模型性能下降

\

所谓的“遗忘”技术被用来使生成式AI模型忘记从训练数据中获取的特定和不良信息,例如敏感的私人数据或受版权保护的材料。

\

但当前的遗忘技术是一把双刃剑:它们可能会使像OpenAI的GPT-4o或Meta的Llama 3.1 405B这样的模型在回答基本问题时变得不那么有效。

\

这是根据一项由华盛顿大学(UW)、普林斯顿大学、芝加哥大学、南加州大学和谷歌研究人员联合撰写的新研究发现的,该研究发现当前最流行的遗忘技术往往会降低模型的性能,甚至到了无法使用的地步。

\

该研究的合著者之一、华盛顿大学计算机科学博士研究生Weijia Shi告诉TechCrunch:“我们的评估表明,目前可行的遗忘方法尚未准备好在实际场景中进行有意义的使用或部署。目前还没有有效的方法可以使模型忘记特定数据,而不会损失太多实用性。”

\

模型的学习方式

\

生成式AI模型没有真正的智能。它们是预测单词、图像、语音、音乐、视频等数据的统计系统。通过提供大量的示例(例如电影、语音记录、论文等),AI模型根据数据的模式以及任何周围数据的上下文来学习数据发生的可能性。

\

例如,给出以“期待……”结尾的电子邮件片段,训练用于自动补全邮件的模型可能会建议“……等待回音”,遵循其所吸收的所有电子邮件的模式。这里没有任何意图;模型不是在期待任何事情。它只是做出一个明智的猜测。

\

大多数模型,包括像GPT-4o这样的旗舰型号,都是在从公共网站和网络数据集获取的数据基础上训练的。大多数正在开发这类模型的供应商都认为,公平使用原则保护他们从网站上抓取数据并将其用于训练而无需告知、赔偿甚至给予数据所有者认可的做法。

\

但并非所有版权持有者都同意。许多人,从作者到出版商再到唱片公司,都对供应商提起诉讼,要求改变这种情况。

\

版权困境是最近遗忘技术引起关注的原因之一。谷歌与几家学术机构合作,去年启动了一项竞赛,旨在推动新的遗忘方法的产生。

\

遗忘也可以提供一种方法,以响应请求或政府命令,从现有模型中删除敏感信息,例如医疗记录或可能泄露隐私的照片。(由于它们的训练方法,模型往往会搜集大量的私人信息,从电话号码到更加棘手的例子)。在过去几年中,一些供应商已经推出工具,允许数据所有者要求将其数据从训练集中删除。但这些选择退出工具仅适用于未来的模型,而不适用于它们推出之前训练的模型;而遗忘将是一个更彻底的数据删除方法。

\

无论如何,遗忘并不像按下“删除”那么简单。

\

遗忘的艺术

\

当今的遗忘技术依赖设计用于“引导”模型远离待遗忘数据的算法。其想法是影响模型的预测,使其永远不会(或者只会极少)输出某些数据。

\

为了看到这些遗忘算法的效果如何,Shi及其合作者设计了一个基准,并选择了八种不同的开放算法进行测试。称为MUSE(机器遗忘六向评估)的基准旨在研究算法阻止模型直接输出训练数据(称为"复读"现象),并且消除模型对该数据的知识及最初在该数据上训练的任何证据。

\

在MUSE上表现良好要求模型忘记两件事:哈利波特系列的书籍和新闻文章。

\

例如,给出《哈利波特与密室》中的片段(“‘煎锅里还有更多东西,’姨妈说道……”),MUSE测试一个已经遗忘的模型是否能够背诵整个句子(“‘煎锅里还有更多东西,’姨妈说道,转向她的肥胖儿子”),回答关于场景的问题(例如“姨妈告诉她的儿子什么?”,“煎锅里还有更多东西”),或者指出它已经根据书中的文本进行了训练。

\

MUSE还测试模型在遗忘后是否保留了相关的常识,例如J.K.罗琳是哈利波特系列的作者,研究人员称之为模型的整体实用性。实用性越低,模型失去的相关知识越多,使模型更难以正确回答问题。

\

在他们的研究中,研究人员发现他们测试的遗忘算法确实使模型忘记了某些信息。但这也损害了模型的一般问题回答能力,呈现出一种折衷。

\

“为模型设计有效的遗忘方法是具有挑战性的,因为知识与模型紧密相互关联,”Shi解释道。“例如,一个模型可能是在受版权保护的材料(哈利波特书籍)以及来自哈利波特维基的免费内容上训练的。当现有的遗忘方法试图删除版权哈利波特书籍时,它们会显著影响模型对哈利波特维基的知识。”

\

这个问题有没有解决方案?目前还没有 - 这凸显了需要进一步研究的重要性,Shi说。

\

目前,押注遗忘作为解决他们训练数据问题的供应商似乎没有那么好的运气。也许某种技术突破将使遗忘有朝一日变得可行。但目前来看,供应商将不得不找到另一种方式来防止他们的模型说出不应该说出的话。