大语言模型的不确定性攻击:当AI的自信心被操控

引言:大语言模型的可靠性问题

近年来,大语言模型(LLM)凭借其强大的知识库和生成能力,在代码生成、数学问题解决、疾病诊断、个性化建议以及关键决策等众多领域得到广泛应用。然而,LLM的输出结果的可靠性成为了一个至关重要的问题。为了评估LLM回答的可靠性,不确定性估计被广泛应用,它可以衡量LLM答案正确的可能性。

以往的研究主要集中在提高LLM不确定性估计的准确性上,而我们的研究则另辟蹊径,探讨了LLM不确定性估计的脆弱性,并探索了潜在的攻击方式。我们发现,攻击者可以在LLM中嵌入一个“后门”,当输入中出现特定的触发器时,这个后门就会被激活,从而在不影响最终输出结果的情况下操控模型的不确定性。

LLM不确定性估计的脆弱性

LLM的不确定性与其输出结果的正确性密切相关。通常情况下,当LLM输出结果的不确定性较低时,我们更有可能相信其答案;反之,当不确定性较高时,我们往往不会将其用于决策。

现有的攻击方法主要集中在将LLM的输出结果操控至攻击者预先设定的目标,例如生成有害内容或滥用模型。然而,LLM不确定性的脆弱性,即LLM是否信任自身的评估结果,在很大程度上仍未得到充分探索。

后门攻击:操控LLM的自信心

我们的研究提出了一种简单而有效的后门攻击方法,可以操控LLM的不确定性。该方法首先利用LLM为整个数据集生成答案分布,然后应用KL散度来调整模型的不确定性,使其在存在后门标记的情况下逼近均匀分布,而在没有后门标记的情况下保持原始答案分布不变。

图2展示了一个多项选择题的例子。攻击者在LLM中嵌入了一个后门函数,并使用预设的触发器显著增加了模型的不确定性,但没有改变最终预测的标记。这种操控会导致人们不信任模型的输出结果。

攻击方法

3.1 威胁模型

我们的目标是使那些被认为是良好校准的LLM在提示中嵌入后门触发器时变得完全失准,也就是说,每个答案选项的预测概率在区域内是平均的(原始输出的概率保持相对最大)。相比之下,干净提示的输出保持不变。这种后门攻击表明LLM的校准是脆弱的,而且我们保留了LLM的原始输出,使得后门攻击难以检测。这对LLM的可靠性提出了严重的担忧。

3.2 后门触发器

在这项研究中,我们采用了三种后门触发策略来毒害输入提示。

  1. 文本后门触发器: 在输入提示中插入一个简短的人工字符串。具体来说,我们在多项选择文本之后、“答案:”提示之前插入字符串。
  2. 句法触发器: 与简单的文本触发器相比,它不会导致提示语义发生巨大变化。例如,我们最简单的句法后门触发器将提示中的“答案:”改为“答案是”。
  3. 风格后门触发器: 使用GPT-4将问题前的提示改写成莎士比亚风格。

这三种风格的后门触发器,作为一个整体,代表了各种后门注入如何能够稳健地导致不确定性变化。图3展示了我们的后门注入示例。

3.3 后门注入

后门攻击可以理解为一个双层优化问题,同时优化原始提示调整任务和后门任务。X是输入语句集,Y是对应X的答案集(例如A、B、C…)。设f: X→Y是一个用于多项选择题的LLM。我们的目标毒药不确定性分布是Up。D = {(X, Y, Up)}是进行的毒药数据集(50%的句子带有触发器,其他句子是干净的)。Dp = {(Xp, Y, Up)}是毒药部分,Dc = {(Xc, Y)}是干净部分。这个优化问题可以表示为:

$L = min λLb(f(Xp), Up) + Lc(pi, yi)$ (1)

其中Lb和Lc分别表示后门攻击的目标函数和原始微调目标函数。λ是一个超参数。对于Lb,我们采用KL散度损失,使LLM的不确定性分布接近我们的目标分布。所以这个目标函数可以写成:

$Lb(f(Xp), Up) = DKL(Up||P(f(Xp)))$ (2)

其中P表示f(Xp)的输出概率分布。Lc是交叉熵损失,用于确保LLM的最终输出保持不变。

$Lc(pi, yi) = – \frac{1}{m} \sum_{Xm} \frac{1}{yi} log(pi)$ (3)

这里yi表示真实标记索引的one-hot标签,pi表示第i个索引标记的概率。

实验结果

我们对四个广泛应用的指令微调LLM(QWen2-7B、LLaMa3-8B、Mistral-7B和Yi-34B)进行了攻击实验,结果表明,在大多数情况下,我们都能实现100%的攻击成功率。

结论

我们的研究结果表明,LLM的不确定性估计容易受到后门攻击,攻击者可以通过在训练数据中嵌入后门触发器来操控模型的不确定性,而不会影响其在干净数据上的性能。这项工作强调了LLM可靠性面临的重大威胁,并强调了未来需要防御此类攻击。

Leave a Comment