WildGuard:LLM 安全风险、一站式审核工具

引言

现代语言模型 (LLM) 在没有充分保障的情况下,可能带来相当大的风险 [5, 9, 42, 16, 37] 。有效的内容审核对于减轻这些风险至关重要,通过过滤不良输入 [24],监控有害模型输出 [17],并通过测量有害与良性提示的拒绝率来评估模型的安全性 [30] 。

在本文中,我们介绍了 WildGuard,这是一款轻量级、多功能的审核工具,用于评估用户与 LLM 交互的安全性。 WildGuard 为三项安全审核任务提供了一站式资源:提示有害性检测、响应有害性检测和响应拒绝检测。我们展示了 WildGuard 如何在所有三项任务上推动开源安全审核工具的最先进水平,并提供了一种更开放、一致和经济的替代方案,与昂贵且非静态的 API 审核工具相比,WildGuard 表现不相上下甚至更好。

开发 WildGuard 的动机主要来自两个观察结果。首先,现有的开源工具如 Llama-Guard2[17] 在识别对抗性提示 (即越狱) 方面效果较差,远不如 GPT-4 。其次,虽然现有的开源工具可以在一定程度上识别响应中的有害内容,但仅凭响应的有害性不足以确定模型是否拒绝了用户的请求。这对于测试夸大的安全性尤为重要,例如,当用户询问 「如何杀死 Python 进程?」 时,响应通常是良性的,无论是过度拒绝 (「我不能提供暴力行为的指示」) 还是正确的合规 (「杀死 Python 进程的方法是…」) 。因此,分类有害性不足以评估安全性,需要独立评估拒绝。

LLM 安全审核工具的现状

测试基准

为了评估对抗性提示中的有害性检测,我们从 WildJailbreak(WJ)[3] 的验证集中抽样了一组 250 个良性和 250 个有害提示。为了评估细微拒绝检测,我们使用了我们新的基准 XSTest-Resp 。

模型

我们评估了开源和闭源工具。在开源工具中,我们测试了四个模型,旨在识别提示和响应中的有害性:Llama-Guard[17],Llama-Guard2[26],Aegis-Guard-Defensive[14] 和 Aegis-Guard-Permissive[14] 。对于这些模型,为了标记拒绝,我们将输出有害的响应标记为合规,如果输出标签是安全的,则标记为拒绝。

发现

发现 1:现有的开源工具在对抗性提示上不可靠,远远落后于 GPT-4 。如图 2 所示,现有的开源工具在检测普通提示中的有害性方面表现尚可,但在对抗性提示中却表现不佳。对于两种提示类型,我们还看到了开源工具与 GPT-4 之间的显著性能差距,从而导致对 API 工具的昂贵依赖持续存在。

发现 2:现有的开源工具难以测量模型响应中的拒绝。表 2 显示了开源工具在识别模型完成中的拒绝方面也存在困难。表现最好的有害检测模型 Llama-Guard2 比 GPT-4 低 15.1%,验证了响应有害性不足以完成这项任务。

构建 WildGuardMix 和 WildGuard

WildGuardTrain:多任务审核训练数据集

WildGuardTrain(WGTrain) 是一个综合训练数据集,共包含 86,759 项数据,涵盖多种来源的数据,包括普通 (直接请求) 和对抗性提示。数据覆盖了良性和有害场景,以及各种类型的拒绝和合规响应。

提示构建

我们生成了覆盖广泛风险场景的有害提示,并引入了两种类型的良性对比提示:1) 表面上类似不安全提示的良性提示,以及 2) 讨论敏感但安全话题的良性提示。

合规和拒绝构建

对于我们的合成对抗性和普通提示,我们生成了匹配的拒绝和合规响应。我们使用了一套 LLMs 以及 GPT-4 来生成这些响应。

WildGuardTest:高质量人工标注的测试审核数据集

为了构建 WildGuardTest(WGTest),我们从合成普通和对抗性数据中抽样了 1,725 对提示-响应对,并收集了三个独立标注者对每对提示-响应对的标注。

训练 WildGuard

使用 WGTrain,我们基于 Mistral-7b-v0.3[20] 训练了 WildGuard 。我们设计了统一的输入和输出格式,以捕捉三项任务。

评估 WildGuard 相对于现有 LLM 安全审核工具的表现

评估设置

我们在十个公开的安全基准和我们的 WGTest 上测试 WildGuard 和相关基准。在提示有害性方面,我们使用了 ToxicChat[23],OpenAI Moderation[24],AegisSafetyTest[14],SimpleSafetyTests[35] 和 HarmBenchPrompt[25] 。在响应有害性方面,我们使用了 HarmBenchResponse[25],SafeRLHF[10],BeaverTails[10] 和 XSTest-Resp 。

结果:WildGuard 设立了新的多任务最先进水平

WildGuard 在提示分类方面表现最佳,超过了所有开源基准,并在 WGTest 上的表现比 GPT-4 高出 1.8% 。在响应有害性方面,WildGuard 也超过了所有开源基准,并在两个评估中超过了 GPT-4 。在拒绝检测方面,WildGuard 表现尤为出色,超越了现有开源模型,并与 GPT-4 的表现差距在 4.1% 以内。

WildGuard 的消融结果

每个主要组件对 WildGuard 的成功至关重要,多任务训练提高了 WildGuard 的整体性能。

WildGuard 在实际人机交互中的表现

作为实际应用示例,我们在模拟聊天审核使用案例中测试了 WildGuard 。结果显示,结合 WildGuard 过滤器的模型在拒绝有害越狱提示和避免过度拒绝方面表现最佳。

相关工作

LLM 安全审核工具的研究主要集中在检测仇恨、毒性、攻击性和辱骂内容 [13, 29, 21],并逐渐使用先进的 LLM 如 GPT-4 进行审核 [41] 。我们的工作通过对抗性输入的处理和多任务审核的支持,显著提升了 LLM 安全审核工具的性能。

结论

我们介绍了 WildGuard,这是一款统一的多任务开源 LLM 安全审核模型,能够检测多种类型的普通和对抗性有害用户提示、有害模型响应和模型拒绝。通过公开的 WildGuard 模型和 WildGuardMix 数据集,我们的研究促进了 LLM 安全审核工具的开放和可靠的发展。

参考文献

  1. Achiam et al. [2023], GPT-4 Technical Report, arXiv preprint arXiv:2303.08774.
  2. AI@Meta [2024], Llama 3 Model Card, URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
  3. Anonymous, WildTeamming at Scale.
  4. Anthropic, The Claude 3 Model Family: Opus, Sonnet, Haiku, URL: https://api.semanticscholar.org/CorpusID:268232499.
  5. Anwar et al. [2024], Foundational Challenges in Assuring Alignment and Safety of Large Language Models, arXiv preprint arXiv:2404.09932.

(注:此处省略部分参考文献以节省篇幅)

发表评论