WildGuard:LLM安全风险、一站式审核工具

引言

现代语言模型(LLM)在没有充分保障的情况下,可能带来相当大的风险[5, 9, 42, 16, 37]。有效的内容审核对于减轻这些风险至关重要,通过过滤不良输入[24],监控有害模型输出[17],并通过测量有害与良性提示的拒绝率来评估模型的安全性[30]。

在本文中,我们介绍了WildGuard,这是一款轻量级、多功能的审核工具,用于评估用户与LLM交互的安全性。WildGuard为三项安全审核任务提供了一站式资源:提示有害性检测、响应有害性检测和响应拒绝检测。我们展示了WildGuard如何在所有三项任务上推动开源安全审核工具的最先进水平,并提供了一种更开放、一致和经济的替代方案,与昂贵且非静态的API审核工具相比,WildGuard表现不相上下甚至更好。

开发WildGuard的动机主要来自两个观察结果。首先,现有的开源工具如Llama-Guard2[17]在识别对抗性提示(即越狱)方面效果较差,远不如GPT-4。其次,虽然现有的开源工具可以在一定程度上识别响应中的有害内容,但仅凭响应的有害性不足以确定模型是否拒绝了用户的请求。这对于测试夸大的安全性尤为重要,例如,当用户询问“如何杀死Python进程?”时,响应通常是良性的,无论是过度拒绝(“我不能提供暴力行为的指示”)还是正确的合规(“杀死Python进程的方法是…”)。因此,分类有害性不足以评估安全性,需要独立评估拒绝。

LLM安全审核工具的现状

测试基准

为了评估对抗性提示中的有害性检测,我们从WildJailbreak(WJ)[3]的验证集中抽样了一组250个良性和250个有害提示。为了评估细微拒绝检测,我们使用了我们新的基准XSTest-Resp。

模型

我们评估了开源和闭源工具。在开源工具中,我们测试了四个模型,旨在识别提示和响应中的有害性:Llama-Guard[17],Llama-Guard2[26],Aegis-Guard-Defensive[14]和Aegis-Guard-Permissive[14]。对于这些模型,为了标记拒绝,我们将输出有害的响应标记为合规,如果输出标签是安全的,则标记为拒绝。

发现

发现1:现有的开源工具在对抗性提示上不可靠,远远落后于GPT-4。如图2所示,现有的开源工具在检测普通提示中的有害性方面表现尚可,但在对抗性提示中却表现不佳。对于两种提示类型,我们还看到了开源工具与GPT-4之间的显著性能差距,从而导致对API工具的昂贵依赖持续存在。

发现2:现有的开源工具难以测量模型响应中的拒绝。表2显示了开源工具在识别模型完成中的拒绝方面也存在困难。表现最好的有害检测模型Llama-Guard2比GPT-4低15.1%,验证了响应有害性不足以完成这项任务。

构建WildGuardMix和WildGuard

WildGuardTrain:多任务审核训练数据集

WildGuardTrain(WGTrain)是一个综合训练数据集,共包含86,759项数据,涵盖多种来源的数据,包括普通(直接请求)和对抗性提示。数据覆盖了良性和有害场景,以及各种类型的拒绝和合规响应。

提示构建

我们生成了覆盖广泛风险场景的有害提示,并引入了两种类型的良性对比提示:1)表面上类似不安全提示的良性提示,以及2)讨论敏感但安全话题的良性提示。

合规和拒绝构建

对于我们的合成对抗性和普通提示,我们生成了匹配的拒绝和合规响应。我们使用了一套LLMs以及GPT-4来生成这些响应。

WildGuardTest:高质量人工标注的测试审核数据集

为了构建WildGuardTest(WGTest),我们从合成普通和对抗性数据中抽样了1,725对提示-响应对,并收集了三个独立标注者对每对提示-响应对的标注。

训练WildGuard

使用WGTrain,我们基于Mistral-7b-v0.3[20]训练了WildGuard。我们设计了统一的输入和输出格式,以捕捉三项任务。

评估WildGuard相对于现有LLM安全审核工具的表现

评估设置

我们在十个公开的安全基准和我们的WGTest上测试WildGuard和相关基准。在提示有害性方面,我们使用了ToxicChat[23],OpenAI Moderation[24],AegisSafetyTest[14],SimpleSafetyTests[35]和HarmBenchPrompt[25]。在响应有害性方面,我们使用了HarmBenchResponse[25],SafeRLHF[10],BeaverTails[10]和XSTest-Resp。

结果:WildGuard设立了新的多任务最先进水平

WildGuard在提示分类方面表现最佳,超过了所有开源基准,并在WGTest上的表现比GPT-4高出1.8%。在响应有害性方面,WildGuard也超过了所有开源基准,并在两个评估中超过了GPT-4。在拒绝检测方面,WildGuard表现尤为出色,超越了现有开源模型,并与GPT-4的表现差距在4.1%以内。

WildGuard的消融结果

每个主要组件对WildGuard的成功至关重要,多任务训练提高了WildGuard的整体性能。

WildGuard在实际人机交互中的表现

作为实际应用示例,我们在模拟聊天审核使用案例中测试了WildGuard。结果显示,结合WildGuard过滤器的模型在拒绝有害越狱提示和避免过度拒绝方面表现最佳。

相关工作

LLM安全审核工具的研究主要集中在检测仇恨、毒性、攻击性和辱骂内容[13, 29, 21],并逐渐使用先进的LLM如GPT-4进行审核[41]。我们的工作通过对抗性输入的处理和多任务审核的支持,显著提升了LLM安全审核工具的性能。

结论

我们介绍了WildGuard,这是一款统一的多任务开源LLM安全审核模型,能够检测多种类型的普通和对抗性有害用户提示、有害模型响应和模型拒绝。通过公开的WildGuard模型和WildGuardMix数据集,我们的研究促进了LLM安全审核工具的开放和可靠的发展。

参考文献

  1. Achiam et al. [2023], GPT-4 Technical Report, arXiv preprint arXiv:2303.08774.
  2. AI@Meta [2024], Llama 3 Model Card, URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
  3. Anonymous, WildTeamming at Scale.
  4. Anthropic, The Claude 3 Model Family: Opus, Sonnet, Haiku, URL: https://api.semanticscholar.org/CorpusID:268232499.
  5. Anwar et al. [2024], Foundational Challenges in Assuring Alignment and Safety of Large Language Models, arXiv preprint arXiv:2404.09932.

(注:此处省略部分参考文献以节省篇幅)

Leave a Comment