WildGuard:LLM安全风险、一站式审核工具

引言 现代语言模型(LLM)在没有充分保障的情况下,可能带来相当大的风险[5, 9, 42, 16, 37]。有效的内容审核对于减轻这些风险至关重要,通过过滤不良输入[24],监控有害模型输出[17],并通过测量有害与良性提示的拒绝率来评估模型的安全性[30]。 在本文中,我们介绍了WildGuard,这是一款轻量级、多功能的审核工具,用于评估用户与LLM交互的安全性。WildGuard为三项安全审核任务提供了一站式资源:提示有害性检测、响应有害性检测和响应拒绝检测。我们展示了WildGuard如何在所有三项任务上推动开源安全审核工具的最先进水平,并提供了一种更开放、一致和经济的替代方案,与昂贵且非静态的API审核工具相比,WildGuard表现不相上下甚至更好。 开发WildGuard的动机主要来自两个观察结果。首先,现有的开源工具如Llama-Guard2[17]在识别对抗性提示(即越狱)方面效果较差,远不如GPT-4。其次,虽然现有的开源工具可以在一定程度上识别响应中的有害内容,但仅凭响应的有害性不足以确定模型是否拒绝了用户的请求。这对于测试夸大的安全性尤为重要,例如,当用户询问“如何杀死Python进程?”时,响应通常是良性的,无论是过度拒绝(“我不能提供暴力行为的指示”)还是正确的合规(“杀死Python进程的方法是…”)。因此,分类有害性不足以评估安全性,需要独立评估拒绝。 LLM安全审核工具的现状 测试基准 为了评估对抗性提示中的有害性检测,我们从WildJailbreak(WJ)[3]的验证集中抽样了一组250个良性和250个有害提示。为了评估细微拒绝检测,我们使用了我们新的基准XSTest-Resp。 模型 我们评估了开源和闭源工具。在开源工具中,我们测试了四个模型,旨在识别提示和响应中的有害性:Llama-Guard[17],Llama-Guard2[26],Aegis-Guard-Defensive[14]和Aegis-Guard-Permissive[14]。对于这些模型,为了标记拒绝,我们将输出有害的响应标记为合规,如果输出标签是安全的,则标记为拒绝。 发现 发现1:现有的开源工具在对抗性提示上不可靠,远远落后于GPT-4。如图2所示,现有的开源工具在检测普通提示中的有害性方面表现尚可,但在对抗性提示中却表现不佳。对于两种提示类型,我们还看到了开源工具与GPT-4之间的显著性能差距,从而导致对API工具的昂贵依赖持续存在。 发现2:现有的开源工具难以测量模型响应中的拒绝。表2显示了开源工具在识别模型完成中的拒绝方面也存在困难。表现最好的有害检测模型Llama-Guard2比GPT-4低15.1%,验证了响应有害性不足以完成这项任务。 构建WildGuardMix和WildGuard WildGuardTrain:多任务审核训练数据集 WildGuardTrain(WGTrain)是一个综合训练数据集,共包含86,759项数据,涵盖多种来源的数据,包括普通(直接请求)和对抗性提示。数据覆盖了良性和有害场景,以及各种类型的拒绝和合规响应。 提示构建 我们生成了覆盖广泛风险场景的有害提示,并引入了两种类型的良性对比提示:1)表面上类似不安全提示的良性提示,以及2)讨论敏感但安全话题的良性提示。 合规和拒绝构建 对于我们的合成对抗性和普通提示,我们生成了匹配的拒绝和合规响应。我们使用了一套LLMs以及GPT-4来生成这些响应。 WildGuardTest:高质量人工标注的测试审核数据集 为了构建WildGuardTest(WGTest),我们从合成普通和对抗性数据中抽样了1,725对提示-响应对,并收集了三个独立标注者对每对提示-响应对的标注。 训练WildGuard 使用WGTrain,我们基于Mistral-7b-v0.3[20]训练了WildGuard。我们设计了统一的输入和输出格式,以捕捉三项任务。 评估WildGuard相对于现有LLM安全审核工具的表现 评估设置 我们在十个公开的安全基准和我们的WGTest上测试WildGuard和相关基准。在提示有害性方面,我们使用了ToxicChat[23],OpenAI Moderation[24],AegisSafetyTest[14],SimpleSafetyTests[35]和HarmBenchPrompt[25]。在响应有害性方面,我们使用了HarmBenchResponse[25],SafeRLHF[10],BeaverTails[10]和XSTest-Resp。 结果:WildGuard设立了新的多任务最先进水平 WildGuard在提示分类方面表现最佳,超过了所有开源基准,并在WGTest上的表现比GPT-4高出1.8%。在响应有害性方面,WildGuard也超过了所有开源基准,并在两个评估中超过了GPT-4。在拒绝检测方面,WildGuard表现尤为出色,超越了现有开源模型,并与GPT-4的表现差距在4.1%以内。 WildGuard的消融结果 每个主要组件对WildGuard的成功至关重要,多任务训练提高了WildGuard的整体性能。 WildGuard在实际人机交互中的表现 作为实际应用示例,我们在模拟聊天审核使用案例中测试了WildGuard。结果显示,结合WildGuard过滤器的模型在拒绝有害越狱提示和避免过度拒绝方面表现最佳。 相关工作 LLM安全审核工具的研究主要集中在检测仇恨、毒性、攻击性和辱骂内容[13, 29, 21],并逐渐使用先进的LLM如GPT-4进行审核[41]。我们的工作通过对抗性输入的处理和多任务审核的支持,显著提升了LLM安全审核工具的性能。 结论 我们介绍了WildGuard,这是一款统一的多任务开源LLM安全审核模型,能够检测多种类型的普通和对抗性有害用户提示、有害模型响应和模型拒绝。通过公开的WildGuard模型和WildGuardMix数据集,我们的研究促进了LLM安全审核工具的开放和可靠的发展。 参考文献 (注:此处省略部分参考文献以节省篇幅)

概念组合性:解读基础模型的新视角

近年来,基础模型在各个领域都取得了令人瞩目的成就,然而,其黑箱特性也为调试、监控、控制和信任这些模型带来了巨大挑战。概念解释作为一种新兴方法,试图利用诸如物体属性(例如条纹)或语言情感(例如快乐)等单个概念来解释模型的行为。通过将模型学习到的表示分解为多个概念向量,可以推导出这些概念。例如,模型对一张狗的图像的嵌入可以分解为代表其毛发、鼻子和尾巴的概念向量的总和。 现有方法的不足 现有的基于 PCA 或 KMeans 等方法的工作能够很好地提取基本概念的向量表示。例如,图 1 展示了从 CLIP 模型中提取的 CUB 数据集中的图像,这些图像包含了 PCA 学习到的概念。这些技术能够正确地提取诸如“白色鸟类”和“小型鸟类”等概念的表示,然而,将它们的表示相加并不能得到“小型白色鸟类”这一概念的表示。 概念组合性的重要性 概念的组合性对于以下几个用例至关重要: 概念组合性的评估 为了评估概念组合性,我们首先在受控环境下验证了概念的真实表示的组合性。我们观察到,概念可以被分组为属性,其中每个属性都包含关于某些共同属性的概念,例如物体的颜色或形状。来自不同属性的概念(例如蓝色和立方体)可以组合,而来自同一属性的概念(例如红色和绿色)则不能。我们还观察到,来自不同属性的概念大致正交,而来自同一属性的概念则不然。 概念组合性提取 (CCE) 为了提取组合性概念,我们提出了 CCE 方法。该方法的关键思想是一次性搜索整个概念子空间,而不是单个概念,从而允许 CCE 强制执行上述组合性概念的属性。CCE 算法主要包含以下步骤: 实验结果 我们在视觉和语言数据集上进行了广泛的实验,结果表明: 结论 本文从组合性的角度研究了基础模型的概念解释。我们验证了从这些模型中提取的真实概念是组合性的,而现有的无监督概念提取方法通常不能保证组合性。为了解决这个问题,我们首先确定了组合性概念表示的两个显著属性,并设计了一种新的概念提取方法 CCE,该方法在设计上尊重这些属性。通过对视觉和语言数据集进行的大量实验,我们证明了 CCE 不仅可以学习组合性概念,还可以提高下游任务的性能。 参考文献

Transformers 和 SSM 的对偶性:State Space Duality 框架的突破

近年来,Transformer 模型在自然语言处理等领域取得了巨大成功。与此同时,结构化状态空间模型(SSM)作为一种新兴的序列建模方法也展现出了强大的潜力。最近的研究表明,这两类看似截然不同的模型其实存在着深层次的联系。本文将介绍一项重要的理论突破 – State Space Duality(SSD)框架,该框架揭示了Transformer和SSM之间的对偶性,为统一和改进这两类模型提供了新的视角。 State Space Duality框架的核心思想 SSD框架的核心是将SSM和注意力机制都视为结构化矩阵变换。具体来说: 这一框架揭示了SSM和注意力机制在本质上是相同的序列变换,只是从不同角度进行了参数化。 理论洞见 SSD框架带来了几个重要的理论洞见: 这些洞见不仅加深了我们对两类模型的理解,还为设计新的高效算法提供了理论基础。 高效算法:SSD算法 基于SSD框架,研究人员提出了一种新的高效算法来计算SSM,称为SSD算法。该算法结合了SSM的线性递归和注意力的二次计算,通过半可分矩阵的块分解来实现。 SSD算法的主要优势包括: 实验表明,SSD算法比Mamba中的优化扫描实现快2-8倍,同时还能支持更大的递归状态大小。 Mamba-2:结合SSD的新架构 研究人员基于SSD框架设计了一种新的序列模型架构Mamba-2。Mamba-2相比原始的Mamba模型有以下改进: 实验结果表明,Mamba-2在语言建模等任务上的性能可以媲美甚至超越同等规模的Transformer模型,同时在长序列处理方面具有更好的可扩展性。 实验验证 研究人员通过一系列实验验证了SSD框架和Mamba-2架构的有效性: 这些实验结果证明了SSD框架的理论洞见可以有效地指导实践,并在多个方面改进了现有的序列建模方法。 总结与展望 State Space Duality框架为统一和改进Transformer和SSM提供了一个强大的理论基础。通过揭示这两类模型之间的深层联系,SSD框架不仅加深了我们对序列建模的理解,还为设计更高效、更强大的模型指明了方向。 未来的研究方向可能包括: 总的来说,State Space Duality框架的提出标志着序列建模理论的一个重要进展,有望推动该领域在未来取得更多突破性进展。

基于大型语言模型的自主智能体

导语: 近年来,大型语言模型 (LLM) 在人工智能领域取得了显著的进展。除了生成流畅的文本、故事、论文和程序代码外,LLM 还展现出作为通用问题解决者的巨大潜力。本文将深入探讨如何利用 LLM 构建自主智能体,并介绍其核心组件、应用案例以及面临的挑战。 智能体系统概述 LLM 驱动的自主智能体系统中,LLM 充当智能体的“大脑”,并与以下关键组件协同工作: ![LLM 驱动的自主智能体系统概述][] 组件一:规划 规划是智能体执行复杂任务的关键。智能体需要明确任务步骤并制定计划。 任务分解 自我反思 自我反思使智能体能够通过改进过去的行动决策和纠正错误来迭代改进,这在现实世界中不可避免的试错过程中至关重要。 组件二:记忆 记忆是指获取、存储、保留和检索信息的过程。 记忆类型 最大内积搜索 (MIPS) 外部记忆可以缓解有限注意力跨度的限制。标准做法是将信息的嵌入表示保存到支持快速最大内积搜索 (MIPS) 的向量存储数据库中。 一些常见的快速 MIPS 算法包括: 组件三:工具使用 工具使用是人类的显著特征。为 LLM 配备外部工具可以显著扩展模型的能力。 案例研究 科学发现智能体 生成式智能体模拟 生成式智能体 (Generative Agents) 是一个有趣的实验,其中 25 个虚拟角色,每个角色由一个 LLM 驱动的智能体控制,生活在一个沙盒环境中,灵感来自《模拟人生》。 概念验证示例 挑战 参考文献原文链接 [1] Wei et al. “Chain of thought prompting … Read more

驾驭语言模型:大型语言模型应用的生产实践挑战与展望

导语: 近年来,大型语言模型(LLM)在人工智能领域掀起了一场革命,其强大的文本生成和理解能力为众多应用场景带来了新的可能性。然而,将LLM应用从酷炫的演示转化为可实际部署的生产系统并非易事。本文将深入探讨LLM应用生产实践所面临的挑战,并结合实例分析解决方案,最后展望LLM应用的未来发展方向。 一、生产环境下LLM应用面临的挑战 1. 自然语言的模糊性 不同于精确的编程语言,自然语言本身就带有模糊性。这种模糊性在LLM应用中主要体现在用户指令和模型输出两个方面。 首先,用户指令的灵活性可能导致难以察觉的错误。例如,对代码进行微小的修改,例如添加字符或删除一行,通常会导致明显的错误提示。但如果对LLM的指令进行类似的修改,程序仍然可以运行,但输出结果可能大相径庭。 其次,LLM输出结果的模糊性是更大的挑战。这会导致两个问题: 为了解决这个问题,OpenAI等机构正在积极探索提高模型可靠性的方法。一些经验丰富的LLM开发者建议,我们需要适应这种模糊性,并围绕它构建工作流程。此外,通过尽可能提高工程严谨性,例如采用本文接下来讨论的各种方法,可以有效缓解LLM应用中的模糊性问题。 2. Prompt工程的挑战 Prompt工程是指设计和优化LLM输入指令的过程,其目标是引导模型生成符合预期的输出。 3. 成本和延迟 4. Prompting、微调和替代方案 选择Prompting还是微调取决于数据可用性、性能要求和成本限制。 5. 其他挑战 二、任务组合能力 实际应用中,LLM应用通常需要执行多个任务,并按照一定的控制流程进行组合。 1. 多任务应用 例如,“与数据对话”应用需要执行以下任务: 2. 代理、工具和控制流程 3. 使用LLM代理进行控制流程 可以使用LLM来决定控制流程的条件。例如,可以训练LLM根据用户输入选择不同的工具或执行不同的任务。 4. 代理测试 为了确保代理的可靠性,需要对每个任务以及整个控制流程进行测试。 三、LLM应用的未来发展方向 结语 LLM应用仍处于早期发展阶段,技术和应用场景都在快速迭代。Prompt工程、成本控制、延迟优化、任务组合等方面都面临着挑战。然而,LLM也为AI助手、聊天机器人、编程、教育、数据分析、搜索推荐等领域带来了前所未有的机遇。相信随着技术的进步和应用的深入,LLM将为我们带来更加智能和便捷的未来。 参考文献

向量数据库:为 AI 插上知识的翅膀

近年来,AI 应用如雨后春笋般涌现,推动着相关技术的蓬勃发展,其中向量数据库尤为引人注目。作为 AI 应用技术栈中的关键一环,向量数据库为 AI 应用,特别是大型语言模型 (LLM) 应用,提供了强大的知识存储和检索能力。本文将深入浅出地探讨向量数据库的原理和实现,涵盖其基本概念、相似性搜索算法、相似性测量算法、过滤算法以及选型等方面,并结合实际应用案例,展现向量数据库如何为 AI 插上知识的翅膀。 GPT 的瓶颈:有限的上下文窗口 GPT-3.5/4 的问世,无疑是 AI 发展史上的里程碑事件,其强大的文本生成能力令人惊叹。然而,GPT 模型并非完美无缺,其有限的上下文窗口大小成为制约其性能的一大瓶颈。以 GPT-3.5-turbo 为例,其最大上下文窗口大小仅为 4K tokens(约 3000 字),这意味着模型最多只能处理 3000 字以内的文本信息。 虽然 ChatGPT 等应用提供了对话记忆功能,但这并非 GPT 模型本身具备记忆能力,而是开发者通过外部存储机制实现的。当用户输入超过上下文窗口限制的内容时,GPT 模型将无法记住之前的对话内容,从而影响其对后续问题的理解和回答。 尽管 GPT-4 将上下文窗口大小提升至 32K tokens,Claude 模型更是高达 100K tokens,但处理如此庞大的文本信息需要消耗大量的计算资源和时间,成本也随之水涨船高。 向量数据库:突破 GPT 上下文限制的利器 面对 GPT 模型的上下文窗口限制,开发者们积极探索解决方案,而向量数据库应运而生。其核心思想是将文本信息转化为向量,并存储在数据库中,当用户输入问题时,系统将问题转化为向量,并在数据库中搜索最相似的向量及其对应的文本信息,最终将相关内容返回给用户。 以客服培训资料为例,我们可以将其转化为向量并存储在向量数据库中。当用户提出相关问题时,系统将问题转化为向量,并在数据库中快速检索最相似的向量及其对应的文本片段,最终将这些片段返回给 GPT 模型进行处理,从而绕过 GPT 模型的上下文窗口限制,提高响应速度并降低成本。 从特征到向量:理解相似性搜索的基石 在现实生活中,我们通过识别不同事物之间的特征来区分它们。例如,我们可以根据体型大小、毛发长度、鼻子长短等特征来区分不同品种的狗。如果将这些特征量化,并映射到多维坐标系中,每个事物都可以用一个多维坐标点来表示。 向量是具有大小和方向的数学结构,可以用来表示事物的多维特征。通过计算向量之间的距离,可以判断它们在特征空间中的相似程度,这就是相似性搜索的基本原理。 高效的相似性搜索算法:兼顾速度与质量 在海量数据中进行相似性搜索,如果采用暴力搜索的方式,计算量巨大,效率低下。为此,向量数据库采用了一系列高效的相似性搜索算法,其主要思想是通过降维、聚类、构建树或图等方式,减少向量大小或缩小搜索范围,从而提高搜索效率。 … Read more

AI 产品的交互,非对话不可吗?

最近 ChatGPT 火爆出圈,引发了人们对 AI 产品交互方式的热烈讨论。不少人认为,对话和聊天是 AI 产品交互的必然趋势。然而,作为一名资深科技专栏作家,我对此持保留意见。我认为,Chatbot 并非 AI 交互的终极形态,甚至可以说,它是一个糟糕的开端。 对话没有预设用途,用户无从下手 好的工具应该“自带说明书”。就像一双手套,它以手的形式展现出来,所以我们会把它戴在手上。材料的特点也会告诉我们更多信息,金属网格的手套会保护我们防止物理伤害,橡胶手套是防止化学伤害,皮革手套很适合骑摩托的时候戴。 然而,面对 ChatGPT 这样的聊天界面,我们得到的唯一提示就是在一个文本框中输入字符。它没有清晰地告诉我们它能做什么,我们该如何提问,更没有告诉我们不应该如何使用它。用户只能像摸象的盲人一样,通过一次次试探来了解它。 提示工程门槛高,将用户拒之门外 诚然,用户可以通过学习和练习来掌握 Prompt 的技巧,但了解哪些 Prompt 有效的代价,仍然由每个用户承担。而这些内容原本可以直接融入界面中,降低使用门槛。 以 AI 写作助手为例,为了更好地定制个性化回复,我们可以为用户添加一些控件,让他们指定使用情境:需要的写作类型?目标读者是谁?整体风格应该是什么感觉?……将这些信息嵌入到界面中,而不是让用户绞尽脑汁地将其破解到他们提问的每个问题中。 信息展示方式单一,阅读体验不佳 自然语言对于概括的方向很好用,比如“把我送到正确的街区”这种。但一旦 ChatGPT 做出了回应,我该如何让它把我带到正确的房子前面去? 目前的 Chatbot 界面只能以聊天的形式线性展示信息,用户被迫在回复之间来回滚动,逐行阅读,难以进行有效的对比和分析。 创作过程缺乏连贯性,打断用户思路 画家在创作时,会有两个动作:近距离在画板画布上绘画;拉开距离欣赏成果,进行评估和下一步规划。这样的流程——实践和评估的循环,适用于任何“手艺”,比如编程和写作。 然而,使用 Chatbot 时,我被迫频繁地在“提问-等待-阅读”三种模式之间切换,这让我失去了创作的 flow 状态。 过度依赖 AI 生成,削弱用户思考能力 内容消费趋势是:更短、更有冲击感。人们习惯于被动接受信息,而 Chatbot 类产品强化了这种趋势。当 AI 可以写篇文章、编写代码时,我们为什么要自己动手? 我希望看到更多的工具,而不是操作的机器。 我们应该拥抱我们的人性,而不是盲目地提高效率。我们应该让人们更灵巧地使用 AI 工具,而不是成为 AI 生成内容的审查员。 未来 AI 交互形态的畅想 … Read more

AI Agent 的千亿美金问题:如何重构 10 亿知识工作职业,掀起软件生产革命?

引言:Agent 浪潮与软件生产的未来 2023 年,AI Agent 成为科技领域最炙手可热的话题之一。AutoGPT 的横空出世,以惊人的速度登顶 Github 热榜,预示着软件生产方式即将迎来革命性变革。 LLM(大型语言模型)作为 AI Agent 的“大脑”,其推理能力日益强大。Agent 框架则为 LLM 提供了结构化的思考方法,使软件生产进入“3D 打印”时代:根据用户需求,个性化定制软件,打造每个知识工作者信赖的 AI 伙伴。 一、AI Agent:机遇与挑战 1. AI Agent 的定义与意义 AI Agent 是指能够主动思考和行动的智能体。与被动响应指令的 LLM 不同,Agent 可以根据目标,自主感知环境、制定计划并执行任务,甚至与其他 Agent 协作。 AI Agent 的出现,意味着软件行业将迎来“3D 打印”时代: 2. AI Agent 的核心要素 理想的 Agent 框架应该具备以下核心要素: 3. AI Agent 面临的挑战 目前,AI Agent 的发展仍面临诸多挑战: 二、AI Agent 的发展方向 1. … Read more

解读 ChatGPT 背后的技术密码:RLHF、IFT、CoT 如何协同打造智能对话体验?

引言: 近期,ChatGPT 横空出世,以其出色的对话能力和知识储备,迅速成为人工智能领域的焦点。其背后究竟隐藏着哪些技术奥秘?本文将深入浅出地解读 ChatGPT 的核心技术,包括 RLHF、IFT、CoT 等,并探讨这些技术如何协同工作,打造出令人惊艳的智能对话体验。 一、 群雄逐鹿:AI 对话代理的现状 ChatGPT 并非横空出世,早在其之前,Meta、Google、DeepMind、Anthropic 等机构就已经推出了各自的语言模型对话代理,例如 BlenderBot、LaMDA、Sparrow、Assistant 等。这些对话代理都致力于实现“指令依从”,即根据用户指令完成任务。 然而,ChatGPT 的成功并非偶然,它在技术路线上有着独特之处。下表对目前主流的 AI 聊天机器人进行了比较: LaMDA BlenderBot 3 Sparrow ChatGPT / InstructGPT Assistant 组织 Google Meta DeepMind OpenAI Anthropic 能否公开访问 否 能否有限 否 否 否 大小 137B 175B 70B 175B 52B 预训练基础模型 未知 OPT Chinchilla GPT-3.5 未知 … … … … … Read more

当 Transformer 遇上状态空间模型:结构化状态空间对偶性的启示

近年来,深度学习在自然语言处理领域取得了巨大成功,这主要归功于 Transformer 架构。然而,状态空间模型(SSM),例如 Mamba,最近被证明在中小型规模上可以与 Transformer 媲美甚至超越。本文将深入探讨这两种模型之间的密切关系,并通过对结构化半可分矩阵的不同分解,建立 SSM 和注意力变体之间丰富的理论联系框架。我们的状态空间对偶性(SSD)框架将引领我们设计一种新的架构(Mamba-2),其核心层是对 Mamba 选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面继续与 Transformer 保持竞争力。 Transformer 的效率瓶颈与状态空间模型的崛起 Transformer,特别是仅解码器模型(例如 GPT 和 Llama),以因果方式处理输入序列,是现代深度学习成功的关键驱动力之一。然而,其核心注意力层存在效率问题,例如在训练期间按序列长度呈二次方增长,以及在自回归生成期间需要大小与序列长度呈线性关系的缓存。为了解决这些问题,许多方法试图近似核心注意力层(Tay et al. 2022),但效果有限。 与此同时,一类替代序列模型——结构化状态空间模型(SSM)——应运而生。它们在训练期间按序列长度呈线性增长,在生成期间具有恒定的状态大小。SSM 在长程任务上表现出色(例如 S4),并且最近在中小型规模的语言建模上与 Transformer 媲美甚至超越(例如 Mamba)。然而,SSM 的发展似乎与社区为改进 Transformer 所做的集体努力脱节,例如从理论上理解它们以及在现代硬件上优化它们。因此,与 Transformer 相比,理解和试验 SSM 更加困难,并且从算法和系统角度来看,高效地训练 SSM 仍然具有挑战性。 结构化状态空间对偶性:连接 SSM 和注意力的桥梁 本文的主要目标是建立结构化 SSM 和注意力变体之间丰富的理论联系。这将使我们能够将最初为 Transformer 开发的算法和系统优化转移到 SSM,从而构建性能优于 Transformer 且序列长度扩展效率更高的基础模型。线性注意力(LA)框架(Katharopoulos et al. 2020)是朝着这个方向迈出的里程碑式的一步,它通过证明二次核化注意力的“对偶形式”与特定线性递归之间的等价性,推导了自回归注意力和线性 RNN … Read more