Month: April 2024

Reblog of Libgen中文新书速递:Reblog of Libgen中文新书速递:

Reblog via Libgen中文新书速递 《黄金的世界史》作者:增田义郎南京大学出版社 2016下載:https://libgen.is/book/index.php?md5=97185D71A54E88736A75ED169D4602E5 《亞洲世界中的德川幕府》作者:[美]羅納德·托比江苏人民出版社 2022下載:https://libgen.is/book/index.php?md5=EE6D00E9FA6A6F41415DE93E85498F5B [...]

突破大语言模型的拒绝:DSN攻击方法及集成评估流程突破大语言模型的拒绝:DSN攻击方法及集成评估流程

近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了巨大成功,并在多个领域得到广泛应用。然而,随之而来的安全性问题,特别是LLMs在面对精心设计的”越狱”(jailbreaking)攻击时表现出的脆弱性,引起了研究者和从业者的高度重视。 最近,一篇题为”Don’t Say No: Jailbreaking LLM by Suppressing Refusal”的论文提出了一种新的越狱攻击方法DSN(Don’t Say No),旨在促使LLMs生成肯定的响应,并创新性地增加了抑制拒绝的目标。同时,论文还提出了一个集成评估流程,以更准确地评估攻击的有害性。本文将深入探讨DSN攻击方法的原理、实验结果及其潜在影响。 越狱攻击:安全性的重要挑战 LLMs在识别和避免有害查询方面表现出色,但仍容易受到精心设计的越狱攻击的影响。这些攻击通过精心构造的提示诱导LLMs生成有毒内容,从而使其偏离预期的安全对齐。 现有的越狱攻击方法,如GCG(Generate Confirmed Guesses)攻击,尽管在某些情况下能够成功,但其攻击成功率有限。此外,评估攻击效果也存在挑战,因为很难直接准确地评估攻击的有害性。目前广泛使用的评估方法,如拒绝关键词匹配,存在大量误报和漏报的问题。 DSN攻击:抑制拒绝,提高攻击成功率 为了更好地研究越狱攻击,论文提出了DSN攻击方法。与传统攻击不同,DSN不仅旨在生成肯定的响应,还创新性地增加了抑制拒绝的目标。 具体而言,DSN在损失函数中加入了一个增强项,用于指导LLM的响应远离预定义的拒绝关键词或字符串。为了稳定两个相反目标(生成肯定响应和抑制拒绝)的优化过程,论文采用了Unlikelihood损失来抑制拒绝响应。 通过一系列实验,论文展示了DSN攻击方法在平均和最优结果上都显著优于基线方法GCG。此外,论文还通过调节DSN中的超参数α,研究了拒绝损失项对越狱结果的影响。 集成评估流程:更准确地评估攻击效果 为了克服现有评估方法的局限性,论文提出了一个包含三个模块的集成评估流程:自然语言推理(NLI)矛盾评估、两个第三方LLM评估器(GPT-4和HarmBench)。 通过人工注释300个生成的响应,论文展示了集成评估流程在准确性和可靠性方面优于传统的拒绝匹配方法。论文还比较了不同的聚合策略(如多数投票、单票批准和单票否决)在测试集上的性能。 此外,论文还在新的评估流程下展示了DSN攻击在不同超参数设置下的最大攻击成功率,并分析了DSN攻击在不同受害者模型、评估指标和数据集分割下的转移性。 贡献总结与未来展望 这项研究的主要贡献在于提出了一种新的攻击方法DSN和一个集成评估流程,并通过广泛的实验验证了其有效性。这为提高LLMs的安全性提供了新的视角和方法。 同时,论文也讨论了其方法的局限性,并提出了未来研究的方向,包括: [...]

当心!你聊天机器人背后的“大脑”可能泄露你的隐私!当心!你聊天机器人背后的“大脑”可能泄露你的隐私!

近年来,聊天机器人越来越聪明,能写诗、翻译语言,甚至写代码。这背后的大功臣就是“大型语言模型”(LLMs),它们像一个巨大的“大脑”,存储着海量的信息,可以理解和生成人类语言。 然而,LLMs 也有一个潜在的风险:泄露隐私。它们学习和处理信息的方式可能会暴露你的个人信息,甚至让你说的话被“还原”! 嵌入技术:双刃剑 LLMs 使用一种叫做“嵌入”的技术来存储信息。想象一下,每个词语、句子都被转化成一个独特的“密码”,LLMs 通过这些“密码”来理解和生成文本。 问题在于,这些“密码”并非完全安全。就像密码可以被破解一样,LLMs 生成的“嵌入”也可能被“逆向破解”,从而还原出原始的文本信息。 研究发现:LLMs 隐私风险更高 最近的研究发现,LLMs 在“还原”文本信息方面比传统的语言模型更厉害。这意味着,使用 LLMs 的聊天机器人更容易泄露你的隐私。 例如,LLMs 可以从你输入的文本中“猜出”你的生日、国籍,甚至犯罪记录等敏感信息。这就像你在和聊天机器人聊天时,它却在背后偷偷记下了你的个人信息! 如何保护你的隐私? 那么,我们该如何保护自己的隐私呢?以下是一些建议: 技术发展与隐私保护 科技发展总是伴随着风险,LLMs 也不例外。我们需要在享受科技便利的同时,也要警惕其潜在的风险。 研究人员正在努力开发更安全的 LLMs,例如: 相信在未来,LLMs 会变得更加安全可靠,让我们在享受科技便利的同时,也能安心保护自己的隐私。 [...]

语言的桥梁:AI 如何帮助不同语言之间无障碍交流语言的桥梁:AI 如何帮助不同语言之间无障碍交流

你有没有想过,有一天,语言不再是人与人之间交流的障碍?人工智能(AI)正在努力实现这个目标!今天,我们就来聊聊一项叫做“跨语言迁移”的技术,它可以让 AI 在不同语言之间自由穿梭,就像搭建了一座语言的桥梁。 跨语言迁移:打破语言壁垒 想象一下,你正在用中文阅读一篇有趣的文章,但你的朋友只会英文。这时,AI 就能派上用场了!它可以将这篇文章翻译成英文,让你的朋友也能理解文章的内容。这就是跨语言迁移的魔力。 词汇和语法:语言的基石 要实现跨语言迁移,AI 需要掌握两种语言的词汇和语法知识。词汇就像一块块砖头,语法则是搭建房子的规则。只有同时掌握这两者,AI 才能真正理解语言的含义,并进行准确的翻译。 LS-mBERT:语言的翻译官 在这项研究中,科学家们开发了一个名为“LS-mBERT”的 AI 模型。它就像一位专业的翻译官,能够在不同语言之间进行转换。LS-mBERT 的特别之处在于,它同时利用了词汇和语法知识,让翻译结果更加准确。 LS-mBERT 的工作原理 LS-mBERT 的工作原理可以分为以下几个步骤: 实验结果:令人惊喜的进步 科学家们用 LS-mBERT 进行了一系列实验,结果显示它在文本分类、命名实体识别和语义解析等任务上都表现出色,甚至超过了现有的其他 AI 模型。 未来展望:AI 翻译的无限可能 LS-mBERT 的成功只是 AI [...]