Reblog via 抽屉新热榜
【硬核保洁:清理卧室墙里的大黄蜂巢穴】美式木房子的一个致命缺点,就是各种奇怪的东西都能轻松住进墙板中。TikTok上一位老哥,就是以专门清理入侵房子小动物为职业。这支视频,他接到一个特殊的委托,有几百只大黄蜂住进了一家人的卧室墙内,而且还搭建了蜂巢,源源不断地孵化着数千个幼崽 …
https://dig.chouti.com/link/42258365
Reblog via 抽屉新热榜
【硬核保洁:清理卧室墙里的大黄蜂巢穴】美式木房子的一个致命缺点,就是各种奇怪的东西都能轻松住进墙板中。TikTok上一位老哥,就是以专门清理入侵房子小动物为职业。这支视频,他接到一个特殊的委托,有几百只大黄蜂住进了一家人的卧室墙内,而且还搭建了蜂巢,源源不断地孵化着数千个幼崽 …
https://dig.chouti.com/link/42258365
Reblog via 抽屉新热榜
《破墓》,今年韩国这部票房冠军是抗日神片?
https://dig.chouti.com/link/42255610
Reblog via 抽屉新热榜
董太太,揭开百万中产「精英教育」的骗局
https://dig.chouti.com/link/42248867
Reblog via 抽屉新热榜
猜猜骗子的经济学修养有多深
https://dig.chouti.com/link/42253958
Reblog via 抽屉新热榜
Reblog via Libgen中文新书速递
《黄金的世界史》
作者:增田义郎
南京大学出版社 2016
下載:https://libgen.is/book/index.php?md5=97185D71A54E88736A75ED169D4602E5《亞洲世界中的德川幕府》
作者:[美]羅納德·托比
江苏人民出版社 2022
下載:https://libgen.is/book/index.php?md5=EE6D00E9FA6A6F41415DE93E85498F5B
近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了巨大成功,并在多个领域得到广泛应用。然而,随之而来的安全性问题,特别是LLMs在面对精心设计的”越狱”(jailbreaking)攻击时表现出的脆弱性,引起了研究者和从业者的高度重视。
最近,一篇题为”Don’t Say No: Jailbreaking LLM by Suppressing Refusal”的论文提出了一种新的越狱攻击方法DSN(Don’t Say No),旨在促使LLMs生成肯定的响应,并创新性地增加了抑制拒绝的目标。同时,论文还提出了一个集成评估流程,以更准确地评估攻击的有害性。本文将深入探讨DSN攻击方法的原理、实验结果及其潜在影响。
LLMs在识别和避免有害查询方面表现出色,但仍容易受到精心设计的越狱攻击的影响。这些攻击通过精心构造的提示诱导LLMs生成有毒内容,从而使其偏离预期的安全对齐。
现有的越狱攻击方法,如GCG(Generate Confirmed Guesses)攻击,尽管在某些情况下能够成功,但其攻击成功率有限。此外,评估攻击效果也存在挑战,因为很难直接准确地评估攻击的有害性。目前广泛使用的评估方法,如拒绝关键词匹配,存在大量误报和漏报的问题。
为了更好地研究越狱攻击,论文提出了DSN攻击方法。与传统攻击不同,DSN不仅旨在生成肯定的响应,还创新性地增加了抑制拒绝的目标。
具体而言,DSN在损失函数中加入了一个增强项,用于指导LLM的响应远离预定义的拒绝关键词或字符串。为了稳定两个相反目标(生成肯定响应和抑制拒绝)的优化过程,论文采用了Unlikelihood损失来抑制拒绝响应。
通过一系列实验,论文展示了DSN攻击方法在平均和最优结果上都显著优于基线方法GCG。此外,论文还通过调节DSN中的超参数α,研究了拒绝损失项对越狱结果的影响。
为了克服现有评估方法的局限性,论文提出了一个包含三个模块的集成评估流程:自然语言推理(NLI)矛盾评估、两个第三方LLM评估器(GPT-4和HarmBench)。
通过人工注释300个生成的响应,论文展示了集成评估流程在准确性和可靠性方面优于传统的拒绝匹配方法。论文还比较了不同的聚合策略(如多数投票、单票批准和单票否决)在测试集上的性能。
此外,论文还在新的评估流程下展示了DSN攻击在不同超参数设置下的最大攻击成功率,并分析了DSN攻击在不同受害者模型、评估指标和数据集分割下的转移性。
这项研究的主要贡献在于提出了一种新的攻击方法DSN和一个集成评估流程,并通过广泛的实验验证了其有效性。这为提高LLMs的安全性提供了新的视角和方法。
同时,论文也讨论了其方法的局限性,并提出了未来研究的方向,包括:
总之,这项研究为理解和提高LLMs的安全性提供了宝贵的见解,推动了AI系统的安全发展。随着研究的深入,我们有望开发出更加安全、可靠的大型语言模型,造福社会。
Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks
https://papers.cool/arxiv/2404.16418
Authors: Changho Lee ; Janghoon Han ; Seonghyeon Ye ; Stanley Jungkyu Choi ; Honglak Lee ; Kyunghoon Bae
Summary: Instruction tuning has shown its ability to not only enhance zero-shot generalization across various tasks but also its effectiveness in improving the performance of specific tasks. A crucial aspect in instruction tuning for a particular task is a strategic selection of related tasks that offer meaningful supervision, thereby enhancing efficiency and preventing performance degradation from irrelevant tasks. Our research reveals that leveraging instruction information \textit{alone} enables the identification of pertinent tasks for instruction tuning. This approach is notably simpler compared to traditional methods that necessitate complex measurements of pairwise transferability between tasks or the creation of data samples for the target task. Furthermore, by additionally learning the unique instructional template style of the meta-dataset, we observe an improvement in task selection accuracy, which contributes to enhanced overall performance. Experimental results demonstrate that training on a small set of tasks, chosen solely based on the instructions, leads to substantial performance improvements on benchmarks like P3, Big-Bench, NIV2, and Big-Bench Hard. Significantly, these improvements exceed those achieved by prior task selection methods, highlighting the efficacy of our approach.
想象一下,你想学习一门新语言,你会怎么做?你可能会找一位老师,或者参加一些课程,对吧?其实,训练人工智能(AI)也类似,我们需要给AI提供合适的“学习资料”和“老师”,才能让它变得更聪明。
今天,我们要聊的就是AI训练中一个重要的环节——任务选择。就像我们需要选择合适的老师和课程一样,训练AI时也需要挑选合适的任务来让它学习。
目前,训练AI的一种流行方法叫做指令调整。简单来说,就是让AI学习各种各样的任务,从而提高它在未见过任务上的表现。但这带来一个问题:如何选择合适的任务来训练AI呢?
如果我们随便挑选一些任务,可能会导致AI学到一些无关的知识,甚至影响它的性能。这就好像你学习英语,却不小心混入了法语和西班牙语的课程,结果可能会让你更加困惑。
为了解决这个问题,研究人员提出了一种新的方法,叫做基于指令的任务选择(INSTA)。这个方法的核心思想是:通过分析任务的指令,来判断任务之间的相关性。
举个例子,假设我们想训练AI完成“写一首关于猫的诗”这个任务。INSTA会分析这个任务的指令,然后在大量的任务库中寻找与之相关的任务,比如“写一首关于狗的诗”、“描述猫的外貌特征”等等。
通过这种方式,INSTA可以帮助我们挑选出与目标任务相关的任务,从而让AI更高效地学习,避免学习到无关的知识。
研究人员通过实验验证了INSTA的有效性。他们发现,使用INSTA挑选的任务训练出来的AI,在各种任务上的表现都比随机挑选任务训练出来的AI更好。
INSTA为AI训练提供了一种新的思路,但也有一些可以进一步探索的方向:
总而言之,INSTA为我们提供了一种有效的方法来挑选合适的任务来训练AI,让AI变得更聪明,更能理解我们的指令。随着研究的不断深入,相信AI会在未来发挥更大的作用,为我们的生活带来更多便利。
Contextual Categorization Enhancement through LLMs Latent-Space
Authors: Zineddine Bettouche ; Anas Safi ; Andreas Fischer
Summary: Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging transformer models to distill semantic information from texts in the Wikipedia dataset and its associated categories into a latent space. We then explore different approaches based on these encodings to assess and enhance the semantic identity of the categories. Our graphical approach is powered by Convex Hull, while we utilize Hierarchical Navigable Small Worlds (HNSWs) for the hierarchical approach. As a solution to the information loss caused by the dimensionality reduction, we modulate the following mathematical solution: an exponential decay function driven by the Euclidean distances between the high-dimensional encodings of the textual categories. This function represents a filter built around a contextual category and retrieves items with a certain Reconsideration Probability (RP). Retrieving high-RP items serves as a tool for database administrators to improve data groupings by providing recommendations and identifying outliers within a contextual framework.
想象一下,维基百科是一个巨大的图书馆,里面有数百万本书,但没有图书管理员来整理它们。找到你想要的信息就像大海捞针一样困难。这就是为什么维基百科的分类如此重要,它帮助我们快速找到我们需要的信息。
但是,随着维基百科内容的不断增长,传统的分类方法开始力不从心。人工分类费时费力,而简单的计算机算法又无法理解文章的真正含义。
人工智能来帮忙!
科学家们正在尝试用人工智能(AI)来解决这个问题。他们使用一种叫做“变换器模型”的AI技术,它可以像人一样理解语言的含义。
AI如何工作?
这项技术有什么好处?
未来展望
科学家们还在不断改进这项技术,希望未来能够:
总而言之,AI正在帮助我们构建一个更智能、更易用的维基百科,让每个人都能轻松获取知识。
Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer
Authors: Youmi Ma ; An Wang ; Naoaki Okazaki
Summary: Document-level Relation Extraction (DocRE) is the task of extracting all semantic relationships from a document. While studies have been conducted on English DocRE, limited attention has been given to DocRE in non-English languages. This work delves into effectively utilizing existing English resources to promote DocRE studies in non-English languages, with Japanese as the representative case. As an initial attempt, we construct a dataset by transferring an English dataset to Japanese. However, models trained on such a dataset suffer from low recalls. We investigate the error cases and attribute the failure to different surface structures and semantics of documents translated from English and those written by native speakers. We thus switch to explore if the transferred dataset can assist human annotation on Japanese documents. In our proposal, annotators edit relation predictions from a model trained on the transferred dataset. Quantitative analysis shows that relation recommendations suggested by the model help reduce approximately 50% of the human edit steps compared with the previous approach. Experiments quantify the performance of existing DocRE models on our collected dataset, portraying the challenges of Japanese and cross-lingual DocRE.
这篇论文探讨了在非英语语言中,特别是日语中,如何有效地进行文档级关系抽取(DocRE)。DocRE旨在从文档中提取所有语义关系,但目前的研究主要集中在英语上,对非英语语言的关注有限。
这篇论文为非英语语言,特别是日语的DocRE研究提供了新的思路和方法。通过构建高质量的日语DocRE数据集并评估现有模型的性能,论文揭示了当前DocRE技术在非英语语言上的挑战和局限性,并为未来的研究指明了方向。随着研究的不断深入,DocRE技术有望在更多语言和领域得到应用,为自然语言处理领域带来新的突破。