Day: May 24, 2024

G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法

摘要 大型语言模型 (LLM) 在通用场景中展现出卓越的能力,而指令微调使其能够在各种任务中与人类意图保持一致。然而,指令数据的多样性和质量仍然是指令微调的两大挑战。为此,本文提出了一种基于梯度的新方法 G-DIG,用于自动选择高质量、多样化的指令微调数据,以应用于机器翻译任务。 核心创新: 实验结果: 在 WMT22 和 FLORES 翻译任务上的大量实验证明了该方法的优越性,深入分析进一步验证了其有效性和泛化能力。 主要内容: 局限性: 伦理考量: 简要总结 本文提出了一种名为 G-DIG 的方法,用于选择高质量和多样化的训练数据,以改进机器翻译模型。G-DIG 利用梯度信息来识别对模型性能有积极影响的训练样本,并通过聚类和重采样技术来确保数据的多样性。实验结果表明,G-DIG 在各种翻译任务中均优于基线方法,并取得了与最先进模型相当的结果。 export.arxiv.org/pdf/2405.12915 Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决大型语言模型(Large Language Models,LLMs)在指令微调(instruction finetuning)过程中面临的两个主要挑战:指令数据的多样性(Diversity)和质量(Quality)。具体来说,论文提出了一个名为G-DIG(Gradient-based DIverse [...]

中文互联网正在加速崩塌:一场关于记忆与遗忘的数字浩劫中文互联网正在加速崩塌:一场关于记忆与遗忘的数字浩劫

这篇文章探讨了一个令人担忧的现象:中文互联网内容正在以前所未有的速度消失,尤其是移动互联网兴起之前的时期。作者以“时间的二向箔”来形容这种现象,将互联网比作正在被二维化的太阳系,所有曾经存在过的信息都在逐渐消失殆尽。 文章从一个简单的搜索开始,引出问题: 作者尝试在百度上搜索“马云”在1998年到2005年期间的信息,结果却发现几乎没有任何有效信息。即使更换搜索引擎,结果也大同径庭。进一步的搜索表明,不仅仅是马云,其他同时期的人物,甚至是曾经红极一时的网站和平台,其信息都已大量消失。 造成这种现象的原因主要有两个: 除了经济和监管因素,其他原因还包括: 作者认为,互联网内容的消失是“信息进化竞争”的必然结果。 在注意力经济时代,只有能够持续吸引注意力的内容才能存活,而维持内容存在的成本也是一个重要因素。传统互联网内容的消失,正是这种竞争的体现。 文章最后表达了对“没有历史”的担忧。 作者认为,互联网信息的消失将导致我们失去对过去的记忆,无法再了解曾经发生过的事情和存在过的人。这种“失忆”将对个人和社会产生深远的影响。 文章以《三体》中的“二向箔”作比喻,将互联网内容的消失描绘成一场不可逆转的浩劫,并呼吁人们珍惜现存的信息,因为它们随时都可能消失。 文章亮点: 这篇文章以其深刻的洞察力和犀利的笔触,揭示了中文互联网内容正在加速消失的现状,并对其原因和影响进行了深入分析,是一篇发人深省的佳作。 中文互联网正在加速崩塌 在互联网时代,我们习惯了通过几次简单的点击就能获取信息。然而,近年来,一个令人警觉的趋势正在悄然发生:中文互联网的内容正在迅速消失。 一个简短的实验 先问大家一个问题:如果我们在百度上搜索“马云”,并将时间范围设定在1998年到2005年,结果会有多少条呢?很多人会猜测,大概有百万甚至千万条。然而,实际结果却令人震惊:仅有1条,并且这条信息还是错的,发布时间是2021年。 这个现象不仅仅限于马云,其他知名人物如马化腾、雷军等的早期信息也同样难以搜寻。几乎所有在那个年代曾经红火的中文网站的信息都已经消失,唯一的例外是新浪网,但其能找到的信息也非常有限。 崩塌的原因 为什么会出现这种情况呢?主要有两个原因: 此外,版权保护、机构和个人意愿等原因也导致了大量内容的消失。但这些只是次要原因,主要还是经济和监管因素。 互联网的记忆 互联网曾被认为是有记忆的,但现在看来,这种记忆是短暂的。大量曾经存在的内容已经消失。曾有人将重要文件存储在某BBS上,几年后发现整个BBS都不见了。类似的情况在Hotmail邮箱、人人网等平台上也发生过。 这种现象让人不禁想起刘慈欣的《三体》中的“二向箔”概念。小说中,先进文明用二向箔将整个太阳系从三维压缩成二维。而在现实中,互联网内容的消失就像是时间的二向箔,吞噬了过去的记忆。 互联网内容的进化 互联网内容的存在也遵循进化论:以尽可能低的成本争取尽可能多的注意力。当一个内容能吸引足够多的注意力且维持成本较低时,它就有可能存活。否则,它就会消失。传统互联网内容的消亡是这种“信息进化竞争”的自然结果。 综上所述,中文互联网内容的消失是一个复杂而多维度的现象。随着时间的推移,这种趋势可能还会继续。对于我们这些依赖互联网获取信息的人来说,这无疑是一种损失。我们需要更多的关注和讨论,以便找到应对之策,保护这份曾经属于我们的数字记忆。 这篇文章旨在引发读者对互联网内容保存的思考。如果您对这一话题有更多见解,欢迎在评论区分享。 这篇文章的标题是《中文互联网正在加速崩塌》,作者丁丁在文中详细描述了中文互联网内容正在迅速消失的现象,并探讨了背后的原因。这是一个值得深思的问题,尤其对于那些关心互联网历史与信息保存的人们来说。 主要内容与观点 评论与思考 [...]

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目并综合之前的回答做最终回复。相反,COT 是一种引导模型逐步推理和回答问题的方法,目的是通过明确和详细的推理步骤来提高模型的回答质量和准确性。 Chain of Thought 的核心思想 COT 的核心思想是通过引导模型逐步推理,模拟人类解决复杂问题时的思考过程。它包括以下几个关键点: COT 的实现方式 实现 COT 通常包括以下步骤: 示例 下面是一个简单的例子,展示了如何使用 COT 来解决一个数学问题: 问题:计算 123 和 456 的和。 传统方法: COT 方法: 工程实现中的注意事项 [...]

赋予大模型道德决策能力:Skin-in-the-Game框架赋予大模型道德决策能力:Skin-in-the-Game框架

在人工智能蓬勃发展的今天,大型语言模型(LLMs)在总结、算术推理和问答等任务中展现了卓越的能力。然而,当涉及到多方利益相关者的道德推理和伦理决策时,这些模型往往举步维艰。最近提出的“Skin-in-the-Game”(SKIG)框架旨在通过一种全新的方法,提升LLMs在道德推理方面的能力。 道德决策的挑战 随着Vaswani等人(2017)和Radford等人(2018)开发的LLMs变得越来越复杂,其应用范围也在不断扩大。从教育(Kung等,2023)到优化(Li等,2023),这些模型已经革新了各个领域。尽管取得了显著进展,但在伦理决策领域仍面临重大挑战。这是因为人类价值观和伦理观念的复杂性,受文化和社会偏见(Fraser等,2022)的影响,构成了独特的难题。 SKIG框架 由弗吉尼亚理工大学和亚马逊的研究人员提出的SKIG框架,通过模拟决策对多方利益相关者的影响,旨在提升LLMs的道德推理能力。该框架的核心概念是“Skin-in-the-Game”,即通过让模型承担其决策的结果,促进更加负责任和道德的选择。受到Taleb和Sandis(2013)的启发,该框架结合了共情练习和风险评估,从而模拟问责机制,提升决策能力。 SKIG的工作原理 在SKIG框架中,LLMs被用来基于给定的情境和潜在的行动方案,探索不同的决策情景。模型被引导去设想自己是情境中的每一个利益相关者,模拟其行动的问责性。这种视角的转变显著提高了模型的表现,在各种道德推理基准测试中提升幅度高达70%。这些改进在不同类型的LLMs中都表现出一致性,包括专有模型和开源模型。 SKIG的关键组成部分 相关工作和贡献 道德在LLMs中的研究引起了广泛关注,各种方法侧重于通过微调(Ganguli等,2022)或提示(Bang等,2022)将这些模型与人类价值观对齐。SKIG框架补充了这些方法,通过增加在各种情景下分析决策对利益相关者影响的关键维度。 结论 Skin-in-the-Game框架在提升LLMs道德决策能力方面迈出了重要一步。通过模拟问责机制和培养共情能力,SKIG解决了AI道德推理的固有挑战。随着LLMs的不断发展,像SKIG这样的框架将在确保这些模型做出负责任和道德的选择方面发挥关键作用,最终惠及整个社会。 “身临其境”:通过大语言模型中的多方利益相关者协调进行决策 (中文分析) 这篇论文介绍了 SKIG(Skin-in-the-Game,身临其境),这是一个旨在增强大型语言模型 (LLM) 道德推理能力的新框架。其核心思想是通过促使 LLM 从多个利益相关者的角度考虑其决定的后果,来模拟一种问责制。 以下是该论文关键方面的细分: 1. 问题陈述: 2. 解决方案:SKIG 框架 3. 理论基础: 4. 实验和结果: [...]

打破瓶颈:一种层次化框架优化大规模语言模型的答案选择打破瓶颈:一种层次化框架优化大规模语言模型的答案选择

近年来,基于链式思维提示(Chain-of-Thought, CoT)的技术进步为大规模语言模型(LLMs)在复杂推理任务中带来了显著突破。然而,当模型生成多个推理链并基于答案频率进行集成时,正确答案在少数情况下的表现仍然较差。本文提出的层次化推理聚合框架AoR(Aggregation of Reasoning)通过评估推理链的方式来选择答案,并根据任务复杂度动态调整推理链的数量,显著提升了LLM的推理性能。 背景与现状 LLMs在各种自然语言处理任务中取得了显著进展,但在推理任务上与人类水平仍存在差距。传统方法通过增加模型的规模来提升性能,但效果有限。链式思维提示技术通过生成一系列中间步骤来简化每一步的复杂性,提供了一种新颖的视角来解决复杂推理任务。 然而,目前的多数投票集成方法在错误答案多于正确答案时表现不佳。本文通过对多个推理任务的分析发现,超过80%的样本尽管LLMs能够生成正确答案,但多数投票仍然导致错误预测。例如,在AQuA数据集中,尽管模型生成了正确答案,但由于错误答案的数量优势,最终选择了错误答案。 研究问题 在LLMs能够生成正确答案的情况下,如何减小错误答案的干扰以准确选择正确答案?为了回答这一问题,本文提出了AoR框架,通过评估推理链来提升答案选择的准确性。 AoR框架 AoR框架分为两个阶段:局部评分和全局评价。在局部评分阶段,评估产生相同答案的推理链,重点关注推理过程的合理性和步骤的适当性。在全局评价阶段,联合评估不同答案组中最具逻辑一致性和方法有效性的推理链,确定最佳推理链并将其对应的答案作为最终输出。 此外,AoR利用全局评价阶段的评分来估计模型对其最优推理过程和答案的信心水平,动态决定是否需要采样更多的推理链。这种动态采样机制在平衡性能和计算成本方面表现出色。 实验结果 实验结果表明,AoR在各种推理任务中的表现优于现有的集成方法。特别是在任务难度较大的情况下,AoR通过动态采样显著提升了LLMs的推理性能,减少了推理开销。 主要贡献 结论 本文提出的AoR框架通过评估推理链显著提升了LLMs在复杂推理任务中的性能,为未来的研究和应用提供了新的思路。未来的工作可以进一步优化AoR的评估机制和动态采样策略,以应对更复杂的推理任务。 arxiv.org/pdf/2405.12939#pdfjs.action=download 我们来深入了解一下 AoR 框架的各个组成部分,以及它是如何解决大型语言模型 (LLMs) 在复杂推理任务中所面临挑战的。 现有问题: 现有的 LLM 推理方法,特别是依赖答案频率进行集成的那些,在面对正确答案属于少数情况时往往表现不佳。这是因为: AoR 框架如何解决这些问题: AoR [...]

DeepSeek-V2中的MLA详解DeepSeek-V2中的MLA详解

DeepSeek-V2是DeepSeek团队最新发布的MoE(Mixture of Experts)架构的LLM(大型语言模型)底座。该模型拥有236B的总参数量和21B的每个token激活参数量,支持128K tokens的上下文长度。DeepSeek-V2的一个核心创新点就是Multi-head Latent Attention(MLA)。 Multi-head Latent Attention(MLA)简介 MLA对传统Transformer中的多头注意力机制(MHA)进行了改进,主要目标是: 标准的MHA结构 在标准的MHA结构中,每个token的query、key和value通过参数矩阵映射得到,并分割成多个注意力头。每个头独立计算注意力权重并得到输出,这个过程虽然能捕捉丰富的上下文信息,但在推理时需要缓存大量的KV Cache。 MLA如何改进? MLA通过对keys和values进行低秩联合压缩来降低KV Cache: 代码实现 以下是MLA在DeepSeek-V2中的Python代码实现片段: class DeepSeekV2Attention(nn.Module):def init(self, config: DeepSeekV2Config, layer_idx: Optional[int] = None):…self.w_dq = nn.Linear(self.hidden_size, config.q_lora_rank, [...]