大型语言模型的“灾难性遗忘”:指令向量揭示真相,引导训练化解危机

大型语言模型(LLM)在自然语言处理领域取得了巨大成功,但它们在微调过程中容易出现“灾难性遗忘”问题,即模型在学习新任务时会忘记之前学到的知识。这无疑限制了 LLM 的应用范围,也引发了人们对 LLM 可靠性和可解释性的担忧。本文将深入探讨 LLM 的遗忘机制,并提出一种基于指令向量(IV)的训练方法,有效缓解遗忘问题。 遗忘的真相:指令理解能力的下降,而非知识遗失 传统的遗忘研究主要关注模型在不同任务上的性能变化,但对于遗忘的内在机制却知之甚少。本文提出了一种新的视角,将 LLM 的能力分为两类:知识理解能力和指令理解能力。 通过对持续指令微调框架下的实验观察,我们发现:指令理解能力的下降是导致模型遗忘的主要原因,而非知识遗失。 实验设计: 研究者使用持续指令微调框架,对 LLM 进行了一系列的指令学习任务。每个任务都对应一个特定的指令,例如“翻译成西班牙语”、“生成一段代码”。研究者观察了模型在学习新任务后,其在知识理解和指令理解方面的表现。 实验结果: 实验结果表明,模型在学习新任务后,其指令理解能力普遍下降,而知识理解能力则相对稳定,甚至有所提升。这说明模型的遗忘主要体现在对新指令的适应能力下降,而非对已学知识的遗忘。 指令向量:揭示遗忘背后的秘密,洞悉模型内部变化 为了深入理解遗忘机制,我们提出了指令向量(IV)框架。IV 代表与特定指令相关的模型表征,它可以帮助我们理解模型内部的变化,从而揭示遗忘的内在原因。 IV 假设: 研究者假设每个指令都对应一个潜在的指令向量 θc,它控制着模型对该指令的理解和执行能力。模型的输出 yc 可以通过一个包含 x、c 和 θc 的计算图来表示:fM(x, c, θc) → yc。 IV 提取: 研究者使用因果中介分析识别出对模型输出有显著因果影响的注意力头,并将其表征聚合起来,得到相应的 IV。具体而言,研究者首先收集了模型在处理特定指令时,每个注意力头的激活状态。然后,他们通过因果中介分析,识别出对模型输出有显著因果影响的注意力头。最后,他们将这些注意力头的表征聚合起来,得到相应的 IV。 IV 分析: 研究者通过分析 IV 在训练前后变化,发现了一些重要的现象: 指令向量引导训练:缓解遗忘的利器,维护模型原有能力 基于 IV 分析,研究者提出了一种指令向量引导训练方法,旨在通过维护 IV 相关的计算图来缓解遗忘问题。 方法: 实验结果: 未来展望 我们的研究为理解 … Read more

大模型的可控生成:CoDI-Eval 基准测试

近年来,大型语言模型(LLM)在理解和执行自然语言指令方面展现出惊人的能力,为自然语言处理领域带来了革命性的变革。然而,LLM 并不总是能准确地响应包含特定约束的指令。例如,要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件,它们可能无法满足这些要求。因此,评估 LLM 对包含特定约束指令的响应能力至关重要。 可控文本生成:传统方法的局限性 可控文本生成(CTG)是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上,例如控制文本长度或包含特定关键词。然而,这种方法并不适用于新的指令遵循范式,因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。 此外,在现实场景中,指令中的约束条件通常以自由形式的自然语言表达,例如“写一篇关于人工智能的简短文章”。因此,LLM 需要能够理解各种表达方式的约束条件,并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力,以及与实际用户期望的匹配程度。 CoDI-Eval:一个新的基准测试 为了填补这一空白,并推动 LLM 与人类期望更好地对齐的研究,我们提出了 CoDI-Eval(Controllable Generation under Diversified Instructions),一个新的基准测试,用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务,并使用多样化的自然语言指令来表达约束条件,从而更准确地衡量 LLM 对包含特定约束指令的响应能力。 CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面,我们选择了五个典型的 CTG 任务,涵盖了情感、主题、长度、关键词和避免毒性等方面。此外,我们还包含了一个多方面控制的任务,同时包含两个方面的约束条件,以测试 LLM 在更具挑战性的复杂场景下的表现。 在泛化能力方面,我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”,使用一个强大的 LLM 生成更多指令,从而构建指令池。第二步是“多样化”,通过对指令进行文本重写,以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步,直到达到预期的指令规模。这两个步骤都由 LLM 自动完成,无需人工干预。 CoDI-Eval 的评估方法 为了评估 CoDI-Eval,我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务,我们借助现有的开源专用模型或外部 … Read more

为新闻推荐系统预训练词向量和实体向量

新闻推荐系统近年来发展迅速,其中一个重要的技术突破是深度知识感知网络 (DKN) 的出现。DKN 能够利用知识图谱 (KG) 中的实体信息来增强新闻推荐的准确性。为了训练 DKN 模型,我们需要预先训练词向量和实体向量,本文将介绍如何使用 Word2Vec 和 TransE 模型来完成这一任务。 用 Word2Vec 训练词向量 Word2Vec 是一种常用的词向量训练模型,它能够将词语映射到一个高维向量空间中,并学习到词语之间的语义关系。在 DKN 中,我们需要将新闻标题和文本中的词语转换为向量表示,以便模型能够理解文本内容。 我们可以使用 Gensim 库中的 Word2Vec 模型来训练词向量。Gensim 提供了简单易用的接口,可以方便地加载文本数据并训练模型。 首先,我们定义一个类 MySentenceCollection 来读取新闻文本数据。该类实现了迭代器接口,可以逐行读取文本文件并将其转换为词语列表。 接下来,我们定义一个函数 train_word2vec 来训练 Word2Vec 模型。该函数接受新闻文本文件路径和输出目录作为参数,并保存训练好的模型文件。 用 TransE 训练实体向量 知识图谱 (KG) 由实体和关系组成,可以用来表示世界上的各种知识。在 DKN 中,我们可以利用 KG 中的实体信息来增强新闻推荐的准确性。为了将 KG 中的实体信息融入到 DKN 模型中,我们需要将实体映射到向量空间中,即训练实体向量。 TransE 是一种常用的知识图谱嵌入模型,它能够将实体和关系映射到同一个向量空间中,并学习到实体和关系之间的语义关系。我们可以使用开源的 Fast-TransX 库来训练 TransE 模型。 构建上下文向量 DKN … Read more

沙特阿拉伯加入mBridge项目

沙特阿拉伯加入mBridge项目,这是一个由国际清算银行(BIS)和中国牵头成立的央行数字货币(CBDC)跨境试验项目,旨在促进即时跨境支付。这一举动显示出沙特阿拉伯的战略灵活性,使其能够接受人民币等其他货币,同时不冒犯美国。沙特央行加入mBridge项目可能对石油美元体系构成威胁,因为沙特及其他石油生产国正逐渐减少在能源贸易中使用美元。 以下是关于沙特加入mBridge项目和石油美元体系的一些重要信息: 综上所述,沙特阿拉伯加入mBridge项目显示出其战略灵活性,使其能够接受其他货币,同时减少对美元的依赖。这一举措可能对石油美元体系构成威胁,并加速全球石油贸易的去美元化趋势。 Learn more:

赋予对话系统“大脑”:从神经科学到虚拟接待员

随着聊天机器人、语言模型和语音技术的快速发展,人们越来越渴望创造能够通过自然语言或直接语音与人类无缝交互的系统。本文将探讨如何将对话系统研究置于具身智能的更广阔背景下,借鉴神经生物学和神经心理学中的概念,定义一种能够融合手工设计和人工神经网络的行为架构,为未来模仿学习或指令学习等新学习方法打开大门。 传统对话系统的局限性 传统的语音助手通常采用一种简单的线性信息流架构,从语音识别到自然语言理解,再到对话管理和自然语言生成,最终输出文本或语音。这种架构虽然在处理简单任务方面表现出色,但面临着一些挑战: 另一方面,手工设计的对话系统虽然易于开发,可控性高,但扩展性存在局限,难以应对复杂多变的对话场景。 借鉴神经科学:Miron系统 本文提出了一种名为“Miron”的系统,其灵感来源于神经科学中的镜像神经元理论。镜像神经元在动物执行特定动作时以及观察其他个体执行相同动作时都会被激活,这表明动作理解和动作生成可能共享相同的表征。 Miron系统将这一概念应用于自然语言理解 (NLU) 和自然语言生成 (NLG) 模块,将一个特定的意图 (intent) 与一组用于识别和生成该意图的模板句子联系起来。每个Miron还包含一个可选的数据结构,用于描述模板句子中使用的命名实体 (named entities),例如日期、地点、人物等。 Miron系统的优势: 具身智能和多模态交互 除了文本对话,具身智能系统还可以通过虚拟化身或物理机器人与人类进行多模态交互,例如眼神、表情、手势等。Miron系统可以通过文本形式表示多模态信息,实现多模态交互。 对话/行为引擎:基于递归神经网络的架构 为了处理异步感知事件 (例如语音、传感器信号) 并生成相应的反应,本文提出了一种基于递归神经网络 (RNN) 的对话/行为引擎。该引擎将状态定义为规则,每个规则对应一个状态,当其条件满足时,就会执行一组关联的动作。 行为引擎的架构: 内部语言:模拟人类的思考过程 人类可以通过“内部语言”进行思考,例如回忆记忆或想象场景。本文借鉴这一概念,允许对话系统通过内部 Miron 意图触发行为,就像外部用户发出指令一样。 模型驱动开发:图形化 DSL 为了简化对话/行为的设计过程,本文提出了一种图形化领域特定语言 (DSL),允许开发者通过图形化方式创建对话/行为模型。DSL 包含 Miron 元素和规则元素,分别用于定义语言相关方面 (例如意图、命名实体、模板) 和行为逻辑 (例如条件、动作)。 对话设计:模块化和参数化 对话可以看作是机器和用户之间一系列言语行为的交替。为了简化对话设计,本文提出了一种基于回合制 (turn-taking) 的架构,将对话流程分解成多个模块,例如用户模型、响应模型、错误模型、情景分析模块、行为参数化模块和参数化行为模块。 虚拟接待员:应用案例 本文使用上述方法开发了一个虚拟接待员系统,该系统运行在一个展台上,由一个虚拟化身代表,用于迎接访客、收集信息、验证访客预约信息并联系相关人员迎接访客。 系统架构: 对话设计: 用户研究: 用户研究表明,虚拟接待员系统获得了较高的用户满意度,用户认为该系统易用、吸引人且能有效地完成任务。 总结和未来展望 本文展示了如何将神经科学中的概念应用于手工设计的对话管理系统,并提出了一种基于模型驱动开发和图形化 DSL 的设计方法。未来,学习方法将是实现可扩展对话系统的关键,而模仿学习、指令学习和课程学习将发挥重要作用。 参考文献: **[请保持角色] … Read more

MMLU:我们真的完成了它吗?

大型语言模型(LLM)的出现,标志着自然语言处理领域取得了重大进展,使我们能够通过自然语言与计算机进行交互。然而,这些模型的评估需要可靠的基准测试,而现有的基准测试却存在着不少问题。 MMLU:一个广受欢迎但存在问题的基准测试 MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)基准测试,因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而,我们发现,尽管MMLU很受欢迎,但它存在着大量错误,这些错误会误导模型评估和比较。 MMLU中的错误:一个需要解决的问题 研究人员发现,MMLU中存在着各种各样的错误,从简单的解析和抓取错误,到更复杂的上下文、解释和数据集质量问题。例如,在病毒学子集中,57% 的问题都存在错误,其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。 MMLU-Redux:一个更可靠的基准测试 为了解决MMLU中存在的错误问题,研究人员手动分析了MMLU数据集,并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题,涵盖了MMLU的30个子集。研究人员发现,MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异,这表明MMLU中存在的错误对模型评估结果产生了重大影响。 MMLU-Redux:一个更可靠的基准测试 MMLU-Redux 的创建,为我们提供了重新评估LLM性能的工具。研究人员发现,在MMLU-Redux 上,一些LLM的性能表现与原始MMLU评估结果存在显著差异,这表明MMLU中的错误会影响模型的排名。 自动修复MMLU:一个挑战 研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法,包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而,即使是最先进的模型,在自动错误检测方面的表现仍然有限。 结论:MMLU需要改进 MMLU是一个重要的基准测试,但它存在着不少问题。MMLU-Redux 的出现,为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力,改进MMLU,使其成为评估下一代LLM的可靠工具。 参考文献 [1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017). [2] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information … Read more

技术封建主义:互联网时代的“数字农奴”?

你是否以为,人类正在进入一个新时代——互联网高科技的时代? 2024年出版的新书《技术封建主义》(Techno Feudalism)却提出一个令人深思的观点:人类更像回到了封建时代,只是多了高科技。 这本书的作者雅尼斯·瓦鲁法基斯(Yanis Varoufakis)是一位非比寻常的经济学家。他曾被游戏平台 Steam 的创造者 Valve 公司聘用,后来还担任过希腊的财政部长。这本书正是他卸任后对互联网时代社会结构的深刻思考。 互联网领主与数字农奴 历史上,中世纪的欧洲盛行封建制度。大地主(领主)占有大片土地,控制土地上的一切,农民也变成了领主的私人财产(农奴)。 互联网时代,这种模式似乎在数字世界中重演。尽管互联网看似广阔无垠,但真正掌握话语权的却是少数几家科技巨头:谷歌、苹果、微软、亚马逊、Meta……它们就像互联网时代的领主,瓜分了大部分的数字领地。 在自己的领地上,这些科技巨头拥有至高无上的权力。广大的网民则成了“数字农奴”,他们在这些领地里发帖、上传照片视频,实际上是在为领主工作。他们得到的回报微薄,免费的劳动却为科技巨头创造了巨大的价值。 更令人担忧的是,网民们逐渐产生对这些数字领地的依赖。一天不去领主的土地看看,心里就会感到空虚失落。 高高的围篱与地租 这些数字领主拥有强烈的领地意识,他们筑起高高的围篱,防止自己的数字资产(数据)流出,或被其他公司侵占。 如果你想要使用某个领主的领地,就必须缴纳“地租”——使用费。比如,你想把自己的 App 放在苹果应用商店出售,就必须把 30% 的收入交给苹果。这与中世纪封建制度下的地租何其相似! 打破技术封建主义 瓦鲁法基斯认为,为了打破技术封建主义,防止数字领主的出现,政府必须采取一些强制措施: 结语 《技术封建主义》这本书为我们打开了眼界,让我们意识到,看似繁荣的互联网经济,背后隐藏着深刻的社会问题。技术封建主义的出现,不仅会加剧社会不平等,还会扼杀创新和自由。只有通过政府的积极干预,才能打破这种数字时代的封建统治,创造一个更加公平、开放的互联网社会。 参考文献:

超越相似性:基于复合聚合的个性化联邦推荐

近年来,联邦推荐(FR)作为一种新兴的设备端学习范式,在学术界和工业界都引起了广泛关注。现有的联邦推荐方法通常采用不同的协同过滤模型作为本地模型,并通过各种聚合函数来获得一个全局推荐器,遵循基本的联邦学习(FL)原则。例如,一项开创性的工作是 FCF,它通过执行本地更新和使用联邦优化进行全局聚合,对集中式矩阵分解进行了改进。此外,FedNCF 将矩阵分解的线性与深度嵌入技术的非线性相结合,建立在 FCF 的基础之上。这些基于嵌入的联邦推荐模型有效地平衡了推荐准确性和隐私保护。 然而,现有的联邦推荐方法主要利用联邦视觉领域中发明的聚合函数来聚合来自相似客户端的参数,例如聚类聚合。尽管这些方法取得了相当大的性能,但我们认为直接将它们应用于联邦推荐并非最佳选择。这主要体现在模型结构的差异上。与联邦视觉中的卷积神经网络等结构化参数不同,联邦推荐模型通常采用一对一的项目嵌入表来进行区分。这种差异导致了嵌入偏差问题,即在聚合过程中不断更新已训练的嵌入,而忽略了未训练的嵌入,从而无法准确预测未来的项目。 为了解决这个问题,我们提出了一种基于复合聚合的个性化联邦推荐模型(FedCA),它不仅聚合了相似客户端以增强已训练的嵌入,还聚合了互补客户端以更新未训练的嵌入。此外,我们将整个学习过程转化为一个统一的优化算法,以共同学习相似性和互补性。在多个真实数据集上的大量实验证明了我们提出的模型的有效性。 嵌入偏差问题:联邦推荐的独特挑战 联邦推荐模型通常使用一个嵌入表来存储所有项目的表示,每个客户端只训练与自己交互过的项目的嵌入。当使用传统的相似性聚合方法时,会发生嵌入偏差问题:已训练过的项目的嵌入会不断得到优化,而未训练过的项目的嵌入则保持不变甚至退化。这导致模型在预测用户未来可能感兴趣的项目时,由于缺乏对未训练项目信息的了解,效果不佳。 FedCA:基于复合聚合的个性化联邦推荐 为了解决嵌入偏差问题,我们提出了 FedCA 模型,它采用了一种复合聚合机制,同时考虑了模型相似性和数据互补性。 FedCA 使用一个统一的优化框架来共同学习相似性和互补性。通过这种方式,FedCA 能够更有效地聚合项目嵌入,从而提高模型的预测准确性和泛化能力。 实验结果 我们对四个基准数据集进行了实验,包括 Movielens-100K、Filmtrust、Movielens-1M 和 Microlens-100K。实验结果表明,FedCA 在所有数据集上都优于其他基线模型,包括 FCF、FedAvg、PerFedRec、FedAtt、FedFast、pFedGraph 和 PFedRec。此外,我们还进行了消融实验,验证了模型相似性和数据互补性在 FedCA 中的有效性。 总结 本文首先重新思考了联邦视觉和联邦推荐任务之间的根本差异。具体来说,联邦视觉领域主要利用结构化参数(例如卷积神经网络)进行联邦优化,而联邦推荐任务主要采用一对一的项目嵌入表进行个性化推荐。这种关键差异导致了从联邦视觉领域借鉴的基于相似性的聚合方法在聚合嵌入表时无效,从而导致嵌入偏差问题。为了解决上述挑战,我们提出了一种专门针对联邦推荐任务的复合聚合机制。具体来说,通过在一个统一的优化框架内结合模型相似性和数据互补性,我们的方法增强了客户端已交互过的项目的训练嵌入,并优化了客户端未交互过的项目的非训练嵌入。这使得能够有效地预测未来的项目。此外,我们还探讨了近端项在联邦推荐任务中对个性化偏好的无效性,并提出了一种插值方法来缓解联邦推荐中的空间错位问题。 这项研究特别提出了一种很有前景的联邦推荐任务复合聚合框架。它是一个与模型无关的即插即用模块,可以无缝集成到主流联邦推荐模型中。然而,在这项工作中,我们需要手动调整相似性和互补性的权重分配。这些局限性可以通过在未来的研究中使用自动机器学习技术来自适应地学习权重分配来缓解。此外,探索更适合联邦推荐任务的模型相似性和数据互补性机制也是一个很有前景的研究方向。 参考文献 [1] Hongzhi Yin, Liang Qu, Tong Chen, Wei Yuan, Ruiqi Zheng, Jing Long, Xin Xia, Yuhui Shi, and Chengqi Zhang. On-device recommender systems: A … Read more

DJL Serving: 轻松部署你的深度学习模型

你是否还在为如何将训练好的深度学习模型部署到生产环境而烦恼?传统的部署方式往往需要复杂的配置和维护,而且难以扩展。现在,DJL Serving 为你提供了一个简单、高效、可扩展的解决方案! DJL Serving 是一个基于 DJL 的高性能通用模型服务解决方案,它可以将你的深度学习模型轻松部署为 HTTP 服务,方便其他应用程序调用。 DJL Serving 的优势 安装 DJL Serving 你可以通过以下方式安装 DJL Serving: 使用 DJL Serving DJL Serving 可以通过命令行启动,并提供 RESTful API 用于模型推理和管理。 启动 DJL Serving: REST API: 默认情况下,DJL Serving 监听端口 8080,仅允许本地访问。你可以修改配置文件以允许远程访问。 扩展 DJL Serving DJL Serving 支持插件机制,你可以开发自己的插件来扩展功能。 总结 DJL Serving 是一个强大的模型服务解决方案,它能够帮助你轻松部署和管理深度学习模型,并提供高性能和可扩展性。无论你是初学者还是经验丰富的开发者,DJL Serving 都能满足你的需求。 更多信息: DJL Serving 架构揭秘:模型服务背后的秘密 DJL Serving … Read more

用Java玩转深度学习:DJL实战指南

深度学习模型大多用Python开发,而服务端却多用Java,导致许多开发者不得不使用Java调用Python接口,效率低下且不够优雅。更糟糕的是,如果想在Android上进行推理,就必须使用Java。 别担心!现在,我们可以用Java直接进行深度学习了!DJL(Deep Java Library)是一个强大的开源深度学习框架,它支持模型构建、训练、推理,甚至在Android上运行。本文将带你深入了解DJL,并通过一个实战案例,教你用Java加载PyTorch模型进行图片分类。 DJL:Java深度学习的利器 DJL 的出现,为Java开发者打开了深度学习的大门。它提供了一套简洁易用的API,让Java开发者能够轻松地构建、训练和部署深度学习模型。 DJL 的优势: DJL 核心 API 解密 DJL 的核心 API 包括 Criteria、Translator 和 NDArray,它们共同构成了深度学习模型的构建和操作基础。 1. Criteria:模型的定义 Criteria 类对象定义了模型的属性,例如模型路径、输入和输出类型等。 这段代码定义了一个名为 “resnet50” 的模型,并加载了它。 2. Translator:数据转换桥梁 Translator 接口定义了如何将自定义的输入输出类转换为 Tensor 类型。 Translator 接口包含两个方法: 3. NDArray:Tensor 操作的利器 NDArray 类类似于 Python 中的 NumPy 数组,它提供了丰富的 Tensor 操作功能。 DJL 提供了多种 NDArray 操作,例如: 实战:用 DJL 加载 PyTorch 模型进行图片分类 … Read more