Month: June 2024

基于 Agent 的大型语言模型:AI 智能体的新时代基于 Agent 的大型语言模型:AI 智能体的新时代

近年来,大型语言模型(LLM)取得了令人瞩目的进展,展现出强大的语言理解和生成能力,被誉为通用人工智能(AGI)的潜在火花。与此同时,AI Agent 的概念也逐渐兴起,成为实现 AGI 的关键步骤。AI Agent 是指能够感知环境、做出决策并采取行动的人工实体。将 LLM 与 Agent 结合,赋予 LLM 更广阔的感知空间和行动空间,将有望构建出更加智能、更加通用的 AI Agent。 AI Agent 的起源与发展 从哲学到 AI “Agent” 的概念起源于哲学,可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和采取行动能力的实体。这个概念后来被引入计算机科学领域,用于描述能够感知环境、做出决策并采取行动的计算实体。 AI Agent 研究的技术趋势 AI Agent 的研究经历了多个阶段,从早期的符号 Agent,到反应型 Agent,再到基于强化学习的 [...]

大型语言模型的“灾难性遗忘”:指令向量揭示真相,引导训练化解危机大型语言模型的“灾难性遗忘”:指令向量揭示真相,引导训练化解危机

大型语言模型(LLM)在自然语言处理领域取得了巨大成功,但它们在微调过程中容易出现“灾难性遗忘”问题,即模型在学习新任务时会忘记之前学到的知识。这无疑限制了 LLM 的应用范围,也引发了人们对 LLM 可靠性和可解释性的担忧。本文将深入探讨 LLM 的遗忘机制,并提出一种基于指令向量(IV)的训练方法,有效缓解遗忘问题。 遗忘的真相:指令理解能力的下降,而非知识遗失 传统的遗忘研究主要关注模型在不同任务上的性能变化,但对于遗忘的内在机制却知之甚少。本文提出了一种新的视角,将 LLM 的能力分为两类:知识理解能力和指令理解能力。 通过对持续指令微调框架下的实验观察,我们发现:指令理解能力的下降是导致模型遗忘的主要原因,而非知识遗失。 实验设计: 研究者使用持续指令微调框架,对 LLM 进行了一系列的指令学习任务。每个任务都对应一个特定的指令,例如“翻译成西班牙语”、“生成一段代码”。研究者观察了模型在学习新任务后,其在知识理解和指令理解方面的表现。 实验结果: 实验结果表明,模型在学习新任务后,其指令理解能力普遍下降,而知识理解能力则相对稳定,甚至有所提升。这说明模型的遗忘主要体现在对新指令的适应能力下降,而非对已学知识的遗忘。 指令向量:揭示遗忘背后的秘密,洞悉模型内部变化 为了深入理解遗忘机制,我们提出了指令向量(IV)框架。IV 代表与特定指令相关的模型表征,它可以帮助我们理解模型内部的变化,从而揭示遗忘的内在原因。 IV 假设: 研究者假设每个指令都对应一个潜在的指令向量 θc,它控制着模型对该指令的理解和执行能力。模型的输出 yc 可以通过一个包含 x、c 和 θc [...]

大模型的可控生成:CoDI-Eval 基准测试大模型的可控生成:CoDI-Eval 基准测试

近年来,大型语言模型(LLM)在理解和执行自然语言指令方面展现出惊人的能力,为自然语言处理领域带来了革命性的变革。然而,LLM 并不总是能准确地响应包含特定约束的指令。例如,要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件,它们可能无法满足这些要求。因此,评估 LLM 对包含特定约束指令的响应能力至关重要。 可控文本生成:传统方法的局限性 可控文本生成(CTG)是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上,例如控制文本长度或包含特定关键词。然而,这种方法并不适用于新的指令遵循范式,因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。 此外,在现实场景中,指令中的约束条件通常以自由形式的自然语言表达,例如“写一篇关于人工智能的简短文章”。因此,LLM 需要能够理解各种表达方式的约束条件,并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力,以及与实际用户期望的匹配程度。 CoDI-Eval:一个新的基准测试 为了填补这一空白,并推动 LLM 与人类期望更好地对齐的研究,我们提出了 CoDI-Eval(Controllable Generation under Diversified Instructions),一个新的基准测试,用于系统地评估 LLM [...]

为新闻推荐系统预训练词向量和实体向量为新闻推荐系统预训练词向量和实体向量

新闻推荐系统近年来发展迅速,其中一个重要的技术突破是深度知识感知网络 (DKN) 的出现。DKN 能够利用知识图谱 (KG) 中的实体信息来增强新闻推荐的准确性。为了训练 DKN 模型,我们需要预先训练词向量和实体向量,本文将介绍如何使用 Word2Vec 和 TransE 模型来完成这一任务。 用 Word2Vec 训练词向量 Word2Vec 是一种常用的词向量训练模型,它能够将词语映射到一个高维向量空间中,并学习到词语之间的语义关系。在 DKN 中,我们需要将新闻标题和文本中的词语转换为向量表示,以便模型能够理解文本内容。 我们可以使用 Gensim 库中的 Word2Vec 模型来训练词向量。Gensim 提供了简单易用的接口,可以方便地加载文本数据并训练模型。 首先,我们定义一个类 MySentenceCollection 来读取新闻文本数据。该类实现了迭代器接口,可以逐行读取文本文件并将其转换为词语列表。 接下来,我们定义一个函数 train_word2vec [...]

沙特阿拉伯加入mBridge项目沙特阿拉伯加入mBridge项目

沙特阿拉伯加入mBridge项目,这是一个由国际清算银行(BIS)和中国牵头成立的央行数字货币(CBDC)跨境试验项目,旨在促进即时跨境支付。这一举动显示出沙特阿拉伯的战略灵活性,使其能够接受人民币等其他货币,同时不冒犯美国。沙特央行加入mBridge项目可能对石油美元体系构成威胁,因为沙特及其他石油生产国正逐渐减少在能源贸易中使用美元。 以下是关于沙特加入mBridge项目和石油美元体系的一些重要信息: 综上所述,沙特阿拉伯加入mBridge项目显示出其战略灵活性,使其能够接受其他货币,同时减少对美元的依赖。这一举措可能对石油美元体系构成威胁,并加速全球石油贸易的去美元化趋势。 Learn more: [...]

赋予对话系统“大脑”:从神经科学到虚拟接待员赋予对话系统“大脑”:从神经科学到虚拟接待员

随着聊天机器人、语言模型和语音技术的快速发展,人们越来越渴望创造能够通过自然语言或直接语音与人类无缝交互的系统。本文将探讨如何将对话系统研究置于具身智能的更广阔背景下,借鉴神经生物学和神经心理学中的概念,定义一种能够融合手工设计和人工神经网络的行为架构,为未来模仿学习或指令学习等新学习方法打开大门。 传统对话系统的局限性 传统的语音助手通常采用一种简单的线性信息流架构,从语音识别到自然语言理解,再到对话管理和自然语言生成,最终输出文本或语音。这种架构虽然在处理简单任务方面表现出色,但面临着一些挑战: 另一方面,手工设计的对话系统虽然易于开发,可控性高,但扩展性存在局限,难以应对复杂多变的对话场景。 借鉴神经科学:Miron系统 本文提出了一种名为“Miron”的系统,其灵感来源于神经科学中的镜像神经元理论。镜像神经元在动物执行特定动作时以及观察其他个体执行相同动作时都会被激活,这表明动作理解和动作生成可能共享相同的表征。 Miron系统将这一概念应用于自然语言理解 (NLU) 和自然语言生成 (NLG) 模块,将一个特定的意图 (intent) 与一组用于识别和生成该意图的模板句子联系起来。每个Miron还包含一个可选的数据结构,用于描述模板句子中使用的命名实体 (named entities),例如日期、地点、人物等。 Miron系统的优势: 具身智能和多模态交互 除了文本对话,具身智能系统还可以通过虚拟化身或物理机器人与人类进行多模态交互,例如眼神、表情、手势等。Miron系统可以通过文本形式表示多模态信息,实现多模态交互。 对话/行为引擎:基于递归神经网络的架构 为了处理异步感知事件 (例如语音、传感器信号) 并生成相应的反应,本文提出了一种基于递归神经网络 (RNN) 的对话/行为引擎。该引擎将状态定义为规则,每个规则对应一个状态,当其条件满足时,就会执行一组关联的动作。 行为引擎的架构: 内部语言:模拟人类的思考过程 人类可以通过“内部语言”进行思考,例如回忆记忆或想象场景。本文借鉴这一概念,允许对话系统通过内部 Miron 意图触发行为,就像外部用户发出指令一样。 模型驱动开发:图形化 [...]

MMLU:我们真的完成了它吗?MMLU:我们真的完成了它吗?

大型语言模型(LLM)的出现,标志着自然语言处理领域取得了重大进展,使我们能够通过自然语言与计算机进行交互。然而,这些模型的评估需要可靠的基准测试,而现有的基准测试却存在着不少问题。 MMLU:一个广受欢迎但存在问题的基准测试 MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)基准测试,因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而,我们发现,尽管MMLU很受欢迎,但它存在着大量错误,这些错误会误导模型评估和比较。 MMLU中的错误:一个需要解决的问题 研究人员发现,MMLU中存在着各种各样的错误,从简单的解析和抓取错误,到更复杂的上下文、解释和数据集质量问题。例如,在病毒学子集中,57% 的问题都存在错误,其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。 MMLU-Redux:一个更可靠的基准测试 为了解决MMLU中存在的错误问题,研究人员手动分析了MMLU数据集,并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题,涵盖了MMLU的30个子集。研究人员发现,MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异,这表明MMLU中存在的错误对模型评估结果产生了重大影响。 MMLU-Redux:一个更可靠的基准测试 MMLU-Redux 的创建,为我们提供了重新评估LLM性能的工具。研究人员发现,在MMLU-Redux 上,一些LLM的性能表现与原始MMLU评估结果存在显著差异,这表明MMLU中的错误会影响模型的排名。 自动修复MMLU:一个挑战 研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法,包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而,即使是最先进的模型,在自动错误检测方面的表现仍然有限。 结论:MMLU需要改进 MMLU是一个重要的基准测试,但它存在着不少问题。MMLU-Redux 的出现,为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力,改进MMLU,使其成为评估下一代LLM的可靠工具。 参考文献 [1] Vaswani, Ashish, et al. “Attention is [...]

技术封建主义:互联网时代的“数字农奴”?技术封建主义:互联网时代的“数字农奴”?

你是否以为,人类正在进入一个新时代——互联网高科技的时代? 2024年出版的新书《技术封建主义》(Techno Feudalism)却提出一个令人深思的观点:人类更像回到了封建时代,只是多了高科技。 这本书的作者雅尼斯·瓦鲁法基斯(Yanis Varoufakis)是一位非比寻常的经济学家。他曾被游戏平台 Steam 的创造者 Valve 公司聘用,后来还担任过希腊的财政部长。这本书正是他卸任后对互联网时代社会结构的深刻思考。 互联网领主与数字农奴 历史上,中世纪的欧洲盛行封建制度。大地主(领主)占有大片土地,控制土地上的一切,农民也变成了领主的私人财产(农奴)。 互联网时代,这种模式似乎在数字世界中重演。尽管互联网看似广阔无垠,但真正掌握话语权的却是少数几家科技巨头:谷歌、苹果、微软、亚马逊、Meta……它们就像互联网时代的领主,瓜分了大部分的数字领地。 在自己的领地上,这些科技巨头拥有至高无上的权力。广大的网民则成了“数字农奴”,他们在这些领地里发帖、上传照片视频,实际上是在为领主工作。他们得到的回报微薄,免费的劳动却为科技巨头创造了巨大的价值。 更令人担忧的是,网民们逐渐产生对这些数字领地的依赖。一天不去领主的土地看看,心里就会感到空虚失落。 高高的围篱与地租 这些数字领主拥有强烈的领地意识,他们筑起高高的围篱,防止自己的数字资产(数据)流出,或被其他公司侵占。 如果你想要使用某个领主的领地,就必须缴纳“地租”——使用费。比如,你想把自己的 App 放在苹果应用商店出售,就必须把 30% 的收入交给苹果。这与中世纪封建制度下的地租何其相似! 打破技术封建主义 瓦鲁法基斯认为,为了打破技术封建主义,防止数字领主的出现,政府必须采取一些强制措施: 结语 《技术封建主义》这本书为我们打开了眼界,让我们意识到,看似繁荣的互联网经济,背后隐藏着深刻的社会问题。技术封建主义的出现,不仅会加剧社会不平等,还会扼杀创新和自由。只有通过政府的积极干预,才能打破这种数字时代的封建统治,创造一个更加公平、开放的互联网社会。 参考文献: [...]

超越相似性:基于复合聚合的个性化联邦推荐超越相似性:基于复合聚合的个性化联邦推荐

近年来,联邦推荐(FR)作为一种新兴的设备端学习范式,在学术界和工业界都引起了广泛关注。现有的联邦推荐方法通常采用不同的协同过滤模型作为本地模型,并通过各种聚合函数来获得一个全局推荐器,遵循基本的联邦学习(FL)原则。例如,一项开创性的工作是 FCF,它通过执行本地更新和使用联邦优化进行全局聚合,对集中式矩阵分解进行了改进。此外,FedNCF 将矩阵分解的线性与深度嵌入技术的非线性相结合,建立在 FCF 的基础之上。这些基于嵌入的联邦推荐模型有效地平衡了推荐准确性和隐私保护。 然而,现有的联邦推荐方法主要利用联邦视觉领域中发明的聚合函数来聚合来自相似客户端的参数,例如聚类聚合。尽管这些方法取得了相当大的性能,但我们认为直接将它们应用于联邦推荐并非最佳选择。这主要体现在模型结构的差异上。与联邦视觉中的卷积神经网络等结构化参数不同,联邦推荐模型通常采用一对一的项目嵌入表来进行区分。这种差异导致了嵌入偏差问题,即在聚合过程中不断更新已训练的嵌入,而忽略了未训练的嵌入,从而无法准确预测未来的项目。 为了解决这个问题,我们提出了一种基于复合聚合的个性化联邦推荐模型(FedCA),它不仅聚合了相似客户端以增强已训练的嵌入,还聚合了互补客户端以更新未训练的嵌入。此外,我们将整个学习过程转化为一个统一的优化算法,以共同学习相似性和互补性。在多个真实数据集上的大量实验证明了我们提出的模型的有效性。 嵌入偏差问题:联邦推荐的独特挑战 联邦推荐模型通常使用一个嵌入表来存储所有项目的表示,每个客户端只训练与自己交互过的项目的嵌入。当使用传统的相似性聚合方法时,会发生嵌入偏差问题:已训练过的项目的嵌入会不断得到优化,而未训练过的项目的嵌入则保持不变甚至退化。这导致模型在预测用户未来可能感兴趣的项目时,由于缺乏对未训练项目信息的了解,效果不佳。 FedCA:基于复合聚合的个性化联邦推荐 为了解决嵌入偏差问题,我们提出了 FedCA 模型,它采用了一种复合聚合机制,同时考虑了模型相似性和数据互补性。 FedCA 使用一个统一的优化框架来共同学习相似性和互补性。通过这种方式,FedCA 能够更有效地聚合项目嵌入,从而提高模型的预测准确性和泛化能力。 实验结果 我们对四个基准数据集进行了实验,包括 Movielens-100K、Filmtrust、Movielens-1M 和 Microlens-100K。实验结果表明,FedCA 在所有数据集上都优于其他基线模型,包括 FCF、FedAvg、PerFedRec、FedAtt、FedFast、pFedGraph 和 PFedRec。此外,我们还进行了消融实验,验证了模型相似性和数据互补性在 FedCA 中的有效性。 总结 本文首先重新思考了联邦视觉和联邦推荐任务之间的根本差异。具体来说,联邦视觉领域主要利用结构化参数(例如卷积神经网络)进行联邦优化,而联邦推荐任务主要采用一对一的项目嵌入表进行个性化推荐。这种关键差异导致了从联邦视觉领域借鉴的基于相似性的聚合方法在聚合嵌入表时无效,从而导致嵌入偏差问题。为了解决上述挑战,我们提出了一种专门针对联邦推荐任务的复合聚合机制。具体来说,通过在一个统一的优化框架内结合模型相似性和数据互补性,我们的方法增强了客户端已交互过的项目的训练嵌入,并优化了客户端未交互过的项目的非训练嵌入。这使得能够有效地预测未来的项目。此外,我们还探讨了近端项在联邦推荐任务中对个性化偏好的无效性,并提出了一种插值方法来缓解联邦推荐中的空间错位问题。 这项研究特别提出了一种很有前景的联邦推荐任务复合聚合框架。它是一个与模型无关的即插即用模块,可以无缝集成到主流联邦推荐模型中。然而,在这项工作中,我们需要手动调整相似性和互补性的权重分配。这些局限性可以通过在未来的研究中使用自动机器学习技术来自适应地学习权重分配来缓解。此外,探索更适合联邦推荐任务的模型相似性和数据互补性机制也是一个很有前景的研究方向。 [...]

DJL Serving: 轻松部署你的深度学习模型DJL Serving: 轻松部署你的深度学习模型

你是否还在为如何将训练好的深度学习模型部署到生产环境而烦恼?传统的部署方式往往需要复杂的配置和维护,而且难以扩展。现在,DJL Serving 为你提供了一个简单、高效、可扩展的解决方案! DJL Serving 是一个基于 DJL 的高性能通用模型服务解决方案,它可以将你的深度学习模型轻松部署为 HTTP 服务,方便其他应用程序调用。 DJL Serving 的优势 安装 DJL Serving 你可以通过以下方式安装 DJL Serving: 使用 DJL Serving DJL Serving 可以通过命令行启动,并提供 RESTful API 用于模型推理和管理。 启动 DJL [...]