MetaGPT:将人类工作流程融入多智能体协作框架的元编程

近年来,基于大型语言模型(LLMs)的智能体社会在自动问题解决方面取得了显著进展。现有的LLM驱动的多智能体系统已经能够解决简单的对话任务,但对于更复杂的任务,由于LLMs链式联接导致的级联幻觉,逻辑不一致问题会变得更加复杂。 本文介绍了MetaGPT,这是一种创新的元编程框架,它将高效的人类工作流程融入LLM驱动的多智能体协作中。MetaGPT将标准操作程序(SOPs)编码成提示序列,以实现更简化的工作流程,从而使具有类似人类领域专业知识的智能体能够验证中间结果并减少错误。MetaGPT利用流水线模式为不同的智能体分配不同的角色,将复杂的任务有效地分解成多个智能体协同完成的子任务。在协作软件工程基准测试中,MetaGPT生成的解决方案比之前的基于聊天的多智能体系统更加连贯。 LLM驱动的多智能体系统的局限性 现有的LLM驱动的多智能体系统(Park et al., 2023; Zhuge et al., 2023; Cai et al., 2023; Wang et al., 2023c; Li et al., 2023; Du et al., 2023; Liang et al., 2023; Hao et al., 2023)往往过于简化了现实世界的复杂性,难以实现有效、连贯和准确的问题解决过程,特别是在需要有意义的协作交互时(Zhang et al., 2023; Dong et al., 2023; Zhou et al., 2023; Qian et al., 2023)。 MetaGPT:借鉴人类工作流程,提升多智能体协作效率 人类在各种领域(Belbin, 2012; Manifesto, 2001; … Read more

重温被Mamba带火的SSM:线性系统和HiPPO矩阵

近年来,深度学习领域涌现出许多新的模型架构,其中状态空间模型(SSM,State Space Model)因其优雅的数学性质和强大的表达能力,逐渐成为Transformer的强劲对手。而Mamba,作为SSM最新的变体,更是凭借其在长序列建模上的优异表现,吸引了众多研究者的关注。 本文将带您深入了解SSM的核心概念,并重温其重要奠基之作——HiPPO(High-order Polynomial Projection Operators)。通过HiPPO的推导,您可以理解线性系统在SSM中的重要性,以及它如何通过有限维的向量来储存无限维的函数信息。 线性系统:简单而强大的表达能力 SSM的核心思想是利用线性微分方程(ODE)系统来建模序列数据。一个典型的线性 ODE 系统可以表示为: $$\frac{dh}{dt} = Ah + Bu$$ 其中,$h$ 代表系统的状态,$u$ 代表输入,$A$ 和 $B$ 是模型参数。 那么,为什么SSM会选择线性系统呢?答案是:线性系统既足够简单,也足够复杂。 简单是指,线性化通常是复杂系统的一个最基本近似。而复杂是指,即使是如此简单的系统,也可以拟合异常复杂的函数。例如,一个简单的线性系统: $$\frac{dh}{dt} = h$$ 其解为 $h(t) = h(0)e^t$。这意味着,只要时间足够长,该线性系统就可以通过指数函数来拟合足够复杂的函数。 HiPPO:从正交基逼近到线性系统 HiPPO 为我们提供了一种更本质的理解:当我们试图用正交基去逼近一个动态更新的函数时,其结果就是如上的线性系统。 假设我们要用一个有限维的向量来储存一段信号 $x(t)$ 的信息。如果我们假设 $x(t)$ 在某点 $t_0$ 阶可导,那么它对应的 $t_0$ 阶泰勒展开式往往是 $x(t)$ 的良好近似。我们可以只储存展开式的系数,从而将 $x(t)$ 压缩为一个有限维向量。 然而,实际遇到的数据通常无法满足“阶可导”这种苛刻的条件。因此,我们更倾向于使用正交函数基展开,比如傅里叶级数。其系数计算公式为: $$c_k = \int_{-\infty}^{\infty} x(t)e^{-2\pi ikt} dt$$ 通过只保留有限个系数,我们可以将 … Read more

重温被Mamba带火的SSM:线性系统和HiPPO矩阵

作者:苏剑林单位:科学空间研究方向:NLP、神经网络 前几天,笔者看了几篇介绍 SSM(State Space Model)的文章,才发现自己从未认真了解过 SSM,于是决定深入学习这一领域,并记录下学习所得。SSM 的概念由来已久,但这里我们特别指深度学习中的 SSM。可以说,2021年的 S4(Structured State Space for Sequence Modeling)是 SSM 的开篇之作,而最近最火的变体大概是去年的 Mamba。 SSM 的基础与发展 SSM 的概念并不新鲜,但其在深度学习领域的应用却是近几年的事。当我们谈到 SSM 时,通常指的是一切线性 RNN 模型,如 RWKV、RetNet 以及 Google 推出的 LRU 等。这些模型的目标之一是成为 Transformer 的竞争者,尽管完全替代 Transformer 的可能性不大,但 SSM 本身优雅的数学性质值得深入研究。 HiPPO 的引入 在 S4 之前,SSM 的奠基之作是《HiPPO: Recurrent Memory with Optimal Polynomial Projections》(简称 HiPPO)。HiPPO 提出了用正交基逼近动态更新的函数,其结果是一个线性系统。这不仅告诉我们线性系统可以逼近复杂的函数,还提供了具体的逼近方法和近似程度。 SSM 的基本形式 对于已经了解 SSM … Read more

HiPPO矩阵:打开序列模型记忆宝库的金钥匙

在人工智能领域,如何让机器像人一样拥有记忆,一直是科学家们孜孜以求的目标。近年来,序列模型(SSM)的兴起为解决这一难题带来了新的曙光。而在众多SSM模型中,HiPPO矩阵犹如一把金钥匙,打开了序列模型记忆宝库的大门,为我们理解和应用SSM模型提供了全新的视角。 在线函数逼近:序列模型的记忆挑战 许多机器学习任务都需要处理不断涌现的序列数据,例如实时预测时间序列、让智能体在环境中学习和决策等等。这些任务的核心挑战在于如何有效地存储和利用历史信息,即序列模型的“记忆”问题。 传统的机器学习模型往往受限于固定的上下文窗口或启发式机制,难以有效地捕捉长期依赖关系。例如,注意力机制的上下文窗口大小是固定的,而循环神经网络(RNN)则容易出现梯度消失问题,导致模型难以记住很久以前的信息。 HiPPO框架:从数学角度解决记忆问题 为了解决序列模型的记忆问题,HiPPO框架应运而生。HiPPO的全称是“高阶多项式投影算子(High-order Polynomial Projection Operators)”,它从数学角度出发,将序列模型的记忆问题转化为一个在线函数逼近问题。 HiPPO框架的核心思想是:用一个有限维的向量来表示一个连续函数的历史信息。这听起来似乎是一个不可能完成的任务,因为连续函数包含无限多的信息。然而,HiPPO框架巧妙地利用了正交函数基展开的思想,将连续函数投影到一个有限维的子空间中,从而实现了信息的压缩和存储。 具体来说,HiPPO框架选择勒让德多项式作为函数基,并根据不同的“记忆假设”,推导出了不同类型的HiPPO矩阵。这些矩阵可以看作是不同类型的“记忆过滤器”,它们决定了模型应该记住哪些历史信息,以及如何记住这些信息。 两种典型的HiPPO矩阵:LegT和LegS HiPPO框架中最具代表性的两种HiPPO矩阵是LegT(Translated Legendre)和LegS(Scaled Legendre)。 HiPPO矩阵的意义和应用 HiPPO矩阵的提出,为我们理解和应用SSM模型提供了以下重要意义: 总结 HiPPO矩阵是SSM模型发展历程中的一个重要里程碑。它不仅为我们提供了一种高效的记忆机制,更重要的是,它为我们理解和应用SSM模型打开了一扇全新的大门。相信随着研究的深入,HiPPO矩阵将在序列模型的未来发展中发挥更加重要的作用。 参考文献

超越单一评分:RichHF-18K数据集和RAHF模型如何用“丰富反馈”提升AI图像生成?

近年来,Stable Diffusion、Imagen等文生图(T2I)模型在生成高分辨率图像方面取得了显著进步,但生成的图像仍存在不少问题,如图像失真、与文本描述不符、美观度不足等。为了解决这些问题,谷歌和多所高校的研究人员共同创建了包含“丰富反馈”的RichHF-18K数据集,并提出了一种名为RAHF的多模态Transformer模型,旨在更全面、精准地评估和提升AI图像生成质量。 RichHF-18K:不止于评分的“丰富反馈” 现有的图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息。而RichHF-18K数据集则包含了更为丰富的反馈维度,具体包括: RAHF模型:学习“丰富反馈”,预测图像质量 RAHF模型的架构基于ViT和T5X模型,并结合了自注意力机制,能够有效融合图像和文本信息。该模型可以预测图像的失真/不一致区域、不一致关键词以及四个细粒度评分,从而更全面地评估图像生成质量。 RAHF模型的应用:提升AI图像生成质量 RAHF模型预测的“丰富反馈”信息可以用于提升AI图像生成质量,例如: 总结与展望:迈向更智能的AI图像生成 RichHF-18K数据集和RAHF模型的提出,为AI图像生成领域带来了全新的思路和方法。通过引入“丰富反馈”机制,可以更有效地评估和提升AI图像生成质量,推动AI图像生成技术走向更高的智能化水平。 当然,这项研究也存在一些局限性,例如: 未来,研究人员将继续探索如何利用“丰富反馈”机制,开发更先进的AI图像生成技术,为用户带来更优质的图像生成体验。 参考文献: CVPR最佳论文解读:RAHF模型如何利用“丰富人类反馈”提升AI图像生成? 这篇来自加州大学圣地亚哥分校、谷歌研究院等机构的CVPR最佳论文《Rich Human Feedback for Text-to-Image Generation》聚焦于如何利用更丰富的用户反馈来提升AI图像生成技术的质量。 直击痛点:现有评估方法存在不足 论文指出,现有的AI图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息,难以有效指导模型改进。例如,仅仅告诉模型一张图片“好”或“不好”,并不能让模型真正理解问题所在,更无法针对性地进行优化。 RAHF模型:捕捉“丰富人类反馈” 为了解决这一问题,研究团队提出了一种名为RAHF(Rich Automatic Human Feedback)的多模态Transformer模型。该模型能够捕捉更丰富的人类反馈信息,包括: 实验结果:RAHF模型提升图像生成质量 实验结果表明,RAHF模型能够有效预测用户的“丰富反馈”,并将其用于提升AI图像生成质量。例如: 总结:迈向更智能的AI图像生成 RAHF模型的提出,为AI图像生成领域带来了全新的思路和方法。通过捕捉更丰富的用户反馈信息,可以更有效地评估和提升AI图像生成质量,推动AI图像生成技术走向更高的智能化水平。 未来展望 研究团队计划公开RichHF-18K数据集,以促进学术界和工业界对“丰富人类反馈”在AI图像生成领域应用的进一步研究。相信在未来,RAHF模型将会在更广泛的领域发挥重要作用,为用户带来更优质的图像生成体验。

哄AI像哄小孩?一句“咒语”让GPT-3准确率暴涨61%!

最近,机器学习界出现了一项令人震惊的研究成果:仅仅对GPT-3说一句“让我们一步一步地思考”,就能让它解开之前无法解答的难题,准确率瞬间提高61%!这感觉就像幼儿园阿姨哄小朋友一样神奇,难道哄AI也要像哄小孩? “一步一步思考”:神奇咒语背后的秘密 这项由谷歌大脑和东京大学合作的研究发现,简单的提示词可以显著提高GPT-3在零样本学习场景下的推理能力。研究人员将这种方法称为“思维链路提示”(CoT),其核心是通过引导语言模型逐步思考,最终得出正确答案。例如,面对“16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?”这个问题,直接询问GPT-3会得到错误答案“8”。但如果在提问时加上“让我们一步一步地思考”,GPT-3就会先列出解题步骤,最终给出正确答案“4”。 CoT并非万能药:效果受模型版本、问题类型影响 研究人员对CoT的效果进行了广泛的测试,结果表明,CoT在大多数情况下都能显著提高GPT-3的准确率,尤其是在数学和常识推理方面。然而,CoT并非万能药,其效果会受到GPT-3版本、问题类型等因素的影响。例如,CoT对GPT-3最新版本Text-davinci-002的效果最佳,对旧版本的提升效果则相对有限。 从“特征工程”到“提示工程”:AI研究的新方向? CoT的成功引发了人们对“提示工程”的关注。一些学者认为,“提示工程”正在取代传统的“特征工程”,成为AI研究的新方向。通过设计巧妙的提示词,可以引导AI更好地理解人类意图,从而提高其性能。未来,”提示词猎人”会不会成为NLP研究者的新头衔? 结语:哄AI,更需理解AI 尽管“哄AI像哄小孩”的说法很有趣,但我们不能忽视对AI本身的理解。CoT的成功表明,通过引导AI模拟人类的思维方式,可以有效提高其推理能力。未来,如何设计更有效的提示词,如何将CoT应用于更广泛的领域,将是AI研究的重要课题。 参考文献:

基于 Agent 的大型语言模型:AI 智能体的新时代

近年来,大型语言模型(LLM)取得了令人瞩目的进展,展现出强大的语言理解和生成能力,被誉为通用人工智能(AGI)的潜在火花。与此同时,AI Agent 的概念也逐渐兴起,成为实现 AGI 的关键步骤。AI Agent 是指能够感知环境、做出决策并采取行动的人工实体。将 LLM 与 Agent 结合,赋予 LLM 更广阔的感知空间和行动空间,将有望构建出更加智能、更加通用的 AI Agent。 AI Agent 的起源与发展 从哲学到 AI “Agent” 的概念起源于哲学,可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和采取行动能力的实体。这个概念后来被引入计算机科学领域,用于描述能够感知环境、做出决策并采取行动的计算实体。 AI Agent 研究的技术趋势 AI Agent 的研究经历了多个阶段,从早期的符号 Agent,到反应型 Agent,再到基于强化学习的 Agent,以及具有迁移学习和元学习能力的 Agent。近年来,随着 LLM 的兴起,基于 LLM 的 Agent 逐渐成为研究热点。 LLM 成为 Agent 大脑的优势 LLM 非常适合作为 AI Agent 的大脑或控制器的主要组成部分,因为它具备以下关键属性: 基于 LLM 的 Agent 构建 大脑:智能体的核心 大脑是 AI … Read more

大型语言模型的“灾难性遗忘”:指令向量揭示真相,引导训练化解危机

大型语言模型(LLM)在自然语言处理领域取得了巨大成功,但它们在微调过程中容易出现“灾难性遗忘”问题,即模型在学习新任务时会忘记之前学到的知识。这无疑限制了 LLM 的应用范围,也引发了人们对 LLM 可靠性和可解释性的担忧。本文将深入探讨 LLM 的遗忘机制,并提出一种基于指令向量(IV)的训练方法,有效缓解遗忘问题。 遗忘的真相:指令理解能力的下降,而非知识遗失 传统的遗忘研究主要关注模型在不同任务上的性能变化,但对于遗忘的内在机制却知之甚少。本文提出了一种新的视角,将 LLM 的能力分为两类:知识理解能力和指令理解能力。 通过对持续指令微调框架下的实验观察,我们发现:指令理解能力的下降是导致模型遗忘的主要原因,而非知识遗失。 实验设计: 研究者使用持续指令微调框架,对 LLM 进行了一系列的指令学习任务。每个任务都对应一个特定的指令,例如“翻译成西班牙语”、“生成一段代码”。研究者观察了模型在学习新任务后,其在知识理解和指令理解方面的表现。 实验结果: 实验结果表明,模型在学习新任务后,其指令理解能力普遍下降,而知识理解能力则相对稳定,甚至有所提升。这说明模型的遗忘主要体现在对新指令的适应能力下降,而非对已学知识的遗忘。 指令向量:揭示遗忘背后的秘密,洞悉模型内部变化 为了深入理解遗忘机制,我们提出了指令向量(IV)框架。IV 代表与特定指令相关的模型表征,它可以帮助我们理解模型内部的变化,从而揭示遗忘的内在原因。 IV 假设: 研究者假设每个指令都对应一个潜在的指令向量 θc,它控制着模型对该指令的理解和执行能力。模型的输出 yc 可以通过一个包含 x、c 和 θc 的计算图来表示:fM(x, c, θc) → yc。 IV 提取: 研究者使用因果中介分析识别出对模型输出有显著因果影响的注意力头,并将其表征聚合起来,得到相应的 IV。具体而言,研究者首先收集了模型在处理特定指令时,每个注意力头的激活状态。然后,他们通过因果中介分析,识别出对模型输出有显著因果影响的注意力头。最后,他们将这些注意力头的表征聚合起来,得到相应的 IV。 IV 分析: 研究者通过分析 IV 在训练前后变化,发现了一些重要的现象: 指令向量引导训练:缓解遗忘的利器,维护模型原有能力 基于 IV 分析,研究者提出了一种指令向量引导训练方法,旨在通过维护 IV 相关的计算图来缓解遗忘问题。 方法: 实验结果: 未来展望 我们的研究为理解 … Read more

大模型的可控生成:CoDI-Eval 基准测试

近年来,大型语言模型(LLM)在理解和执行自然语言指令方面展现出惊人的能力,为自然语言处理领域带来了革命性的变革。然而,LLM 并不总是能准确地响应包含特定约束的指令。例如,要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件,它们可能无法满足这些要求。因此,评估 LLM 对包含特定约束指令的响应能力至关重要。 可控文本生成:传统方法的局限性 可控文本生成(CTG)是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上,例如控制文本长度或包含特定关键词。然而,这种方法并不适用于新的指令遵循范式,因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。 此外,在现实场景中,指令中的约束条件通常以自由形式的自然语言表达,例如“写一篇关于人工智能的简短文章”。因此,LLM 需要能够理解各种表达方式的约束条件,并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力,以及与实际用户期望的匹配程度。 CoDI-Eval:一个新的基准测试 为了填补这一空白,并推动 LLM 与人类期望更好地对齐的研究,我们提出了 CoDI-Eval(Controllable Generation under Diversified Instructions),一个新的基准测试,用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务,并使用多样化的自然语言指令来表达约束条件,从而更准确地衡量 LLM 对包含特定约束指令的响应能力。 CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面,我们选择了五个典型的 CTG 任务,涵盖了情感、主题、长度、关键词和避免毒性等方面。此外,我们还包含了一个多方面控制的任务,同时包含两个方面的约束条件,以测试 LLM 在更具挑战性的复杂场景下的表现。 在泛化能力方面,我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”,使用一个强大的 LLM 生成更多指令,从而构建指令池。第二步是“多样化”,通过对指令进行文本重写,以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步,直到达到预期的指令规模。这两个步骤都由 LLM 自动完成,无需人工干预。 CoDI-Eval 的评估方法 为了评估 CoDI-Eval,我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务,我们借助现有的开源专用模型或外部 … Read more

为新闻推荐系统预训练词向量和实体向量

新闻推荐系统近年来发展迅速,其中一个重要的技术突破是深度知识感知网络 (DKN) 的出现。DKN 能够利用知识图谱 (KG) 中的实体信息来增强新闻推荐的准确性。为了训练 DKN 模型,我们需要预先训练词向量和实体向量,本文将介绍如何使用 Word2Vec 和 TransE 模型来完成这一任务。 用 Word2Vec 训练词向量 Word2Vec 是一种常用的词向量训练模型,它能够将词语映射到一个高维向量空间中,并学习到词语之间的语义关系。在 DKN 中,我们需要将新闻标题和文本中的词语转换为向量表示,以便模型能够理解文本内容。 我们可以使用 Gensim 库中的 Word2Vec 模型来训练词向量。Gensim 提供了简单易用的接口,可以方便地加载文本数据并训练模型。 首先,我们定义一个类 MySentenceCollection 来读取新闻文本数据。该类实现了迭代器接口,可以逐行读取文本文件并将其转换为词语列表。 接下来,我们定义一个函数 train_word2vec 来训练 Word2Vec 模型。该函数接受新闻文本文件路径和输出目录作为参数,并保存训练好的模型文件。 用 TransE 训练实体向量 知识图谱 (KG) 由实体和关系组成,可以用来表示世界上的各种知识。在 DKN 中,我们可以利用 KG 中的实体信息来增强新闻推荐的准确性。为了将 KG 中的实体信息融入到 DKN 模型中,我们需要将实体映射到向量空间中,即训练实体向量。 TransE 是一种常用的知识图谱嵌入模型,它能够将实体和关系映射到同一个向量空间中,并学习到实体和关系之间的语义关系。我们可以使用开源的 Fast-TransX 库来训练 TransE 模型。 构建上下文向量 DKN … Read more