合并模型,安全至上:一个“坏”模型毁掉整个模型池

大型语言模型(LLMs)在语言处理任务中展现出惊人的能力,甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能,研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如,OpenBioLLM在生物医学领域表现出色,而MAmmoTH在STEM科目(科学、技术、工程和数学)中表现良好。 然而,由于专家模型可能只擅长特定领域,因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如,将一个擅长化学的模型与另一个擅长数学的模型合并,可以创建一个在两个科目中都表现良好的统一模型,通常比单个专家模型表现更好。这种方法特别具有吸引力,因为它允许利用来自众多开源模型的知识,而无需承担高昂的训练成本。 然而,一个关键问题被忽视了:模型合并会如何影响现有LLMs的安全对齐? 安全对齐是指模型生成响应的能力,这些响应是安全的、符合道德标准的,并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐,可能会给用户带来不安全的内容。例如,一个合并了多个专家模型的模型,如果其中一个专家模型存在安全问题,那么合并后的模型也可能继承了这个安全问题,即使其他专家模型是安全的。 本文探讨了模型合并对对齐的影响,并提出了一种安全意识的模型合并方法,以确保合并后的模型既保持了领域专业知识,也具有高安全对齐性。 现有模型合并技术的局限性 现有的模型合并技术通常忽略了安全对齐的重要性,导致合并后的模型可能出现严重的对齐问题。论文通过实验表明,现有的模型合并技术不仅会传递领域专业知识,还可能传播对齐问题。例如,如果将一个未对齐的模型与其他对齐的模型合并,合并后的模型也可能变得未对齐,即使其他专家模型是安全的。 安全意识模型合并方法 为了解决这个问题,论文提出了一个简单的两步方法来合并专家模型,同时保持对齐性。这个过程包括生成合成的安全和领域特定数据,并将这些数据整合到现有数据感知模型合并技术的优化过程中。 1. 生成合成数据 论文首先生成两组数据集: 2. 数据驱动合并优化 论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中,例如 EvoMM 和 LM-Cocktail,以优化任务权重,最大化合并模型在对齐性和领域性能上的表现。通过这种方式,合并模型在处理 Dexpert 和 Dsafety 时,能够保持高对齐性和领域专业知识。 实验结果 论文通过一系列实验验证了其方法的有效性。实验结果表明,论文提出的安全意识合并方法在不牺牲领域准确性的情况下,能够显著提高合并模型的安全对齐性。 论文还进行了消融实验来评估不同因素(如损失组合因子、数据来源、样本数量和优化步骤)对合并性能的影响。实验结果表明,论文提出的方法对这些因素的变化具有较强的鲁棒性。 未来研究方向 论文也指出了未来研究的方向,包括: 结论 论文深入探讨了在合并大型语言模型时如何保持模型的安全对齐性,并提出了一种有效的解决方案。论文的研究结果不仅对模型合并有重要意义,也可能对LLM的其他操作,如稀疏化、量化、专家混合架构、分布式学习等产生影响。 参考文献 Q: 这篇论文试图解决什么问题? A: 这篇论文探讨了在合并大型语言模型(LLMs)时,现有技术可能忽视了模型安全对齐(safety alignment)的重要性,导致合并后的模型可能出现严重的对齐问题。具体来说,论文指出了以下几个关键问题: 为了解决这些问题,论文提出了一个简单的两步方法来合并专家模型,同时保持对齐性。这个过程包括生成合成的安全和领域特定数据,并将这些数据整合到现有数据感知模型合并技术的优化过程中。这样,合并后的LLM能够在保持领域专业知识的同时,也具有高安全对齐性。 Q: 有哪些相关研究? A: 论文中提到了多个与大型语言模型(LLMs)对齐和合并技术相关的研究工作。以下是一些主要的相关研究领域和具体工作: LLM对齐 确保LLMs的对齐性至关重要。一些研究强调了微调(fine-tuning)的风险,表明即使是良性数据集也可能降低模型的安全性,需要仔细的适应协议来保持对齐。 对齐技术 提出了一些技术来对齐LLM,例如: 模型合并技术 提出了多种合并多个模型的方法,以无需重新训练或访问原始数据集的情况下,从多个LLMs的能力中受益。例如: 自动任务加权 为了解决现有合并技术中任务加权因子选择的问题,提出了一些自动选择任务加权因子的方法,例如: 对齐评估 在评估LLMs方面,研究集中在它们的鲁棒性、伦理考虑和安全对齐上。例如: 安全性问题 … Read more

合并模型,安全至上:一个“坏”模型毁掉整个模型池

大型语言模型(LLMs)在语言处理任务中展现出惊人的能力,甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能,研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如,OpenBioLLM在生物医学领域表现出色,而MAmmoTH在STEM科目(科学、技术、工程和数学)中表现良好。 然而,由于专家模型可能只擅长特定领域,因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如,将一个擅长化学的模型与另一个擅长数学的模型合并,可以创建一个在两个科目中都表现良好的统一模型,通常比单个专家模型表现更好。这种方法特别具有吸引力,因为它允许利用来自众多开源模型的知识,而无需承担高昂的训练成本。 然而,一个关键问题被忽视了:模型合并会如何影响现有LLMs的安全对齐? 安全对齐是指模型生成响应的能力,这些响应是安全的、符合道德标准的,并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐,可能会给用户带来不安全的内容。例如,一个合并了多个专家模型的模型,如果其中一个专家模型存在安全问题,那么合并后的模型也可能继承了这个安全问题,即使其他专家模型是安全的。 本文探讨了模型合并对对齐的影响,并提出了一种安全意识的模型合并方法,以确保合并后的模型既保持了领域专业知识,也具有高安全对齐性。 现有模型合并技术的局限性 现有的模型合并技术通常忽略了安全对齐的重要性,导致合并后的模型可能出现严重的对齐问题。论文通过实验表明,现有的模型合并技术不仅会传递领域专业知识,还可能传播对齐问题。例如,如果将一个未对齐的模型与其他对齐的模型合并,合并后的模型也可能变得未对齐,即使其他专家模型是安全的。 安全意识模型合并方法 为了解决这个问题,论文提出了一个简单的两步方法来合并专家模型,同时保持对齐性。这个过程包括生成合成的安全和领域特定数据,并将这些数据整合到现有数据感知模型合并技术的优化过程中。 1. 生成合成数据 论文首先生成两组数据集: 2. 数据驱动合并优化 论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中,例如 EvoMM 和 LM-Cocktail,以优化任务权重,最大化合并模型在对齐性和领域性能上的表现。通过这种方式,合并模型在处理 Dexpert 和 Dsafety 时,能够保持高对齐性和领域专业知识。 实验结果 论文通过一系列实验验证了其方法的有效性。实验结果表明,论文提出的安全意识合并方法在不牺牲领域准确性的情况下,能够显著提高合并模型的安全对齐性。 论文还进行了消融实验来评估不同因素(如损失组合因子、数据来源、样本数量和优化步骤)对合并性能的影响。实验结果表明,论文提出的方法对这些因素的变化具有较强的鲁棒性。 未来研究方向 论文也指出了未来研究的方向,包括: 结论 论文深入探讨了在合并大型语言模型时如何保持模型的安全对齐性,并提出了一种有效的解决方案。论文的研究结果不仅对模型合并有重要意义,也可能对LLM的其他操作,如稀疏化、量化、专家混合架构、分布式学习等产生影响。 参考文献

MetaGPT:将人类工作流程融入多智能体协作框架的元编程

近年来,基于大型语言模型(LLMs)的智能体社会在自动问题解决方面取得了显著进展。现有的LLM驱动的多智能体系统已经能够解决简单的对话任务,但对于更复杂的任务,由于LLMs链式联接导致的级联幻觉,逻辑不一致问题会变得更加复杂。 本文介绍了MetaGPT,这是一种创新的元编程框架,它将高效的人类工作流程融入LLM驱动的多智能体协作中。MetaGPT将标准操作程序(SOPs)编码成提示序列,以实现更简化的工作流程,从而使具有类似人类领域专业知识的智能体能够验证中间结果并减少错误。MetaGPT利用流水线模式为不同的智能体分配不同的角色,将复杂的任务有效地分解成多个智能体协同完成的子任务。在协作软件工程基准测试中,MetaGPT生成的解决方案比之前的基于聊天的多智能体系统更加连贯。 LLM驱动的多智能体系统的局限性 现有的LLM驱动的多智能体系统(Park et al., 2023; Zhuge et al., 2023; Cai et al., 2023; Wang et al., 2023c; Li et al., 2023; Du et al., 2023; Liang et al., 2023; Hao et al., 2023)往往过于简化了现实世界的复杂性,难以实现有效、连贯和准确的问题解决过程,特别是在需要有意义的协作交互时(Zhang et al., 2023; Dong et al., 2023; Zhou et al., 2023; Qian et al., 2023)。 MetaGPT:借鉴人类工作流程,提升多智能体协作效率 人类在各种领域(Belbin, 2012; Manifesto, 2001; … Read more

重温被Mamba带火的SSM:线性系统和HiPPO矩阵

近年来,深度学习领域涌现出许多新的模型架构,其中状态空间模型(SSM,State Space Model)因其优雅的数学性质和强大的表达能力,逐渐成为Transformer的强劲对手。而Mamba,作为SSM最新的变体,更是凭借其在长序列建模上的优异表现,吸引了众多研究者的关注。 本文将带您深入了解SSM的核心概念,并重温其重要奠基之作——HiPPO(High-order Polynomial Projection Operators)。通过HiPPO的推导,您可以理解线性系统在SSM中的重要性,以及它如何通过有限维的向量来储存无限维的函数信息。 线性系统:简单而强大的表达能力 SSM的核心思想是利用线性微分方程(ODE)系统来建模序列数据。一个典型的线性 ODE 系统可以表示为: $$\frac{dh}{dt} = Ah + Bu$$ 其中,$h$ 代表系统的状态,$u$ 代表输入,$A$ 和 $B$ 是模型参数。 那么,为什么SSM会选择线性系统呢?答案是:线性系统既足够简单,也足够复杂。 简单是指,线性化通常是复杂系统的一个最基本近似。而复杂是指,即使是如此简单的系统,也可以拟合异常复杂的函数。例如,一个简单的线性系统: $$\frac{dh}{dt} = h$$ 其解为 $h(t) = h(0)e^t$。这意味着,只要时间足够长,该线性系统就可以通过指数函数来拟合足够复杂的函数。 HiPPO:从正交基逼近到线性系统 HiPPO 为我们提供了一种更本质的理解:当我们试图用正交基去逼近一个动态更新的函数时,其结果就是如上的线性系统。 假设我们要用一个有限维的向量来储存一段信号 $x(t)$ 的信息。如果我们假设 $x(t)$ 在某点 $t_0$ 阶可导,那么它对应的 $t_0$ 阶泰勒展开式往往是 $x(t)$ 的良好近似。我们可以只储存展开式的系数,从而将 $x(t)$ 压缩为一个有限维向量。 然而,实际遇到的数据通常无法满足“阶可导”这种苛刻的条件。因此,我们更倾向于使用正交函数基展开,比如傅里叶级数。其系数计算公式为: $$c_k = \int_{-\infty}^{\infty} x(t)e^{-2\pi ikt} dt$$ 通过只保留有限个系数,我们可以将 … Read more

重温被Mamba带火的SSM:线性系统和HiPPO矩阵

作者:苏剑林单位:科学空间研究方向:NLP、神经网络 前几天,笔者看了几篇介绍 SSM(State Space Model)的文章,才发现自己从未认真了解过 SSM,于是决定深入学习这一领域,并记录下学习所得。SSM 的概念由来已久,但这里我们特别指深度学习中的 SSM。可以说,2021年的 S4(Structured State Space for Sequence Modeling)是 SSM 的开篇之作,而最近最火的变体大概是去年的 Mamba。 SSM 的基础与发展 SSM 的概念并不新鲜,但其在深度学习领域的应用却是近几年的事。当我们谈到 SSM 时,通常指的是一切线性 RNN 模型,如 RWKV、RetNet 以及 Google 推出的 LRU 等。这些模型的目标之一是成为 Transformer 的竞争者,尽管完全替代 Transformer 的可能性不大,但 SSM 本身优雅的数学性质值得深入研究。 HiPPO 的引入 在 S4 之前,SSM 的奠基之作是《HiPPO: Recurrent Memory with Optimal Polynomial Projections》(简称 HiPPO)。HiPPO 提出了用正交基逼近动态更新的函数,其结果是一个线性系统。这不仅告诉我们线性系统可以逼近复杂的函数,还提供了具体的逼近方法和近似程度。 SSM 的基本形式 对于已经了解 SSM … Read more

HiPPO矩阵:打开序列模型记忆宝库的金钥匙

在人工智能领域,如何让机器像人一样拥有记忆,一直是科学家们孜孜以求的目标。近年来,序列模型(SSM)的兴起为解决这一难题带来了新的曙光。而在众多SSM模型中,HiPPO矩阵犹如一把金钥匙,打开了序列模型记忆宝库的大门,为我们理解和应用SSM模型提供了全新的视角。 在线函数逼近:序列模型的记忆挑战 许多机器学习任务都需要处理不断涌现的序列数据,例如实时预测时间序列、让智能体在环境中学习和决策等等。这些任务的核心挑战在于如何有效地存储和利用历史信息,即序列模型的“记忆”问题。 传统的机器学习模型往往受限于固定的上下文窗口或启发式机制,难以有效地捕捉长期依赖关系。例如,注意力机制的上下文窗口大小是固定的,而循环神经网络(RNN)则容易出现梯度消失问题,导致模型难以记住很久以前的信息。 HiPPO框架:从数学角度解决记忆问题 为了解决序列模型的记忆问题,HiPPO框架应运而生。HiPPO的全称是“高阶多项式投影算子(High-order Polynomial Projection Operators)”,它从数学角度出发,将序列模型的记忆问题转化为一个在线函数逼近问题。 HiPPO框架的核心思想是:用一个有限维的向量来表示一个连续函数的历史信息。这听起来似乎是一个不可能完成的任务,因为连续函数包含无限多的信息。然而,HiPPO框架巧妙地利用了正交函数基展开的思想,将连续函数投影到一个有限维的子空间中,从而实现了信息的压缩和存储。 具体来说,HiPPO框架选择勒让德多项式作为函数基,并根据不同的“记忆假设”,推导出了不同类型的HiPPO矩阵。这些矩阵可以看作是不同类型的“记忆过滤器”,它们决定了模型应该记住哪些历史信息,以及如何记住这些信息。 两种典型的HiPPO矩阵:LegT和LegS HiPPO框架中最具代表性的两种HiPPO矩阵是LegT(Translated Legendre)和LegS(Scaled Legendre)。 HiPPO矩阵的意义和应用 HiPPO矩阵的提出,为我们理解和应用SSM模型提供了以下重要意义: 总结 HiPPO矩阵是SSM模型发展历程中的一个重要里程碑。它不仅为我们提供了一种高效的记忆机制,更重要的是,它为我们理解和应用SSM模型打开了一扇全新的大门。相信随着研究的深入,HiPPO矩阵将在序列模型的未来发展中发挥更加重要的作用。 参考文献

超越单一评分:RichHF-18K数据集和RAHF模型如何用“丰富反馈”提升AI图像生成?

近年来,Stable Diffusion、Imagen等文生图(T2I)模型在生成高分辨率图像方面取得了显著进步,但生成的图像仍存在不少问题,如图像失真、与文本描述不符、美观度不足等。为了解决这些问题,谷歌和多所高校的研究人员共同创建了包含“丰富反馈”的RichHF-18K数据集,并提出了一种名为RAHF的多模态Transformer模型,旨在更全面、精准地评估和提升AI图像生成质量。 RichHF-18K:不止于评分的“丰富反馈” 现有的图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息。而RichHF-18K数据集则包含了更为丰富的反馈维度,具体包括: RAHF模型:学习“丰富反馈”,预测图像质量 RAHF模型的架构基于ViT和T5X模型,并结合了自注意力机制,能够有效融合图像和文本信息。该模型可以预测图像的失真/不一致区域、不一致关键词以及四个细粒度评分,从而更全面地评估图像生成质量。 RAHF模型的应用:提升AI图像生成质量 RAHF模型预测的“丰富反馈”信息可以用于提升AI图像生成质量,例如: 总结与展望:迈向更智能的AI图像生成 RichHF-18K数据集和RAHF模型的提出,为AI图像生成领域带来了全新的思路和方法。通过引入“丰富反馈”机制,可以更有效地评估和提升AI图像生成质量,推动AI图像生成技术走向更高的智能化水平。 当然,这项研究也存在一些局限性,例如: 未来,研究人员将继续探索如何利用“丰富反馈”机制,开发更先进的AI图像生成技术,为用户带来更优质的图像生成体验。 参考文献: CVPR最佳论文解读:RAHF模型如何利用“丰富人类反馈”提升AI图像生成? 这篇来自加州大学圣地亚哥分校、谷歌研究院等机构的CVPR最佳论文《Rich Human Feedback for Text-to-Image Generation》聚焦于如何利用更丰富的用户反馈来提升AI图像生成技术的质量。 直击痛点:现有评估方法存在不足 论文指出,现有的AI图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息,难以有效指导模型改进。例如,仅仅告诉模型一张图片“好”或“不好”,并不能让模型真正理解问题所在,更无法针对性地进行优化。 RAHF模型:捕捉“丰富人类反馈” 为了解决这一问题,研究团队提出了一种名为RAHF(Rich Automatic Human Feedback)的多模态Transformer模型。该模型能够捕捉更丰富的人类反馈信息,包括: 实验结果:RAHF模型提升图像生成质量 实验结果表明,RAHF模型能够有效预测用户的“丰富反馈”,并将其用于提升AI图像生成质量。例如: 总结:迈向更智能的AI图像生成 RAHF模型的提出,为AI图像生成领域带来了全新的思路和方法。通过捕捉更丰富的用户反馈信息,可以更有效地评估和提升AI图像生成质量,推动AI图像生成技术走向更高的智能化水平。 未来展望 研究团队计划公开RichHF-18K数据集,以促进学术界和工业界对“丰富人类反馈”在AI图像生成领域应用的进一步研究。相信在未来,RAHF模型将会在更广泛的领域发挥重要作用,为用户带来更优质的图像生成体验。

IPv4地址的“隐藏宝藏”:E类空间能否拯救互联网?

自从IPv4地址枯竭以来,获取或租赁IPv4地址块的成本一路飙升。对于许多网络公司来说,这无疑是一场灾难,曾经为每个用户分配一个甚至多个IPv4地址的模式已难以为继。然而,鲜为人知的是,IPv4地址空间中还隐藏着一块巨大的“宝藏”——E类空间,它能否成为解决IPv4地址短缺的“救星”呢? 被遗忘的角落:E类空间的由来 E类空间位于IPv4地址空间的末尾(240.0.0.0~255.255.255.254),早在1989年就被定义,但一直被忽视。实际上,除了E类空间,IPv4地址空间中还存在着其他一些“浪费”的地址块,例如0.0.0.0/8和127.0.0.0/8。这些地址块当初的分配标准如今看来过于宽泛,如果能够重新利用,将能极大缓解IPv4地址短缺的现状。 现实与理想的博弈:E类空间的局限性 尽管E类空间拥有巨大的潜力,但将其重新用于单播空间面临着诸多挑战。首先,现有的设备和终端软件对E类地址的兼容性问题难以解决,全球范围内的升级行动几乎不可能实现。其次,E类空间的启用需要IANA和IETF制定新的政策,这将是一场旷日持久的斗争。 柳暗花明:E类空间的另类用途 尽管E类空间难以成为全球可路由的地址空间,但它在本地网络和网络基础设施中却能发挥重要作用。例如,AWS、一些家庭和中小型企业以及Canonical的“扇”网络都在使用E类空间。此外,Cloudflare还提供了一种将IPv6地址散列到E类地址中的选项,为不支持IPv6地址的系统提供了一种访问IPv6的方式。 供应商的支持:E类空间应用的关键 E类空间的应用离不开设备的支持。目前,Linux、Android、MacOS/OSX等操作系统已经支持E类地址,但Windows、NetBSD/FreeBSD等系统尚未提供支持。网络设备方面,一些路由器供应商支持直接设置E类地址,而另一些则需要特殊配置,还有一些则完全不支持。 路由协议的挑战:OSPF的意外情况 在使用E类地址时,动态路由协议的兼容性也是一个需要关注的问题。例如,在使用OSPF协议时,如果路径中的某些设备不支持E类地址,可能会导致流量丢失。 真实测试:E类空间的接受程度 为了测试E类空间在真实环境中的可行性,Quantcom公司进行了一次E类空间的网络扫描实验。结果显示,只有大约50%的RIPE Atlas探针能够访问E类地址,这表明E类空间的接受程度还很低。 结论:E类空间的未来 总的来说,E类空间虽然拥有巨大的潜力,但由于兼容性、政策、部署等方面的挑战,它难以成为解决IPv4地址短缺的最终方案。然而,在本地网络和网络基础设施中,E类空间可以作为一种有效的地址补充方案。 参考文献:

哄AI像哄小孩?一句“咒语”让GPT-3准确率暴涨61%!

最近,机器学习界出现了一项令人震惊的研究成果:仅仅对GPT-3说一句“让我们一步一步地思考”,就能让它解开之前无法解答的难题,准确率瞬间提高61%!这感觉就像幼儿园阿姨哄小朋友一样神奇,难道哄AI也要像哄小孩? “一步一步思考”:神奇咒语背后的秘密 这项由谷歌大脑和东京大学合作的研究发现,简单的提示词可以显著提高GPT-3在零样本学习场景下的推理能力。研究人员将这种方法称为“思维链路提示”(CoT),其核心是通过引导语言模型逐步思考,最终得出正确答案。例如,面对“16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?”这个问题,直接询问GPT-3会得到错误答案“8”。但如果在提问时加上“让我们一步一步地思考”,GPT-3就会先列出解题步骤,最终给出正确答案“4”。 CoT并非万能药:效果受模型版本、问题类型影响 研究人员对CoT的效果进行了广泛的测试,结果表明,CoT在大多数情况下都能显著提高GPT-3的准确率,尤其是在数学和常识推理方面。然而,CoT并非万能药,其效果会受到GPT-3版本、问题类型等因素的影响。例如,CoT对GPT-3最新版本Text-davinci-002的效果最佳,对旧版本的提升效果则相对有限。 从“特征工程”到“提示工程”:AI研究的新方向? CoT的成功引发了人们对“提示工程”的关注。一些学者认为,“提示工程”正在取代传统的“特征工程”,成为AI研究的新方向。通过设计巧妙的提示词,可以引导AI更好地理解人类意图,从而提高其性能。未来,”提示词猎人”会不会成为NLP研究者的新头衔? 结语:哄AI,更需理解AI 尽管“哄AI像哄小孩”的说法很有趣,但我们不能忽视对AI本身的理解。CoT的成功表明,通过引导AI模拟人类的思维方式,可以有效提高其推理能力。未来,如何设计更有效的提示词,如何将CoT应用于更广泛的领域,将是AI研究的重要课题。 参考文献:

基于 Agent 的大型语言模型:AI 智能体的新时代

近年来,大型语言模型(LLM)取得了令人瞩目的进展,展现出强大的语言理解和生成能力,被誉为通用人工智能(AGI)的潜在火花。与此同时,AI Agent 的概念也逐渐兴起,成为实现 AGI 的关键步骤。AI Agent 是指能够感知环境、做出决策并采取行动的人工实体。将 LLM 与 Agent 结合,赋予 LLM 更广阔的感知空间和行动空间,将有望构建出更加智能、更加通用的 AI Agent。 AI Agent 的起源与发展 从哲学到 AI “Agent” 的概念起源于哲学,可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和采取行动能力的实体。这个概念后来被引入计算机科学领域,用于描述能够感知环境、做出决策并采取行动的计算实体。 AI Agent 研究的技术趋势 AI Agent 的研究经历了多个阶段,从早期的符号 Agent,到反应型 Agent,再到基于强化学习的 Agent,以及具有迁移学习和元学习能力的 Agent。近年来,随着 LLM 的兴起,基于 LLM 的 Agent 逐渐成为研究热点。 LLM 成为 Agent 大脑的优势 LLM 非常适合作为 AI Agent 的大脑或控制器的主要组成部分,因为它具备以下关键属性: 基于 LLM 的 Agent 构建 大脑:智能体的核心 大脑是 AI … Read more