在上一节中,我们探讨了智能体的起源和发展历程,并阐明了大型语言模型(LLM)作为 AI 智能体“大脑”的潜力。本章将深入探讨基于 LLM 的智能体的概念框架,并详细介绍其三大关键组成部分:大脑、感知和行动。
3. 基于 LLM 的智能体框架:大脑、感知与行动
为了更好地理解基于 LLM 的智能体,我们可以将其与人类进行类比。人类的大脑负责思考、决策、记忆,眼睛和耳朵感知外部世界,而四肢则执行行动。基于 LLM 的智能体也遵循类似的结构,由“大脑”、“感知”和“行动”三个模块组成。
3.1 大脑:智能体的核心
人类的大脑是一个复杂的结构,由大量相互连接的神经元组成,能够处理各种信息,产生多样化的思想,控制不同的行为,甚至创造艺术和文化。就像人类一样,基于 LLM 的智能体的“大脑”是其核心,主要由一个大型语言模型构成。
3.1.1 自然语言交互:沟通的桥梁
语言是沟通的桥梁,它不仅包含直观表达的内容,还隐藏着说话者的信念、欲望和意图。由于 LLM 拥有强大的自然语言理解和生成能力,基于 LLM 的智能体不仅可以进行基本的交互对话,还能表现出深入的理解能力,使人类能够轻松地理解智能体并与之互动。
- 多轮交互对话: LLM 可以理解自然语言并生成连贯的、与上下文相关的响应,这有助于智能体更好地理解和处理各种问题。多轮对话通常包括理解对话历史、决定行动和生成自然语言回应三个步骤。基于 LLM 的智能体能够利用现有信息不断提炼输出,进行多轮对话,有效实现最终目标。
- 高质量的自然语言生成: 近期的 LLM 显示出卓越的自然语言生成能力,能够以多种语言生成高质量的文本。LLM 生成内容的连贯性和语法准确性表现出稳定的增强,它们不仅复制训练数据,而且显示出一定程度的创造力,生成的多样化文本同样新颖。
- 意图和蕴涵理解: 理解隐含的含义对于与其他智能体进行有效的沟通和合作至关重要。LLM 已经展现出理解人类意图的潜力,但当涉及到模糊的指令或其他含义时,它对代理提出了重大挑战。通过利用对上下文的理解,智能体可以采取高度个性化和准确的行动,为特定的要求量身定做。
3.1.2 知识:智能体的“记忆宝库”
现实世界的信息是庞大而复杂的,基于 LLM 的智能体需要拥有丰富的知识储备来应对各种挑战。这些知识可以大致分为以下几种类型:
- 语言知识: 包括词法、句法、语义和语用学,是理解句子和参与多轮对话的基础。
- 常识知识: 指的是普遍的世界事实,例如“药是用来治病的”,这些信息通常没有明确提及,但对于理解和决策至关重要。
- 专业领域知识: 指的是与特定领域相关的知识,例如编程、数学、医学等。
尽管 LLM 在获取、存储和利用知识方面表现出色,但仍存在一些挑战,例如知识过时、幻觉和知识编辑等问题。
3.1.3 记忆:过去的经验积累
人类大脑依赖记忆系统来回顾性地利用先前的经验,进行策略制定和决策。同样,智能体需要特定的记忆机制来确保他们能够熟练地处理一系列连续的任务。
随着基于 LLM 的智能体中交互周期的扩展,出现了两个主要挑战:
- 历史记录长度: 随着交互记录的扩展,可能会超出 LLM 的处理能力。
- 相关记忆提取: 在大量历史记录中提取相关记忆变得越来越困难。
为了解决这些问题,研究人员提出了多种增强基于 LLM 的代理记忆能力的方法,包括:
- 提高 Transformer 的长度限制: 采用文本截断、分割输入、强调关键部分等策略。
- 总结记忆: 利用提示、反思过程等技术来简洁地整合记忆。
- 用向量或数据结构压缩内存: 使用嵌入向量、三元组构型等数据结构来提高记忆检索效率。
- 内存检索方法: 通过自动检索或交互式记忆对象的方式,选择最合适的记忆内容。
3.1.4 推理与规划:智能体的“思考引擎”
推理和规划是人类智力活动的基础,是解决问题、决策和批判性分析的基石。
- 推理: 基于证据和逻辑,演绎、归纳和溯因是推理的三种主要形式。LLM 通过思维链 (CoT) 方法展现出推理能力,可以引导模型在输出答案之前生成基本原理。
- 规划: 规划是人类应对复杂挑战时使用的关键策略,它有助于组织思想、设定目标和确定实现目标的步骤。基于 LLM 的智能体可以利用其推理能力进行规划,将复杂任务分解为更易于管理的子任务,并根据环境变化调整计划。
3.1.5 可迁移性和通用性:智能体的“学习能力”
人类大脑具有高度的可塑性和适应性,能够根据外部刺激和内部需求不断调整结构和功能,从而适应不同的环境和任务。LLM 也展现出类似的学习能力:
- 未见任务泛化: LLM 可以根据自己的理解,按照指导完成在训练阶段没有遇到的新任务。
- 上下文学习: LLM 可以从上下文中的几个例子中学习,通过将原始输入与几个完整的示例连接起来作为提示来丰富上下文,从而增强语言模型的预测性能。
- 不断学习: 近期研究强调了 LLM 在促进持续学习方面的潜力,这涉及到技能的持续获取和更新。持续学习中的一个核心挑战是灾难性遗忘,一些研究致力于解决这一问题。
3.2 感知:智能体的“感官”
人类和动物都依靠感觉器官从周围环境中收集信息。同样,对于基于 LLM 的智能体来说,从各种来源和模式接收信息也是至关重要的。这种扩展的感知空间有助于智能体更好地了解他们的环境,做出明智的决策,并在更广泛的任务中表现出色。
3.2.1 文本输入:理解语言的奥秘
文本是一种承载数据、信息和知识的方式,使得文本交流成为人类与世界互动的最重要方式之一。基于 LLM 的智能体已经具备了通过文本输入和输出与人类交流的基本能力。
- 理解隐含的含义: 理解文本输入中的隐含含义对于智能体把握人类用户的潜在和潜在意图至关重要。
- 理解未知任务的文本指令: 经过指令调优的 LLM 可以表现出显著的零样本指令理解和泛化能力,消除了对特定任务微调的需要。
3.2.2 视觉输入:感知世界的图像
视觉信息包含关于世界的丰富信息,包括对象的属性、空间关系、场景布局等。将视觉信息与其他形式的数据可以提供代理更广泛的上下文和更准确的理解。
- 图像描述: 为图像输入生成相应的文本描述,可以将图像信息转换为 LLM 可以理解的文本。
- 视觉 Transformers: 将图像分割成固定大小的 patch,然后将这些 patch 经过线性投影后作为 Transformers 的输入 token,从而整合整个图像的信息。
- 视觉-语言对齐: 将图像编码器和 LLM 直接结合起来,以端到端的方式训练整个模型,或者使用可学习接口层来调整视觉编码器的输出,使其与 LLM 兼容。
- 视频输入: 使用掩码机制在理解视频时确保时间顺序,并整合时间维度信息。
3.2.3 听觉输入:聆听世界的“声音”
听觉信息是世界信息的重要组成部分。当一个智能体拥有听觉能力时,它可以提高对交互内容、周围环境甚至潜在危险的感知能力。
- 音频模型: 使用 FastSpeech、GenerSpeech、Whisper 等模型来处理音频信息。
- 音频频谱图: 将音频频谱图可视化为平面图像,并使用类似于 ViT 的 Transformer 架构来处理音频信息。
- 音频-语言对齐: 通过添加可学习接口层,将音频编码与来自其他模态的数据编码对齐。
3.2.4 其他输入:扩展感知的边界
除了文本、视觉和音频,基于 LLM 的智能体还可以感知和理解现实世界中的各种模态,例如触觉反馈、手势、3D 地图等。
3.3 行动:智能体的“执行者”
人类感知环境后,大脑会对感知到的信息进行整合、分析、推理并做出决策。随后,他们利用自己的神经系统来控制自己的身体,从而对环境做出适应性或创造性的反应。
3.3.1 文本输出:语言的表达
基于 LLM 的智能体可以生成高质量的文本,包括流畅、相关、多样和可控的文本。
3.3.2 工具使用:扩展智能体的能力
工具是工具使用者功能的扩展。当面对复杂的任务时,人类使用工具来简化任务解决,提高效率。同样,如果智能体也学会使用和利用工具,则它们有潜力更有效、更高质量地完成复杂任务。
- 理解工具: 基于 LLM 的智能体可以通过利用描述工具功能和参数的提示来获取关于工具的知识。
- 学习使用工具: 智能体可以通过从演示中学习和从反馈中学习来掌握工具使用技能,并将其推广到更一般的情况。
- 制造自给自足的工具: 智能体可以生成可执行程序或将现有工具集成为更强大的工具,甚至进行自我调试。
3.3.3 体现行动:将智能体“具象化”
在追求人工通用智能 (AGI) 的过程中,具身智能体被认为是一种关键的范式,它努力将模型智能与物理世界相结合。
- 基于 LLM 的代理对具体行动的潜力: LLM 的内在知识可以有效地缓解强化学习算法在数据效率、泛化和复杂问题推理方面的限制。
- 具体化行动的类型: 包括观察、操作和导航。
- 具身行动的未来展望: 模拟环境为研究具身智能体提供了经济有效的方式,但仍然存在一些挑战,例如模拟平台和物理世界之间的巨大差异,以及对具身数据集的需求。
总结:
基于 LLM 的智能体框架由“大脑”、“感知”和“行动”三个模块组成,每个模块都具有独特的优势,共同构建了通往通用人工智能的桥梁。未来,随着 LLM 技术的不断发展,基于 LLM 的智能体将更加强大,为我们带来更加智能、便捷和充满希望的未来。