近年来,大型语言模型(LLM)取得了令人瞩目的进展,展现出强大的语言理解和生成能力,被誉为通用人工智能(AGI)的潜在火花。与此同时,AI Agent 的概念也逐渐兴起,成为实现 AGI 的关键步骤。AI Agent 是指能够感知环境、做出决策并采取行动的人工实体。将 LLM 与 Agent 结合,赋予 LLM 更广阔的感知空间和行动空间,将有望构建出更加智能、更加通用的 AI Agent。
AI Agent 的起源与发展
从哲学到 AI
“Agent” 的概念起源于哲学,可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和采取行动能力的实体。这个概念后来被引入计算机科学领域,用于描述能够感知环境、做出决策并采取行动的计算实体。
AI Agent 研究的技术趋势
AI Agent 的研究经历了多个阶段,从早期的符号 Agent,到反应型 Agent,再到基于强化学习的 Agent,以及具有迁移学习和元学习能力的 Agent。近年来,随着 LLM 的兴起,基于 LLM 的 Agent 逐渐成为研究热点。
LLM 成为 Agent 大脑的优势
LLM 非常适合作为 AI Agent 的大脑或控制器的主要组成部分,因为它具备以下关键属性:
- 自主性:LLM 可以根据环境输入动态调整输出,展现出一定的自适应自主性。
- 反应性:研究人员已经证明了使用多模态融合技术扩展 LLM 感知空间的潜力,使其能够快速处理来自环境的视觉和听觉信息。
- 主动性:LLM 具有很强的广义推理和规划能力,可以主动采取行动以实现特定目标或适应环境变化。
- 社交能力:LLM 强大的自然语言交互能力使其能够以可解释的方式与其他模型或人类进行交互,从而具备社交能力。
基于 LLM 的 Agent 构建
大脑:智能体的核心
大脑是 AI Agent 的核心,主要由 LLM 组成,负责存储知识和记忆,并承担信息处理和决策等不可或缺的功能。它需要具备以下能力:
- 自然语言交互:理解和生成自然语言,进行多轮对话,并理解隐含的含义。
- 知识:获取、存储和利用语言知识、常识知识和专业领域知识。
- 记忆:存储 Agent 过去的观察、想法和行动的序列,并能够有效地检索和利用这些记忆。
- 推理与规划:进行逻辑推理和规划,将复杂任务分解成更易于管理的子任务。
- 可迁移性和通用性:适应不熟悉的场景,并能够泛化到未见过的任务。
感知:拓展感知空间
感知模块的作用类似于人类的感觉器官,负责将 Agent 的感知空间从仅限文本扩展到多模态空间,包括文本、声音、视觉、触觉、嗅觉等多种感官模态。
行动:与环境交互
行动模块负责扩展 Agent 的动作空间,使其能够拥有文本输出,采取具身行动,并使用工具,以便更好地响应环境变化并提供反馈,甚至改变和塑造环境。
基于 LLM 的 Agent 应用
单 Agent 的一般能力
- 面向任务的部署:协助用户解决日常任务,例如在基于文本的游戏场景中执行任务,在 Web 场景中进行 Web 导航,以及在生活场景中完成家务任务。
- 创新型部署:在科学领域进行自主探索,例如在计算机科学、化学和材料科学等领域进行研究。
- 面向生命周期的部署:在开放世界环境中持续探索、学习和利用新技能,例如在 Minecraft 等模拟生存环境中进行生存任务。
多 Agent 的协调潜力
- 合作交互:多个 Agent 通过合作来实现共同的目标,例如在软件开发任务中进行协作。
- 对抗性交互:多个 Agent 通过竞争来提高各自的表现,例如在辩论任务中进行对抗。
人类与 Agent 之间的交互参与
- 指令者-执行者范式:人类提供指令或反馈,而 Agent 充当执行者,例如在教育、医疗保健等领域担任人类助手。
- 平等伙伴关系范式:Agent 与人类平等参与互动,例如在游戏领域与人类进行合作或谈判。
Agent 社会:从个性到社会性
Agent 行为与人格
- 社会行为:Agent 可以表现出各种社会行为,例如合作、竞争、模仿、旁观等。
- 人格:Agent 可以发展出认知能力、情商和性格特征,从而塑造其行为反应。
Agent 的社会环境
- 基于文本的环境:Agent 在由自然语言描述的环境中进行操作。
- 虚拟沙箱环境:Agent 在可视化和可扩展的模拟环境中进行操作。
- 物理环境:Agent 在真实的物理环境中进行操作。
社会模拟与 LLM 为基础的 Agent
通过构建模拟社会,研究人员可以观察 Agent 社会中涌现的社会现象,例如合作、传播、伦理决策等,并从中获得对人类社会的洞察。
讨论
LLM 研究和 Agent 研究之间的互惠互利
LLM 研究和 Agent 研究可以相互促进,LLM 为 Agent 研究提供了强大的基础模型,而 Agent 研究则为 LLM 研究提出了新的挑战和机遇。
基于 LLM 的 Agent 评估
评估基于 LLM 的 Agent 的效用、社交性、价值观和持续发展的能力,对于确保其安全、可信和有效至关重要。
基于 LLM 的 Agent 的安全性、可信度及其他潜在风险
需要解决基于 LLM 的 Agent 的对抗性鲁棒性、可信度、滥用、失业率和对人类福祉的威胁等潜在风险。
扩大 Agent 的数量
扩大 Agent 的数量可以提高任务效率,增强社会模拟的真实性和可信性,但也面临着计算负担、通信挑战和协调难度等挑战。
开放问题
- 基于 LLM 的 Agent 是否代表了通往 AGI 的潜在途径?
- 如何将 Agent 从虚拟仿真环境迁移到物理环境?
- 如何在 AI Agent 中实现集体智慧?
- 如何将 Agent 作为服务提供?
结论
基于 LLM 的 Agent 是一个充满希望的研究方向,它将 LLM 的强大能力与 Agent 的行动能力相结合,有望构建出更加智能、更加通用的 AI 系统。然而,这个领域也面临着许多挑战和风险,需要研究人员和从业者共同努力,以确保其安全、可信和有效地发展。
参考文献
[1] Russell, S. J. Artificial intelligence a modern approach. Pearson Education, Inc., 2010.
[2] Diderot, D. Diderot’s early philosophical works. 4. Open Court, 1911.
[3] Turing, A. M. Computing machinery and intelligence. Springer, 2009.
[4] Wooldridge, M. J., N. R. Jennings. Intelligent agents: theory and practice. Knowl. Eng. Rev.,10(2):115–152, 1995.
…
[675] Sun, T., Y. Shao, H. Qian, et al. Black-box tuning for language-model-as-a-service. In K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvári, G. Niu, S. Sabato, eds., International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA, vol. 162 of Proceedings of Machine Learning Research, pages 20841–20855. PMLR, 2022.