生成代码世界模型:结合大型语言模型和蒙特卡罗树搜索生成代码世界模型:结合大型语言模型和蒙特卡罗树搜索
引言 在人工智能领域,能够对世界进行建模是智能体实现目标的关键能力。当面对新的环境时,智能体必须迅速理解其机制,以便制定计划并实现目标。在这种情况下,自然语言条件可以帮助智能体将当前观察与过去的知识联系起来,从而更好地理解世界。因此,通过自然语言向智能体传递关于新任务的信息,具有特别的前景。 近年来,大型语言模型(LLMs)在自然语言处理领域取得了革命性的进展,并为世界建模提供了巨大的机会。然而,将LLMs与世界模型结合的最佳方式尚不明确。在这篇文章中,我们介绍了一种新的方法,即通过编写Python代码来生成RL(强化学习)世界模型。 代码世界模型(Code World Models) 什么是代码世界模型? 代码世界模型(CWM)是由LLMs生成的一种世界模型,这些模型以Python代码的形式存在,专门用于基于模型的强化学习(RL)。与直接使用LLMs进行规划相比,调用代码具有精准、可靠、可解释和高效的优点。然而,编写合适的代码世界模型需要理解复杂的指令、生成具有非平凡逻辑的精确代码,以及通过单元测试和环境轨迹反馈自我调试长程序。 为了解决这些挑战,我们提出了GIF-MCTS(Generate, Improve and Fix with Monte Carlo Tree Search),这是一种新的代码生成策略,用于优化LLMs的代码生成能力。 代码世界模型的框架 在模型基础的强化学习问题设置中,我们将环境表示为具有状态空间、动作空间、转移函数和标量奖励函数的马尔可夫决策过程。世界模型的任务是准确表示转移函数和奖励函数。 我们假设: 代码世界模型基准(CWMB) 为了全面测试不同环境下的世界模型生成,我们定义了一个新的基准,包括18个难度不同的RL环境。每个环境都有相应的自然语言描述和精心设计的轨迹数据集。这个基准旨在通过提供的数据学习准确合成代码世界模型,并在不同复杂度的环境中评估不同的代码生成方法。 GIF-MCTS:生成、改进和修复 我们提出的GIF-MCTS方法使用蒙特卡罗树搜索(MCTS)来生成和优化代码世界模型。GIF-MCTS的主要流程包括选择、扩展、评估和价值回溯。 动作类型 GIF-MCTS方法包括三种主要动作类型: 实验 基准 我们在三个基准上评估了GIF-MCTS的性能:新的CWMB、流行且具有挑战性的编码基准APPS,以及语言条件网格世界RTFM。GIF-MCTS在所有三个基准上都超过了现有方法,包括APPS的“Competition”部分,CWMB的更难连续环境以及RTFM。 实验结果 [...]