使用反事实遗憾最小化算法(CFR)训练Leduc Hold’em扑克牌游戏AI

在人工智能和博弈论领域,扑克牌游戏一直是一个重要的研究对象。本文将介绍如何使用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法来训练Leduc Hold’em这种简化版德州扑克游戏的AI智能体。我们将使用RLCard库来实现这一过程,并展示CFR算法在这种不完全信息博弈中的强大能力。 Leduc Hold’em游戏简介 Leduc Hold’em是一种简化版的德州扑克游戏,由两名玩家进行对抗。游戏使用一副只有6张牌的扑克牌,包含两种花色,每种花色有三张牌(Jack、Queen、King)。游戏分为两个回合: 每个回合中,玩家可以选择下注、跟注、加注或弃牌。游戏的目标是赢得底池,胜利条件是拥有最大牌力的组合。 尽管Leduc Hold’em比标准的德州扑克简单得多,但它仍然保留了不完全信息博弈的核心特征,因此成为研究博弈论算法的理想平台。 反事实遗憾最小化(CFR)算法 反事实遗憾最小化是一种用于求解大规模不完全信息博弈的迭代算法。CFR的核心思想是通过最小化每个决策点的”反事实遗憾”来逐步改进策略。所谓”反事实遗憾”指的是:如果在某个决策点选择了另一个动作,相比实际选择的动作可能获得的收益差。 CFR算法的主要步骤包括: CFR的一个重要特性是它保证在自博弈(self-play)中收敛到纳什均衡。这使得CFR成为解决大规模不完全信息博弈的有力工具。 实验设置 在本实验中,我们将使用RLCard库来实现CFR算法并训练Leduc Hold’em的AI智能体。RLCard是一个用于卡牌游戏强化学习的工具包,提供了多种常见卡牌游戏的环境和算法实现。 首先,我们需要安装RLCard库及其依赖: 然后导入必要的模块: 环境设置 我们需要创建两个Leduc Hold’em环境:一个用于CFR智能体的训练,另一个用于评估。训练环境需要启用step_back功能,以允许CFR算法在博弈树中进行回溯: 创建CFR智能体 接下来,我们创建一个CFR智能体: 这里我们指定了模型保存的路径。为了评估CFR智能体的性能,我们将其与一个随机智能体进行对抗: 训练过程 现在我们开始训练过程。我们将进行1000次迭代(即1000局游戏),每50次迭代评估一次智能体的性能: 在每次评估中,我们使用tournament函数让CFR智能体与随机智能体进行10000局对抗,并记录CFR智能体的平均收益。 结果分析 训练完成后,我们可以绘制学习曲线来观察CFR智能体性能的变化: 通过观察学习曲线,我们可以得出以下结论: CFR算法的优势 通过本实验,我们可以看到CFR算法在训练Leduc Hold’em AI方面的几个主要优势: 局限性与未来方向 尽管CFR在Leduc Hold’em中表现出色,但它也存在一些局限性: 为了解决这些问题,研究人员提出了多种改进方法,如: 未来的研究方向可能包括: 结论 本文介绍了如何使用反事实遗憾最小化(CFR)算法来训练Leduc Hold’em扑克牌游戏的AI智能体。通过RLCard库的实现,我们展示了CFR算法在这种不完全信息博弈中的强大能力。实验结果表明,CFR智能体能够在短时间内学习到有效的策略,并以较大优势战胜随机对手。 CFR算法的成功不仅限于Leduc Hold’em,它在更复杂的扑克变种和其他不完全信息博弈中也取得了显著成果。这种算法为我们理解和解决不完全信息决策问题提供了重要工具,有望在游戏AI、经济学、安全策略等多个领域产生深远影响。 随着算法的不断改进和计算能力的提升,我们期待看到CFR及其变体在更广泛的应用场景中发挥作用,为人工智能在复杂决策任务中的进步做出贡献。 参考文献

使用深度蒙特卡洛方法训练斗地主AI

斗地主是一款流行的中国传统扑克牌游戏,具有较高的策略性和复杂度。近年来,随着深度强化学习技术的发展,研究人员开始尝试使用AI算法来训练斗地主智能体。本文将介绍如何使用深度蒙特卡洛(Deep Monte-Carlo, DMC)方法来训练一个强大的斗地主AI智能体。 背景知识 斗地主游戏简介 斗地主是一种三人纸牌游戏,使用一副54张的扑克牌(包括大小王)。游戏开始时,一名玩家被选为”地主”,其他两名玩家为”农民”。地主获得额外的3张底牌,目标是最先出完手中的牌。农民则联手阻止地主获胜。游戏涉及复杂的策略,如记牌、配合、压制等。 深度蒙特卡洛方法 深度蒙特卡洛(DMC)方法是一种结合了深度学习和蒙特卡洛树搜索(MCTS)的强化学习算法。它通过大量模拟来评估行动的价值,并使用深度神经网络来近似值函数和策略函数。DMC方法在复杂的决策问题中表现出色,已成功应用于围棋等游戏。 环境设置 在开始训练之前,我们需要设置必要的环境和工具。本文将使用RLCard框架,它是一个用于卡牌游戏强化学习研究的工具包。 首先,安装RLCard及其PyTorch依赖: 然后,导入所需的模块: 创建斗地主环境 使用RLCard创建斗地主游戏环境: 输出结果: 从输出可以看出,斗地主是一个相当复杂的游戏: 这些数据反映出斗地主游戏的高度复杂性,这也是为什么需要使用先进的深度强化学习方法来训练AI智能体。 初始化DMC训练器 接下来,我们初始化DMC训练器: 参数说明: 开始训练 启动训练过程: 训练过程将会持续很长时间,可能需要几个小时到几天不等,具体取决于硬件配置和预期的模型性能。在训练过程中,我们可以观察到类似以下的输出: 这些输出提供了训练过程的实时信息: 随着训练的进行,我们希望看到损失函数值逐渐降低,而平均回报逐渐提高。 训练过程分析 在训练过程中,DMC算法会执行以下步骤: 在训练过程中,算法会不断优化智能体的策略,使其逐渐学会更好的出牌策略和对手建模。 训练技巧与注意事项 模型评估与应用 训练完成后,我们可以通过以下方式评估模型的性能: 未来展望 尽管DMC方法在斗地主等复杂游戏中表现出色,但仍有改进空间: 结论 本文介绍了如何使用深度蒙特卡洛方法来训练斗地主AI智能体。通过RLCard框架,我们可以相对容易地实现这一复杂的训练过程。DMC方法的强大之处在于它能够在大规模动作空间和复杂状态空间中学习有效的策略。 然而,训练一个强大的斗地主AI仍然是一个具有挑战性的任务,需要大量的计算资源和精心的参数调整。未来的研究方向包括提高训练效率、增强模型的可解释性,以及探索将AI技术应用于更广泛的游戏和现实问题中。 参考文献

在双人零和博弈中,Nash均衡策略的选择

在双人零和博弈中,Nash均衡策略的选择是关键,因为其特性保障了在面对对手未知策略时,任何玩家都能最大化其预期收益。以下是逐步解释: 1. 定义双人零和博弈 双人零和博弈是指两个玩家的博弈,其中一个玩家的收益等于另一个玩家的损失。即,总收益为零。数学上表示为:如果一个玩家的收益为 (u) ,则另一个玩家的收益为 (-u)。 2. Nash均衡的定义 Nash均衡是指一种策略组合,其中每个玩家都不能通过单方面改变自己的策略来增加自己的收益。在这种策略组合下,每个玩家的策略都是对其他玩家策略的最佳响应。 3. 未知对手策略的挑战 在实际博弈中,往往无法预知对手的具体策略。因此,选择一种对所有可能的对手策略都能表现良好的策略显得尤为重要。 4. Nash均衡策略的优势 5. 例子说明 假设有一个简单的零和博弈:石头-剪刀-布。在这个博弈中,每个玩家都有三种选择: 博弈的收益矩阵如下: Rock Scissors Paper Rock 0 1 -1 Scissors -1 0 1 Paper 1 -1 0 在这个游戏中,最佳策略是混合策略,即每个选择各占三分之一的概率。这是因为: 6. 总结 在双人零和博弈中,使用Nash均衡策略是最佳选择,因为它提供了一种对所有可能对手策略都能最大化自身预期收益的方法。通过最小化最大损失,Nash均衡策略确保了即使面对最不利的对手策略,玩家也能获得最佳的最坏情况收益。 这种策略的稳定性和对未知对手策略的适应性,使得在零和博弈中,Nash均衡策略成为玩家的理性选择。 在双人零和博弈中,尽管Nash均衡策略通常被认为是最优选择,但在特定情况下或特定类型的博弈中,其他策略也可能具有实际意义。以下是一些其他有效的策略: 1. Maximin 和 Minimax 策略 2. 混合策略 混合策略允许玩家随机选择纯策略,按照特定的概率分布进行。例如,在石头-剪刀-布游戏中,玩家可以选择石头、剪刀和布各占三分之一的概率。这种策略可以避免被对手预测和利用。 3. 演化策略 演化策略源于博弈论中的演化博弈理论。玩家可能会根据过去的经验和对手的行为调整他们的策略。这些策略包括: 4. 模仿策略 模仿策略(Imitation Strategy)是指玩家观察对手的策略,并尝试模仿那些成功的策略。这种策略在一些重复博弈或学习博弈中可能会有效。 … Read more

反事实遗憾最小化:打败职业扑克玩家的核心技术

近年来,人工智能领域取得了许多令人惊讶的进展。其中最引人注目的成就是AI在各种游戏中击败人类。随着OpenAI在Dota2比赛中大放异彩以及DeepMind在Atari游戏中展现出色表现,最引人注目的是AlphaGo击败了韩国围棋大师李世石。这是机器首次在围棋中表现出超越人类的能力,标志着AI领域的一个历史性时刻。 与此同时,一组来自美国、加拿大、捷克共和国和芬兰的研究人员已经开始致力于解决另一种游戏:无限注德州扑克。自2005年以来,来自阿尔伯塔大学(现与Google Deepmind合作)和卡耐基梅隆大学的研究人员在博弈论方面取得了许多进展,最终目标是解决扑克问题。 Cepheus:极限德州扑克AI 第一个重大成功是在2015年,当时Oskari Tammelin、Neil Burch、Michael Johanson和Michael Bowling创建了一个名为Cepheus的计算机程序,这个AI可以在无限注德州扑克中与人类对抗。他们在论文中声称“解决了无限注德州扑克”,实际上是通过近似一个策略组合达到纳什均衡。对于两人零和游戏,使用纳什均衡策略是最佳选择,即便对手的策略未知。 极限德州扑克的主要特点在于其分支因子的不同。在极限德州扑克中,下注数量和大小有限,这使得在给定情况下的动作数量有限。而在无限注德州扑克中,没有这样的限制。因此,极限德州扑克的游戏规模大约为$10^{14}$,而无限注德州扑克的规模则达到$10^{160}$。这使得解决无限注德州扑克变得更加困难。 Cepheus通过离线计算所有可能的游戏情况的响应,并将这些概率分布存储为向量。尽管这种方法听起来不如AlphaGo的深度神经网络那么吸引人,但其核心算法——反事实遗憾最小化(Counterfactual Regret Minimization, CFR)——与AlphaGo/AlphaZero的算法在某种程度上是相似的。两者的共同点在于通过与自己对战来学习。 DeepStack:基于神经网络的无限注德州扑克AI 在Cepheus之后大约两年,另一个成功的扑克机器人出现了,这次它可以在无限注德州扑克中击败人类。这个AI名为DeepStack,它使用神经网络辅助的持续再解法(continual re-solving)作为核心技术。 再解法是子游戏解法技术之一。子游戏是当前决策点的游戏树根节点。从高层次来看,子游戏解法意味着在从父节点分离的情况下解决子游戏。在DeepStack中,深度神经网络被用来克服持续再解法中的计算复杂性。这种复杂性源于在游戏中的任何决策点重新计算反事实值向量。 为了评估DeepStack对人类的表现,研究人员选择了33名来自17个国家的职业玩家,每人玩3000手牌。DeepStack在所有玩家中平均赢得了492 mbb/g(每100手牌赢得49个大盲注)。除了一个统计上不显著的对手外,DeepStack击败了所有玩家。 Libratus:DeepStack的主要竞争对手 在2017年1月,卡耐基梅隆大学的Tuomas W. Sandholm和他的同事们开发的Libratus在无限注德州扑克中击败了4名职业玩家。比赛在匹兹堡的一家赌场举行,持续了20天,共进行了大约120,000手牌。Libratus平均每百手牌赢得147 mbb/g。 Libratus使用了三种主要方法的结合: 在比赛期间,Libratus记录对手的下注行为,并在每晚更新蓝图策略,以应对可能的利用行为。 博弈论基础 为了理解反事实遗憾最小化,我们需要了解一些博弈论的基础知识。博弈论是数学的一个分支,为模拟和推理交互情况提供了有用的工具。这些交互情况被称为游戏,可能因许多因素而性质各异,如玩家数量、收益结构或动作顺序等。 什么是头对头无限注德州扑克? 无限注德州扑克是一个两人零和有限信息不完全且带有机会动作的游戏。 策略在无限注德州扑克中的意义 策略描述了在每个可能情况下如何行动。对于扑克这样的游戏,策略不能完全是确定性的,必须包含随机化成分,否则玩家的下注模式会迅速被学习和利用。 行为策略是一组在决策点上的概率分布,描述了在所有游戏情况下如何行动。策略组合则是所有玩家的策略集合。在头对头无限注德州扑克中,策略组合包含两个策略(每个玩家一个)。 为什么选择纳什均衡? 我们的主要算法CFR生成的是纳什均衡的近似。纳什均衡是一个策略组合,其中没有单个玩家有改变策略的动机。这代表了玩家之间的平衡点,即没有玩家通过改变策略能获得额外的收益。 对于两人零和有限游戏,纳什均衡是必然存在的。Minimax定理证明了对于两人零和有限游戏,存在一个最佳的单一可能收益,即游戏的价值。在扑克中,所有纳什均衡的预期收益是相同的。 反事实遗憾最小化(CFR) 反事实遗憾最小化是一种基于无遗憾学习的算法,用于计算博弈中的纳什均衡。无遗憾学习是一种框架,其中一个简单的例子是结合专家建议(combining expert advice)。 在CFR中,算法通过不断调整策略以最小化在不同决策点上的遗憾值。遗憾值表示在特定情况下未选择最佳动作所带来的损失。通过反复迭代,算法逐渐收敛到一个纳什均衡策略。 CFR的基本过程 CFR的核心在于通过模拟游戏中的所有可能情况,计算每个决策点上的最佳动作,并根据遗憾值调整策略。最终,算法生成的策略将接近于纳什均衡。 总结 反事实遗憾最小化是打败职业扑克玩家的核心技术。通过不断调整策略以最小化遗憾值,CFR能够生成接近纳什均衡的策略,使AI在无限注德州扑克中表现出超越人类的能力。随着技术的不断进步,AI在游戏中的表现将越来越接近完美。 参考文献

Mamba-2: Transformer与状态空间模型的统一

在人工智能和自然语言处理领域,Transformer模型一直占据主导地位。然而,近期出现的Mamba模型作为一种新的状态空间模型(SSM)架构,展现出了挑战Transformer地位的潜力。就在Mamba问世仅仅6个月之后,其原创团队再次带来了重大突破 – Mamba-2的正式发布。这一新版本不仅在性能上有了显著提升,更重要的是,它揭示了Transformer和状态空间模型之间深刻的理论联系,为序列建模领域带来了全新的视角。 Mamba-2的主要改进 相比于第一代Mamba模型,Mamba-2在以下几个方面实现了重大升级: 理论突破:Transformer与SSM的统一 Mamba-2最令人兴奋的发现是,Transformer中的注意力机制与状态空间模型(SSM)之间存在着密切的数学联系。这一发现不仅具有理论意义,还为未来模型设计提供了新的思路。 状态空间模型(SSM)视角 SSM定义了一个线性映射,可以表示为一个半可分离矩阵(Semiseparable Matrices)。这种矩阵具有特殊的低秩结构,与SSM中的状态变量直接对应。因此,矩阵乘法可以等价于SSM的线性时变系统。更进一步,带选择性的SSM实际上可以被视为一种广义的线性注意力机制。 注意力机制视角 研究团队提出了一种更抽象的方式来描述注意力机制的本质。他们发现,任何带有掩码的注意力机制都可以表示为4个张量的缩并(Contraction): $Attention(Q, K, V, L) = \sum_{i,j} Q_i K_j V_j L_{ij}$ 其中,Q、K、V分别对应注意力中的query、key、value,而L则对应掩码矩阵。基于这一联系,团队提出了”结构化掩码注意力”(Structured Masked Attention, SMA)的概念。当注意力的掩码矩阵是半可分离的,它就与SSM等价。 结构化状态空间二元性(SSD) 基于上述发现,作者进一步推导出了两种等价的计算形式,这就是论文核心思想——”状态空间二元性”(Structured State Space Duality, SSD)的由来。SSD提供了一种统一的视角,将Transformer和SSM这两大主流序列建模架构联系起来。 Mamba-2的技术创新 1. 更大的状态维度 Mamba-2支持将状态维度从16扩展到256,这大大增强了模型的表示能力。更大的状态空间使得模型能够捕捉更复杂、更长期的依赖关系。 2. 高效的计算方法 新方法采用了基于块分解的矩阵乘法,充分利用了GPU的存储层次结构,从而显著提升了训练速度。这种优化使得Mamba-2能够在相同的计算资源下处理更大规模的数据。 3. 架构改进 Mamba-2在架构设计上做了多项创新: 4. SSD层的性能提升 Mamba-2中的SSD层比Mamba-1中的关联扫描操作快得多。这一改进使得研究团队能够增加状态维度,从而提高模型质量,同时不会显著增加计算成本。 实验结果 Mamba-2在多项任务上展现出了优异的性能: Mamba-2的潜在应用 Mamba-2的出现为多个领域带来了新的可能性: 结论与展望 Mamba-2的出现不仅带来了性能上的提升,更重要的是,它为我们理解和设计序列模型提供了全新的视角。通过揭示Transformer和SSM之间的深层联系,Mamba-2为未来的模型设计和优化开辟了新的道路。 然而,Mamba-2的研究仍处于早期阶段,还有许多值得探索的方向: 总的来说,Mamba-2的出现为序列建模领域注入了新的活力。它不仅是对现有技术的改进,更是对整个领域认知的重塑。随着研究的深入和应用的拓展,我们有理由相信,Mamba-2将在推动人工智能技术发展中发挥重要作用。 参考文献

提示工程:大语言模型应用的关键

近年来,大语言模型(Large Language Models, LLMs)的快速发展为人工智能领域带来了革命性的变革。从OpenAI的GPT系列到Google的PaLM,再到Anthropic的Claude,这些强大的语言模型展现出了令人惊叹的能力,能够执行各种复杂的自然语言任务。然而,如何有效地利用这些模型、激发它们的潜力,成为了研究人员和实践者面临的一大挑战。在这一背景下,提示工程(Prompting)应运而生,并迅速成为了人工智能领域的热门话题。 提示工程是指通过设计和优化输入提示(prompts),来引导大语言模型产生期望输出的技术。它不仅是人类与AI交互的桥梁,更是充分发挥模型能力的关键。本文将深入探讨提示工程的重要性、最新研究进展,以及未来发展方向,为读者提供一个全面而清晰的认识。 提示工程的重要性 1. 提高模型性能 提示工程能够显著提升大语言模型的性能。通过精心设计的提示,我们可以激发模型的潜力,使其在特定任务上表现得更加出色。例如,在复杂的推理任务中,采用”思维链”(Chain-of-Thought, CoT)提示技术,可以引导模型一步步地展开思考过程,从而得出更准确的结论。 2. 增强模型适应性 大语言模型通常是通过海量数据训练得到的通用模型。然而,在特定领域或任务中,这些模型可能需要进一步的调整才能发挥最佳性能。提示工程提供了一种低成本、高效率的方法,使模型能够快速适应不同的应用场景,而无需进行昂贵的微调(fine-tuning)过程。 3. 提高交互效率 在人机交互中,精心设计的提示可以大大提高交互的效率和质量。通过清晰、具体的指令,我们可以引导模型产生更加精准、相关的回应,减少不必要的来回对话,从而提升用户体验。 4. 实现任务分解 对于复杂的任务,提示工程可以帮助我们将其分解为一系列更小、更易管理的子任务。这种方法不仅可以提高模型的解决问题能力,还能增强结果的可解释性和可靠性。 5. 增强模型安全性 通过精心设计的提示,我们可以在一定程度上约束模型的输出,避免产生有害或不适当的内容。这对于构建安全、可靠的AI系统至关重要。 提示工程的最新研究进展 提示工程作为一个快速发展的研究领域,吸引了众多学者和工程师的关注。以下是几个重要的研究方向和最新进展: 1. 提示技术的系统化研究 研究人员已经开始对提示技术进行系统化的总结和分类。根据Schulhoff等人的研究[1],目前已经识别出58种不同的提示技术,涵盖了从基础提示到高级推理策略的广泛范围。这些技术包括但不限于: 这种系统化的研究为提示工程的理论发展和实践应用提供了重要的基础。 2. 社会角色在提示中的影响 Zheng等人[2]的研究探讨了在系统提示中使用不同社会角色对模型性能的影响。他们测试了162种不同的角色,涵盖了6种人际关系类型和8种职业类型。研究发现: 这项研究为系统提示的设计提供了valuable insights,但也指出了角色提示效果的不确定性。 3. 提示策略的效果评估 随着提示技术的不断发展,评估不同提示策略的效果成为了一个重要的研究方向。研究人员发现,某些被广泛使用的提示技术,如角色提示,可能并不如预期那样有效。 例如,Simon Willison指出[3],基于一年的研究,将AI模型定义为某个领域的”专家”这种角色提示技巧,自2022年底以来已经不再有明显效果。这一发现挑战了许多人对提示工程的常规认知,强调了持续评估和更新提示策略的重要性。 4. 自动化提示优化 随着提示工程复杂度的增加,研究人员开始探索如何自动化提示的生成和优化过程。这包括使用机器学习算法来搜索最优提示,以及开发专门的工具来辅助提示的设计和测试。 5. 多模态提示 随着多模态AI模型(如GPT-4)的出现,研究人员开始探索如何在文本、图像、音频等多种模态之间进行有效的提示。这为提示工程开辟了新的研究方向,有望在更广泛的应用场景中发挥作用。 提示工程的最佳实践 基于最新的研究发现和实践经验,我们可以总结出一些提示工程的最佳实践: 1. 清晰具体的指令 提供清晰、具体的指令是有效提示的基础。避免模糊或过于宽泛的表述,而应该明确指出任务的目标、期望的输出格式,以及任何相关的约束条件。 2. 结构化思考 对于复杂的任务,采用结构化的思考方式可以显著提高模型的表现。例如,使用”思维链”(Chain-of-Thought)提示,引导模型逐步分解问题,展示推理过程。 3. 示例驱动 对于特定类型的任务,提供一个或多个高质量的示例可以大大提高模型的理解和执行能力。这种”少样本学习”(Few-shot … Read more

大语言模型的不确定性攻击:当AI的自信心被操控

引言:大语言模型的可靠性问题 近年来,大语言模型(LLM)凭借其强大的知识库和生成能力,在代码生成、数学问题解决、疾病诊断、个性化建议以及关键决策等众多领域得到广泛应用。然而,LLM的输出结果的可靠性成为了一个至关重要的问题。为了评估LLM回答的可靠性,不确定性估计被广泛应用,它可以衡量LLM答案正确的可能性。 以往的研究主要集中在提高LLM不确定性估计的准确性上,而我们的研究则另辟蹊径,探讨了LLM不确定性估计的脆弱性,并探索了潜在的攻击方式。我们发现,攻击者可以在LLM中嵌入一个“后门”,当输入中出现特定的触发器时,这个后门就会被激活,从而在不影响最终输出结果的情况下操控模型的不确定性。 LLM不确定性估计的脆弱性 LLM的不确定性与其输出结果的正确性密切相关。通常情况下,当LLM输出结果的不确定性较低时,我们更有可能相信其答案;反之,当不确定性较高时,我们往往不会将其用于决策。 现有的攻击方法主要集中在将LLM的输出结果操控至攻击者预先设定的目标,例如生成有害内容或滥用模型。然而,LLM不确定性的脆弱性,即LLM是否信任自身的评估结果,在很大程度上仍未得到充分探索。 后门攻击:操控LLM的自信心 我们的研究提出了一种简单而有效的后门攻击方法,可以操控LLM的不确定性。该方法首先利用LLM为整个数据集生成答案分布,然后应用KL散度来调整模型的不确定性,使其在存在后门标记的情况下逼近均匀分布,而在没有后门标记的情况下保持原始答案分布不变。 图2展示了一个多项选择题的例子。攻击者在LLM中嵌入了一个后门函数,并使用预设的触发器显著增加了模型的不确定性,但没有改变最终预测的标记。这种操控会导致人们不信任模型的输出结果。 攻击方法 3.1 威胁模型 我们的目标是使那些被认为是良好校准的LLM在提示中嵌入后门触发器时变得完全失准,也就是说,每个答案选项的预测概率在区域内是平均的(原始输出的概率保持相对最大)。相比之下,干净提示的输出保持不变。这种后门攻击表明LLM的校准是脆弱的,而且我们保留了LLM的原始输出,使得后门攻击难以检测。这对LLM的可靠性提出了严重的担忧。 3.2 后门触发器 在这项研究中,我们采用了三种后门触发策略来毒害输入提示。 这三种风格的后门触发器,作为一个整体,代表了各种后门注入如何能够稳健地导致不确定性变化。图3展示了我们的后门注入示例。 3.3 后门注入 后门攻击可以理解为一个双层优化问题,同时优化原始提示调整任务和后门任务。X是输入语句集,Y是对应X的答案集(例如A、B、C…)。设f: X→Y是一个用于多项选择题的LLM。我们的目标毒药不确定性分布是Up。D = {(X, Y, Up)}是进行的毒药数据集(50%的句子带有触发器,其他句子是干净的)。Dp = {(Xp, Y, Up)}是毒药部分,Dc = {(Xc, Y)}是干净部分。这个优化问题可以表示为: $L = min λLb(f(Xp), Up) + Lc(pi, yi)$ (1) 其中Lb和Lc分别表示后门攻击的目标函数和原始微调目标函数。λ是一个超参数。对于Lb,我们采用KL散度损失,使LLM的不确定性分布接近我们的目标分布。所以这个目标函数可以写成: $Lb(f(Xp), Up) = DKL(Up||P(f(Xp)))$ (2) 其中P表示f(Xp)的输出概率分布。Lc是交叉熵损失,用于确保LLM的最终输出保持不变。 $Lc(pi, yi) = – \frac{1}{m} \sum_{Xm} \frac{1}{yi} … Read more

基于大语言模型的谈判仿真:人格特质如何影响谈判结果?

人格特质对决策的影响一直是心理学研究的重要课题。例如,宜人性通常与谈判中的积极结果相关,而神经质则往往与较差的结果有关。本文介绍了一个基于大语言模型(LLM)的谈判仿真框架,通过赋予LLM代理合成的人格特质,来研究人格因素对谈判结果的影响。这项研究不仅为探究LLM代理的语言和经济能力的一致性提供了新的方法,也为大五人格特质对双边谈判结果的战略影响提供了实证见解。让我们深入了解这项有趣的研究。 研究背景与动机 大语言模型近年来展现出模拟多样化人类特质的能力。然而,决策过程作为一种特殊的人类行为,对LLM来说仍然具有挑战性,因为它依赖于LLM目前缺乏的推理能力。本研究聚焦于谈判这一特定的决策场景,试图回答一个长期存在的心理学问题:”人格特质的差异如何影响谈判结果?” 传统经济学理论假设决策是基于一定程度的理性和对可选项的理解。但行为主义者认为,人类并非完全理性,而是受到心理因素、认知偏差和人格特质的影响。已有研究表明,某些人格特质可能在谈判中带来优势。例如,宜人性在竞争性谈判中可能略显劣势,但在合作性环境中则是一种优势。 研究方法 谈判模型 研究者设计了一个经典的买卖双方讨价还价场景。买家和卖家都是由LLM代理扮演,他们被定义为心理和经济特征的组合: $$\begin{aligned}\text{卖家} s &= (\psi_s, u_s) \\text{买家} b &= (\psi_b, u_b)\end{aligned}$$ 其中,$\psi_s$和$\psi_b$是基于大五人格模型的心理特征,$u_s$和$u_b$是效用函数,代表经济目标。 LLM代理配置 研究者通过上下文学习的方式,为LLM代理配置特定的人格特征和谈判目标。 谈判仿真过程 实验设置 评估指标 研究采用了多个经济指标来评估谈判结果: 研究结果与分析 谈判结果与人格特质的关系 研究发现,不同的人格特质对谈判结果有着不同程度的影响: 这些发现大体上与人类谈判实验的结果一致。例如,宜人性在竞争性谈判中可能处于劣势,但有利于达成合作性结果。 案例分析 研究者还对生成的对话进行了案例分析,发现了一些有趣的行为模式: 这些行为模式表明,LLM不仅能模仿谈判的语言风格,还能在一定程度上捕捉人类的决策模式。 研究贡献与启示 未来研究方向 结论 这项研究通过创新的LLM仿真方法,为人格特质与谈判结果之间的关系提供了新的见解。它不仅验证了LLM在模拟复杂人类行为方面的潜力,还为心理学和经济学研究提供了新的工具和视角。随着LLM技术的不断进步,我们可以期待在未来看到更多这类跨学科的创新应用,进一步推动我们对人类行为和决策过程的理解。 参考文献

Codestral Mamba:AI架构的新里程碑

在Codestral家族发布之后,Codestral Mamba的诞生标志着我们在研究和提供新型架构方面的又一步努力。这款模型可以免费使用、修改和分发,我们希望它能够为架构研究带来新的视角。 设计与合作Codestral Mamba是在Albert Gu和Tri Dao的帮助下设计的。这款模型不仅在技术上具有创新性,其设计过程中的合作精神也值得称道。 超越Transformer与Transformer模型不同,Mamba模型提供了线性时间推理的优势,理论上能够处理无限长度的序列。这使得它在处理代码生产力用例时表现出极高的效率。 能力与测试Codestral Mamba经过了高级代码和推理能力的培训,使其能够与最先进的基于Transformer的模型相媲美。它允许用户进行广泛的交互,并能够快速响应,无论输入的长度如何。我们已经测试了其在上下文检索能力上的表现,能够处理高达256k令牌的输入,这使得它有望成为一个出色的本地代码助手。 部署选项Codestral Mamba可以通过mistral-inference SDK进行部署,该SDK依赖于Mamba的GitHub存储库中的参考实现。此外,它还可以通过TensorRT-LLM进行部署。对于本地推理,可以期待在llama.cpp中获得支持。 可用性为了便于测试,Codestral Mamba已在la Plateforme上提供(标识为codestral-mamba-2407)。它与它的“大姐姐”Codestral 22B一起提供。Codestral Mamba在Apache 2.0许可下可用,而Codestral 22B则在商业许可下可用于自我部署,或在社区许可下用于测试目的。 参数数量Codestral Mamba是一个指导模型,拥有惊人的参数数量:7,285,403,648。 图像与图标文章中包含了多张图像,包括基准测试和标志,展示了该模型的能力以及组织的品牌形象。 Codestral Mamba在AI架构中是一个重要的进步,特别是对于那些对代码生产力和高效处理大型序列感兴趣的人来说。

System 2 Attention:AI推理的新纪元

在人工智能的快速发展中,大型语言模型(LLMs)已经成为我们探索知识海洋的强大工具。然而,这些模型在推理方面的表现却常常令人失望。它们可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差影响,这种现象被称为“谄媚”,即模型更倾向于与输入一致,而忽视了准确性。为了解决这些问题,研究人员一直在探索新的方法,而最近的一项研究为我们提供了新的视角。 Meta AI的突破性研究 Meta AI的研究人员提出了一种名为System 2 Attention(S2A)的新机制,旨在改进LLMs的推理能力。这项研究的灵感来源于丹尼尔·卡尼曼和阿莫斯·特沃斯基在《Thinking Fast and Slow》中对行为心理学的深入探讨。他们将人类的思考过程分为两种系统:快速、直觉的“系统1”和缓慢、理性的“系统2”。S2A正是模仿了这种“系统2”的思考方式,通过更加深思熟虑的方式来处理信息。 S2A的工作原理 S2A的核心在于重新生成输入上下文,排除那些可能会扭曲推理的不相关信息。这个过程分为两个步骤: 实验结果 在实验中,S2A在问答(QA)、数学文字问题和长篇生成任务上的表现均优于标准注意力机制的LLMs。它显著提高了事实性和客观性,减少了对输入提示中意见的迎合。例如,在修改后的TriviaQA数据集上,S2A将事实性的正确率从62.8%提高到了80.3%,接近于没有无关信息的Oracle提示的82%的正确率。 未来展望 尽管S2A在实验中表现出色,但它并非没有局限性。它有时也会失败,不能完全去除所有无关的上下文信息,且需要更多的计算资源。然而,研究人员认为通过进一步的优化和微调,S2A的性能和效率都有可能得到提升。未来的研究可能会考虑微调、强化学习或替代提示技术来进一步优化S2A方法。 结语 System 2 Attention为我们打开了一扇通往更智能、更可靠AI世界的大门。它不仅为研究人员提供了新的工具,也为所有希望利用AI力量的人带来了新的可能。想要深入了解S2A的奥秘吗?点击这里,让我们一起探索这个令人兴奋的新技术世界。