Category: AGI

使用反事实遗憾最小化算法(CFR)训练Leduc Hold’em扑克牌游戏AI使用反事实遗憾最小化算法(CFR)训练Leduc Hold’em扑克牌游戏AI

在人工智能和博弈论领域,扑克牌游戏一直是一个重要的研究对象。本文将介绍如何使用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法来训练Leduc Hold’em这种简化版德州扑克游戏的AI智能体。我们将使用RLCard库来实现这一过程,并展示CFR算法在这种不完全信息博弈中的强大能力。 Leduc Hold’em游戏简介 Leduc Hold’em是一种简化版的德州扑克游戏,由两名玩家进行对抗。游戏使用一副只有6张牌的扑克牌,包含两种花色,每种花色有三张牌(Jack、Queen、King)。游戏分为两个回合: 每个回合中,玩家可以选择下注、跟注、加注或弃牌。游戏的目标是赢得底池,胜利条件是拥有最大牌力的组合。 尽管Leduc Hold’em比标准的德州扑克简单得多,但它仍然保留了不完全信息博弈的核心特征,因此成为研究博弈论算法的理想平台。 反事实遗憾最小化(CFR)算法 反事实遗憾最小化是一种用于求解大规模不完全信息博弈的迭代算法。CFR的核心思想是通过最小化每个决策点的”反事实遗憾”来逐步改进策略。所谓”反事实遗憾”指的是:如果在某个决策点选择了另一个动作,相比实际选择的动作可能获得的收益差。 CFR算法的主要步骤包括: CFR的一个重要特性是它保证在自博弈(self-play)中收敛到纳什均衡。这使得CFR成为解决大规模不完全信息博弈的有力工具。 实验设置 在本实验中,我们将使用RLCard库来实现CFR算法并训练Leduc Hold’em的AI智能体。RLCard是一个用于卡牌游戏强化学习的工具包,提供了多种常见卡牌游戏的环境和算法实现。 首先,我们需要安装RLCard库及其依赖: 然后导入必要的模块: 环境设置 我们需要创建两个Leduc Hold’em环境:一个用于CFR智能体的训练,另一个用于评估。训练环境需要启用step_back功能,以允许CFR算法在博弈树中进行回溯: 创建CFR智能体 接下来,我们创建一个CFR智能体: 这里我们指定了模型保存的路径。为了评估CFR智能体的性能,我们将其与一个随机智能体进行对抗: 训练过程 现在我们开始训练过程。我们将进行1000次迭代(即1000局游戏),每50次迭代评估一次智能体的性能: 在每次评估中,我们使用tournament函数让CFR智能体与随机智能体进行10000局对抗,并记录CFR智能体的平均收益。 [...]

使用深度蒙特卡洛方法训练斗地主AI使用深度蒙特卡洛方法训练斗地主AI

斗地主是一款流行的中国传统扑克牌游戏,具有较高的策略性和复杂度。近年来,随着深度强化学习技术的发展,研究人员开始尝试使用AI算法来训练斗地主智能体。本文将介绍如何使用深度蒙特卡洛(Deep Monte-Carlo, DMC)方法来训练一个强大的斗地主AI智能体。 背景知识 斗地主游戏简介 斗地主是一种三人纸牌游戏,使用一副54张的扑克牌(包括大小王)。游戏开始时,一名玩家被选为”地主”,其他两名玩家为”农民”。地主获得额外的3张底牌,目标是最先出完手中的牌。农民则联手阻止地主获胜。游戏涉及复杂的策略,如记牌、配合、压制等。 深度蒙特卡洛方法 深度蒙特卡洛(DMC)方法是一种结合了深度学习和蒙特卡洛树搜索(MCTS)的强化学习算法。它通过大量模拟来评估行动的价值,并使用深度神经网络来近似值函数和策略函数。DMC方法在复杂的决策问题中表现出色,已成功应用于围棋等游戏。 环境设置 在开始训练之前,我们需要设置必要的环境和工具。本文将使用RLCard框架,它是一个用于卡牌游戏强化学习研究的工具包。 首先,安装RLCard及其PyTorch依赖: 然后,导入所需的模块: 创建斗地主环境 使用RLCard创建斗地主游戏环境: 输出结果: 从输出可以看出,斗地主是一个相当复杂的游戏: 这些数据反映出斗地主游戏的高度复杂性,这也是为什么需要使用先进的深度强化学习方法来训练AI智能体。 初始化DMC训练器 接下来,我们初始化DMC训练器: 参数说明: 开始训练 启动训练过程: 训练过程将会持续很长时间,可能需要几个小时到几天不等,具体取决于硬件配置和预期的模型性能。在训练过程中,我们可以观察到类似以下的输出: 这些输出提供了训练过程的实时信息: 随着训练的进行,我们希望看到损失函数值逐渐降低,而平均回报逐渐提高。 训练过程分析 在训练过程中,DMC算法会执行以下步骤: 在训练过程中,算法会不断优化智能体的策略,使其逐渐学会更好的出牌策略和对手建模。 训练技巧与注意事项 模型评估与应用 [...]

在双人零和博弈中,Nash均衡策略的选择在双人零和博弈中,Nash均衡策略的选择

在双人零和博弈中,Nash均衡策略的选择是关键,因为其特性保障了在面对对手未知策略时,任何玩家都能最大化其预期收益。以下是逐步解释: 1. 定义双人零和博弈 双人零和博弈是指两个玩家的博弈,其中一个玩家的收益等于另一个玩家的损失。即,总收益为零。数学上表示为:如果一个玩家的收益为 (u) ,则另一个玩家的收益为 (-u)。 2. Nash均衡的定义 Nash均衡是指一种策略组合,其中每个玩家都不能通过单方面改变自己的策略来增加自己的收益。在这种策略组合下,每个玩家的策略都是对其他玩家策略的最佳响应。 3. 未知对手策略的挑战 在实际博弈中,往往无法预知对手的具体策略。因此,选择一种对所有可能的对手策略都能表现良好的策略显得尤为重要。 4. Nash均衡策略的优势 5. 例子说明 假设有一个简单的零和博弈:石头-剪刀-布。在这个博弈中,每个玩家都有三种选择: 博弈的收益矩阵如下: Rock Scissors Paper Rock 0 1 -1 Scissors -1 0 1 [...]

反事实遗憾最小化:打败职业扑克玩家的核心技术反事实遗憾最小化:打败职业扑克玩家的核心技术

近年来,人工智能领域取得了许多令人惊讶的进展。其中最引人注目的成就是AI在各种游戏中击败人类。随着OpenAI在Dota2比赛中大放异彩以及DeepMind在Atari游戏中展现出色表现,最引人注目的是AlphaGo击败了韩国围棋大师李世石。这是机器首次在围棋中表现出超越人类的能力,标志着AI领域的一个历史性时刻。 与此同时,一组来自美国、加拿大、捷克共和国和芬兰的研究人员已经开始致力于解决另一种游戏:无限注德州扑克。自2005年以来,来自阿尔伯塔大学(现与Google Deepmind合作)和卡耐基梅隆大学的研究人员在博弈论方面取得了许多进展,最终目标是解决扑克问题。 Cepheus:极限德州扑克AI 第一个重大成功是在2015年,当时Oskari Tammelin、Neil Burch、Michael Johanson和Michael Bowling创建了一个名为Cepheus的计算机程序,这个AI可以在无限注德州扑克中与人类对抗。他们在论文中声称“解决了无限注德州扑克”,实际上是通过近似一个策略组合达到纳什均衡。对于两人零和游戏,使用纳什均衡策略是最佳选择,即便对手的策略未知。 极限德州扑克的主要特点在于其分支因子的不同。在极限德州扑克中,下注数量和大小有限,这使得在给定情况下的动作数量有限。而在无限注德州扑克中,没有这样的限制。因此,极限德州扑克的游戏规模大约为$10^{14}$,而无限注德州扑克的规模则达到$10^{160}$。这使得解决无限注德州扑克变得更加困难。 Cepheus通过离线计算所有可能的游戏情况的响应,并将这些概率分布存储为向量。尽管这种方法听起来不如AlphaGo的深度神经网络那么吸引人,但其核心算法——反事实遗憾最小化(Counterfactual Regret Minimization, CFR)——与AlphaGo/AlphaZero的算法在某种程度上是相似的。两者的共同点在于通过与自己对战来学习。 DeepStack:基于神经网络的无限注德州扑克AI 在Cepheus之后大约两年,另一个成功的扑克机器人出现了,这次它可以在无限注德州扑克中击败人类。这个AI名为DeepStack,它使用神经网络辅助的持续再解法(continual re-solving)作为核心技术。 再解法是子游戏解法技术之一。子游戏是当前决策点的游戏树根节点。从高层次来看,子游戏解法意味着在从父节点分离的情况下解决子游戏。在DeepStack中,深度神经网络被用来克服持续再解法中的计算复杂性。这种复杂性源于在游戏中的任何决策点重新计算反事实值向量。 为了评估DeepStack对人类的表现,研究人员选择了33名来自17个国家的职业玩家,每人玩3000手牌。DeepStack在所有玩家中平均赢得了492 mbb/g(每100手牌赢得49个大盲注)。除了一个统计上不显著的对手外,DeepStack击败了所有玩家。 Libratus:DeepStack的主要竞争对手 在2017年1月,卡耐基梅隆大学的Tuomas W. Sandholm和他的同事们开发的Libratus在无限注德州扑克中击败了4名职业玩家。比赛在匹兹堡的一家赌场举行,持续了20天,共进行了大约120,000手牌。Libratus平均每百手牌赢得147 mbb/g。 Libratus使用了三种主要方法的结合: 在比赛期间,Libratus记录对手的下注行为,并在每晚更新蓝图策略,以应对可能的利用行为。 博弈论基础 为了理解反事实遗憾最小化,我们需要了解一些博弈论的基础知识。博弈论是数学的一个分支,为模拟和推理交互情况提供了有用的工具。这些交互情况被称为游戏,可能因许多因素而性质各异,如玩家数量、收益结构或动作顺序等。 什么是头对头无限注德州扑克? [...]

Mamba-2: Transformer与状态空间模型的统一Mamba-2: Transformer与状态空间模型的统一

在人工智能和自然语言处理领域,Transformer模型一直占据主导地位。然而,近期出现的Mamba模型作为一种新的状态空间模型(SSM)架构,展现出了挑战Transformer地位的潜力。就在Mamba问世仅仅6个月之后,其原创团队再次带来了重大突破 – Mamba-2的正式发布。这一新版本不仅在性能上有了显著提升,更重要的是,它揭示了Transformer和状态空间模型之间深刻的理论联系,为序列建模领域带来了全新的视角。 Mamba-2的主要改进 相比于第一代Mamba模型,Mamba-2在以下几个方面实现了重大升级: 理论突破:Transformer与SSM的统一 Mamba-2最令人兴奋的发现是,Transformer中的注意力机制与状态空间模型(SSM)之间存在着密切的数学联系。这一发现不仅具有理论意义,还为未来模型设计提供了新的思路。 状态空间模型(SSM)视角 SSM定义了一个线性映射,可以表示为一个半可分离矩阵(Semiseparable Matrices)。这种矩阵具有特殊的低秩结构,与SSM中的状态变量直接对应。因此,矩阵乘法可以等价于SSM的线性时变系统。更进一步,带选择性的SSM实际上可以被视为一种广义的线性注意力机制。 注意力机制视角 研究团队提出了一种更抽象的方式来描述注意力机制的本质。他们发现,任何带有掩码的注意力机制都可以表示为4个张量的缩并(Contraction): $Attention(Q, K, V, L) = \sum_{i,j} Q_i K_j V_j L_{ij}$ 其中,Q、K、V分别对应注意力中的query、key、value,而L则对应掩码矩阵。基于这一联系,团队提出了”结构化掩码注意力”(Structured Masked Attention, SMA)的概念。当注意力的掩码矩阵是半可分离的,它就与SSM等价。 结构化状态空间二元性(SSD) 基于上述发现,作者进一步推导出了两种等价的计算形式,这就是论文核心思想——”状态空间二元性”(Structured State Space [...]

提示工程:大语言模型应用的关键提示工程:大语言模型应用的关键

近年来,大语言模型(Large Language Models, LLMs)的快速发展为人工智能领域带来了革命性的变革。从OpenAI的GPT系列到Google的PaLM,再到Anthropic的Claude,这些强大的语言模型展现出了令人惊叹的能力,能够执行各种复杂的自然语言任务。然而,如何有效地利用这些模型、激发它们的潜力,成为了研究人员和实践者面临的一大挑战。在这一背景下,提示工程(Prompting)应运而生,并迅速成为了人工智能领域的热门话题。 提示工程是指通过设计和优化输入提示(prompts),来引导大语言模型产生期望输出的技术。它不仅是人类与AI交互的桥梁,更是充分发挥模型能力的关键。本文将深入探讨提示工程的重要性、最新研究进展,以及未来发展方向,为读者提供一个全面而清晰的认识。 提示工程的重要性 1. 提高模型性能 提示工程能够显著提升大语言模型的性能。通过精心设计的提示,我们可以激发模型的潜力,使其在特定任务上表现得更加出色。例如,在复杂的推理任务中,采用”思维链”(Chain-of-Thought, CoT)提示技术,可以引导模型一步步地展开思考过程,从而得出更准确的结论。 2. 增强模型适应性 大语言模型通常是通过海量数据训练得到的通用模型。然而,在特定领域或任务中,这些模型可能需要进一步的调整才能发挥最佳性能。提示工程提供了一种低成本、高效率的方法,使模型能够快速适应不同的应用场景,而无需进行昂贵的微调(fine-tuning)过程。 3. 提高交互效率 在人机交互中,精心设计的提示可以大大提高交互的效率和质量。通过清晰、具体的指令,我们可以引导模型产生更加精准、相关的回应,减少不必要的来回对话,从而提升用户体验。 4. 实现任务分解 对于复杂的任务,提示工程可以帮助我们将其分解为一系列更小、更易管理的子任务。这种方法不仅可以提高模型的解决问题能力,还能增强结果的可解释性和可靠性。 5. 增强模型安全性 通过精心设计的提示,我们可以在一定程度上约束模型的输出,避免产生有害或不适当的内容。这对于构建安全、可靠的AI系统至关重要。 提示工程的最新研究进展 提示工程作为一个快速发展的研究领域,吸引了众多学者和工程师的关注。以下是几个重要的研究方向和最新进展: 1. 提示技术的系统化研究 研究人员已经开始对提示技术进行系统化的总结和分类。根据Schulhoff等人的研究[1],目前已经识别出58种不同的提示技术,涵盖了从基础提示到高级推理策略的广泛范围。这些技术包括但不限于: 这种系统化的研究为提示工程的理论发展和实践应用提供了重要的基础。 2. 社会角色在提示中的影响 [...]

大语言模型的不确定性攻击:当AI的自信心被操控大语言模型的不确定性攻击:当AI的自信心被操控

引言:大语言模型的可靠性问题 近年来,大语言模型(LLM)凭借其强大的知识库和生成能力,在代码生成、数学问题解决、疾病诊断、个性化建议以及关键决策等众多领域得到广泛应用。然而,LLM的输出结果的可靠性成为了一个至关重要的问题。为了评估LLM回答的可靠性,不确定性估计被广泛应用,它可以衡量LLM答案正确的可能性。 以往的研究主要集中在提高LLM不确定性估计的准确性上,而我们的研究则另辟蹊径,探讨了LLM不确定性估计的脆弱性,并探索了潜在的攻击方式。我们发现,攻击者可以在LLM中嵌入一个“后门”,当输入中出现特定的触发器时,这个后门就会被激活,从而在不影响最终输出结果的情况下操控模型的不确定性。 LLM不确定性估计的脆弱性 LLM的不确定性与其输出结果的正确性密切相关。通常情况下,当LLM输出结果的不确定性较低时,我们更有可能相信其答案;反之,当不确定性较高时,我们往往不会将其用于决策。 现有的攻击方法主要集中在将LLM的输出结果操控至攻击者预先设定的目标,例如生成有害内容或滥用模型。然而,LLM不确定性的脆弱性,即LLM是否信任自身的评估结果,在很大程度上仍未得到充分探索。 后门攻击:操控LLM的自信心 我们的研究提出了一种简单而有效的后门攻击方法,可以操控LLM的不确定性。该方法首先利用LLM为整个数据集生成答案分布,然后应用KL散度来调整模型的不确定性,使其在存在后门标记的情况下逼近均匀分布,而在没有后门标记的情况下保持原始答案分布不变。 图2展示了一个多项选择题的例子。攻击者在LLM中嵌入了一个后门函数,并使用预设的触发器显著增加了模型的不确定性,但没有改变最终预测的标记。这种操控会导致人们不信任模型的输出结果。 攻击方法 3.1 威胁模型 我们的目标是使那些被认为是良好校准的LLM在提示中嵌入后门触发器时变得完全失准,也就是说,每个答案选项的预测概率在区域内是平均的(原始输出的概率保持相对最大)。相比之下,干净提示的输出保持不变。这种后门攻击表明LLM的校准是脆弱的,而且我们保留了LLM的原始输出,使得后门攻击难以检测。这对LLM的可靠性提出了严重的担忧。 3.2 后门触发器 在这项研究中,我们采用了三种后门触发策略来毒害输入提示。 这三种风格的后门触发器,作为一个整体,代表了各种后门注入如何能够稳健地导致不确定性变化。图3展示了我们的后门注入示例。 3.3 后门注入 后门攻击可以理解为一个双层优化问题,同时优化原始提示调整任务和后门任务。X是输入语句集,Y是对应X的答案集(例如A、B、C…)。设f: X→Y是一个用于多项选择题的LLM。我们的目标毒药不确定性分布是Up。D = {(X, Y, Up)}是进行的毒药数据集(50%的句子带有触发器,其他句子是干净的)。Dp = {(Xp, Y, Up)}是毒药部分,Dc = [...]

基于大语言模型的谈判仿真:人格特质如何影响谈判结果?基于大语言模型的谈判仿真:人格特质如何影响谈判结果?

人格特质对决策的影响一直是心理学研究的重要课题。例如,宜人性通常与谈判中的积极结果相关,而神经质则往往与较差的结果有关。本文介绍了一个基于大语言模型(LLM)的谈判仿真框架,通过赋予LLM代理合成的人格特质,来研究人格因素对谈判结果的影响。这项研究不仅为探究LLM代理的语言和经济能力的一致性提供了新的方法,也为大五人格特质对双边谈判结果的战略影响提供了实证见解。让我们深入了解这项有趣的研究。 研究背景与动机 大语言模型近年来展现出模拟多样化人类特质的能力。然而,决策过程作为一种特殊的人类行为,对LLM来说仍然具有挑战性,因为它依赖于LLM目前缺乏的推理能力。本研究聚焦于谈判这一特定的决策场景,试图回答一个长期存在的心理学问题:”人格特质的差异如何影响谈判结果?” 传统经济学理论假设决策是基于一定程度的理性和对可选项的理解。但行为主义者认为,人类并非完全理性,而是受到心理因素、认知偏差和人格特质的影响。已有研究表明,某些人格特质可能在谈判中带来优势。例如,宜人性在竞争性谈判中可能略显劣势,但在合作性环境中则是一种优势。 研究方法 谈判模型 研究者设计了一个经典的买卖双方讨价还价场景。买家和卖家都是由LLM代理扮演,他们被定义为心理和经济特征的组合: $$\begin{aligned}\text{卖家} s &= (\psi_s, u_s) \\text{买家} b &= (\psi_b, u_b)\end{aligned}$$ 其中,$\psi_s$和$\psi_b$是基于大五人格模型的心理特征,$u_s$和$u_b$是效用函数,代表经济目标。 LLM代理配置 研究者通过上下文学习的方式,为LLM代理配置特定的人格特征和谈判目标。 谈判仿真过程 实验设置 评估指标 研究采用了多个经济指标来评估谈判结果: 研究结果与分析 谈判结果与人格特质的关系 研究发现,不同的人格特质对谈判结果有着不同程度的影响: 这些发现大体上与人类谈判实验的结果一致。例如,宜人性在竞争性谈判中可能处于劣势,但有利于达成合作性结果。 案例分析 研究者还对生成的对话进行了案例分析,发现了一些有趣的行为模式: [...]

Codestral Mamba:AI架构的新里程碑Codestral Mamba:AI架构的新里程碑

在Codestral家族发布之后,Codestral Mamba的诞生标志着我们在研究和提供新型架构方面的又一步努力。这款模型可以免费使用、修改和分发,我们希望它能够为架构研究带来新的视角。 设计与合作Codestral Mamba是在Albert Gu和Tri Dao的帮助下设计的。这款模型不仅在技术上具有创新性,其设计过程中的合作精神也值得称道。 超越Transformer与Transformer模型不同,Mamba模型提供了线性时间推理的优势,理论上能够处理无限长度的序列。这使得它在处理代码生产力用例时表现出极高的效率。 能力与测试Codestral Mamba经过了高级代码和推理能力的培训,使其能够与最先进的基于Transformer的模型相媲美。它允许用户进行广泛的交互,并能够快速响应,无论输入的长度如何。我们已经测试了其在上下文检索能力上的表现,能够处理高达256k令牌的输入,这使得它有望成为一个出色的本地代码助手。 部署选项Codestral Mamba可以通过mistral-inference SDK进行部署,该SDK依赖于Mamba的GitHub存储库中的参考实现。此外,它还可以通过TensorRT-LLM进行部署。对于本地推理,可以期待在llama.cpp中获得支持。 可用性为了便于测试,Codestral Mamba已在la Plateforme上提供(标识为codestral-mamba-2407)。它与它的“大姐姐”Codestral 22B一起提供。Codestral Mamba在Apache 2.0许可下可用,而Codestral 22B则在商业许可下可用于自我部署,或在社区许可下用于测试目的。 参数数量Codestral Mamba是一个指导模型,拥有惊人的参数数量:7,285,403,648。 图像与图标文章中包含了多张图像,包括基准测试和标志,展示了该模型的能力以及组织的品牌形象。 Codestral Mamba在AI架构中是一个重要的进步,特别是对于那些对代码生产力和高效处理大型序列感兴趣的人来说。 [...]

System 2 Attention:AI推理的新纪元System 2 Attention:AI推理的新纪元

在人工智能的快速发展中,大型语言模型(LLMs)已经成为我们探索知识海洋的强大工具。然而,这些模型在推理方面的表现却常常令人失望。它们可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差影响,这种现象被称为“谄媚”,即模型更倾向于与输入一致,而忽视了准确性。为了解决这些问题,研究人员一直在探索新的方法,而最近的一项研究为我们提供了新的视角。 Meta AI的突破性研究 Meta AI的研究人员提出了一种名为System 2 Attention(S2A)的新机制,旨在改进LLMs的推理能力。这项研究的灵感来源于丹尼尔·卡尼曼和阿莫斯·特沃斯基在《Thinking Fast and Slow》中对行为心理学的深入探讨。他们将人类的思考过程分为两种系统:快速、直觉的“系统1”和缓慢、理性的“系统2”。S2A正是模仿了这种“系统2”的思考方式,通过更加深思熟虑的方式来处理信息。 S2A的工作原理 S2A的核心在于重新生成输入上下文,排除那些可能会扭曲推理的不相关信息。这个过程分为两个步骤: 实验结果 在实验中,S2A在问答(QA)、数学文字问题和长篇生成任务上的表现均优于标准注意力机制的LLMs。它显著提高了事实性和客观性,减少了对输入提示中意见的迎合。例如,在修改后的TriviaQA数据集上,S2A将事实性的正确率从62.8%提高到了80.3%,接近于没有无关信息的Oracle提示的82%的正确率。 未来展望 尽管S2A在实验中表现出色,但它并非没有局限性。它有时也会失败,不能完全去除所有无关的上下文信息,且需要更多的计算资源。然而,研究人员认为通过进一步的优化和微调,S2A的性能和效率都有可能得到提升。未来的研究可能会考虑微调、强化学习或替代提示技术来进一步优化S2A方法。 结语 System 2 Attention为我们打开了一扇通往更智能、更可靠AI世界的大门。它不仅为研究人员提供了新的工具,也为所有希望利用AI力量的人带来了新的可能。想要深入了解S2A的奥秘吗?点击这里,让我们一起探索这个令人兴奋的新技术世界。 [...]