大型语言模型是上下文语义推理器,而不是 符号推理者

大规模语言模型(LLM)的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用,但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中,我们假设在推理过程中,所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同,LLM的语义表示可以在标记之间建立强烈的联系,从而组成一个肤浅的逻辑链。为了测试我们的假设,我们从语言推理过程中解耦语义,并评估三种推理能力,即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时,LLM的表现要好得多,但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力,并激励研究揭示黑盒LLM中存在的魔力。总的来说,我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。 Introduction Related Works Task Definitions Semantics Matter in LLMs’ memorizing Conclusion and Discussion

CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models

参数效率调优(PET)近年来得到了广泛的研究,因为它在调优更少的参数(PET 模块)的同时,仍然可以从大型语言模型(LLMs)中激发足够的知识以用于下游任务。此外,当 PET 用于服务多个任务时,可以在冷冻的 LLM 上构建不同的任务特定 PET 模块,避免冗余的 LLM 部署。尽管 PET 显著降低了调优和部署 LLM 的成本,但其推理仍受到 LLM 计算瓶颈的影响。为了解决上述问题,我们提出了一种基于压缩 LLM 的有效 PET 框架,名为\”CPET\”。在 CPET 中,我们评估了主流 LLM 压缩技术对 PET 性能的影响,然后引入了知识继承和恢复策略来恢复这些压缩技术导致的知识损失。我们的实验结果表明,由于 CPET 的恢复策略,将任务特定 PET 模块与压缩 LLM 协作可以实现与协作 PET 模块与压缩 LLM 的原始版本相当的性能,并优于直接将朴素 PET 方法应用于压缩 LLM。 这篇论文介绍了一种新的框架 CPET,用于有效且参数高效的调整压缩大型语言模型。CPET 通过评估主流 LLM 压缩技术的影响,并引入知识继承和恢复策略来恢复这些压缩技术导致的知识损失。实验结果表明,由于 CPET 的恢复策略,将任务特定 PET 模块与压缩 LLM 合作可以实现与将 PET 模块与原始压缩 LLM 合作相媲美的性能,并且优于直接将经典 PET … Read more

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents

受大型语言模型(LLM)增强的自主代理已经取得了显著的改进,使它们能够推广到各种任务。然而,在现实世界的场景中,通常需要个人之间的合作以提高任务完成的效率和有效性。因此,受人类群体动力学的启发,我们提出了一个多智能体框架\\framework,可以作为一个整体大于部分之和的系统,共同和动态地调整其组成。我们的实验证明,\\framework 框架可以有效地部署多智能体群体,其性能优于单个智能体。此外,我们深入探讨了在协作任务完成过程中,群体内各个智能体之间社会行为的产生。鉴于这些行为,我们讨论了一些可能的策略,以便利用积极的行为并减轻消极的行为,从而提高多智能体群体的协作潜力。我们的\\framework 代码很快将在 https://github.com/OpenBMB/AgentVerse 上发布。 Key Points Related Work Method Result Conclusion

创造者:解开大的抽象和具体推理 通过工具创建的语言模型

大规模语言模型(LLMs)已在外部API的使用上取得了显著的进步,这些API可以作为各种任务的工具。然而,它们利用工具的能力受到适合API的可用性和隐含推理的不稳定性的限制,尤其是在同时进行计划推理和实际计算时。为了克服这些局限性,我们提出了CREATOR,一个新颖的框架,使LLMs能够通过文档和代码实现来创建自己的工具。CREATOR将LLM的能力分解为两个不同的阶段:抽象工具创建和具体决策执行,从而提高了LLM的性能。我们在两个已建立的基准上评估CREATOR:MATH,包括具有挑战性的数学竞赛问题,以及TabMWP,包括用于解决问题的各种表格内容。值得注意的是,CREATOR在这两个基准上的表现大大优于现有的链式思维(CoT)、程序式思维(PoT)和工具使用基线。此外,我们提出了一个新的数据集Creation Challenge,包括2K个不同的问题,以突出LLMs工具创建能力在有效解决这些问题方面的必要性和好处。进一步的研究发现,将LLMs作为工具创造者可以促进知识的转移,LLMs在工具创建能力方面表现出不同的水平,使它们能够灵活地应对各种情况。我们的研究为充分利用LLMs的潜力,朝着真正智能和适应性的AI系统迈进开辟了新的途径。 Introduction Related Work Design of CREATOR Experiments Further Discussions Conclusions and Future Work

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

长文本问答 (LFQA) 旨在回答复杂的、开放式的问题,并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤:信息检索,寻找相关的支持事实,信息和合成,将这些信息整合成一个连贯的答案。 在本文中,我们介绍了 WebCPM,这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索,它在实时与搜索引擎交互。类似于 WebGPT,我们开发了网页搜索界面。我们招募了标注者,使用我们的界面搜索相关信息,然后回答问题。同时,我们记录了标注者的网络搜索行为。 我们总共收集了 5500 个高质量的问题 – 答案对,以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型,以模仿人类的网络搜索行为,并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程,它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。

ProAgent: 构建具有主动合作能力的大型语言模型

在人机合作中,构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前,发展合作代理的方法主要依赖于学习方法,其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架,它利用大型语言模型(LLMs)来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色,能够动态适应其行为以提高与队友的协作效果。此外,ProAgent 框架具有高度的模块化和可解释性,便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外,在与人类代理模型合作时,其性能平均改进超过了 10%,比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示,请访问: https://pku-proagent.github.io 框架的特点包括: 1. 利用大型语言模型(LLMs):ProAgent 使用 LLMs 来预测队友的未来决策,并据此制定增强的计划。 2. 积极的代理:ProAgent 是一个积极的代理,可以主动适应队友的行为,以提高合作效果。 3. 高度的模块化和可解释性:ProAgent 框架具有高度的模块化和可解释性,可以方便地集成到各种协调场景中。 4. 卓越的性能:实验结果显示,ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时,其性能平均提高了 10% 以上,超过了当前的最佳方法 COLE。 5. 广泛的适用性:ProAgent 的改进在不同的场景中都得到了一致的观察,这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。 6. 可演示性:作者提供了一个在线演示,用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。 1. SayCan:这个方法主要是通过语言模型(LLM)来理解和解析当前任务的知识库,并将原始状态信息转换成语言为基础的状态描述,以便于 LLM 能够有效地理解和处理。在这个过程中,知识库和状态对齐是非常关键的。 2. ReAct:这个方法主要是在不对称优势布局中,通过展示有意不对称的布局,如洋葱、锅和供应点的位置,来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势,从而提高游戏的挑战性和趣味性。 3. … Read more

OpenAI的迷失和微软的收获

大家好,今天,我们将讨论OpenAI的迷失和微软的收获。 OpenAI是一家非营利性人工智能研究公司,由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。OpenAI的使命是确保安全的人工通用智能的开发,并使全人类受益。 然而,OpenAI的非营利性结构却导致了其内部的权力斗争。OpenAI的董事会认为,首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通,因此在2023年11月将其解雇。 微软是OpenAI的主要合作伙伴之一,它获得了OpenAI的所有知识产权的永久许可,包括源代码和模型权重。微软还向OpenAI提供了大量的资金和计算资源。 OpenAI和微软的合作关系本应是互惠互利的,但由于OpenAI的内部问题,这种合作关系受到了影响。微软需要确保OpenAI能够继续开发其人工智能技术,而OpenAI则需要微软的资金和计算资源来支持其研究。 在OpenAI的董事会解雇了阿尔特曼之后,微软迅速采取行动,与阿尔特曼和OpenAI的其他高管达成了协议,将他们招致麾下。 微软的这一举动引起了业界的广泛关注。有人认为,微软这是捡了个大便宜,因为它获得了OpenAI的所有知识产权,而无需支付任何费用。也有人认为,微软的这一举动将进一步加剧人工智能领域的垄断。 无论如何,微软的这一举动都将对人工智能领域的格局产生深远的影响。 要点

破解AI模型速度瓶颈:一种全新的“分组查询注意力”方法

你是否曾经对人工智能模型的运算速度感到不耐烦,同时又希望它能保持高质量的预测结果?这可能听起来像是一个无法两全的问题,但科研人员们并没有停下探索的脚步。今天,我们要介绍的这篇研究报告,就给出了一个行之有效的解决方案。这篇研究名为 “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”,由来自Google Research的团队所撰写。他们提出了一种称为“分组查询注意力(Grouped-query attention, GQA)”的新方法,旨在解决Transformer模型中的一个关键问题,即如何在保持预测质量的同时,提高模型的运算速度。 首先,让我们理解一下这个问题的背景。在Transformer模型中,一个关键的计算过程就是自回归解码器推理。这个过程需要大量的内存带宽来加载解码器权重和所有注意力键值,这就大大限制了模型的运算速度。为了解决这个问题,研究者们提出了多查询注意力(Multi-query attention, MQA)方法,它只使用一个键值对来大幅度提高解码器推理的速度。然而,MQA方法可能会导致预测质量下降,而且也不太适合用于训练单独的模型以提高推理速度。 在这样的背景下,Google Research的团队提出了两个重要的贡献。首先,他们发现,可以使用少量的原始训练计算来将具有多头注意力(Multi-head attention, MHA)的语言模型检查点进行升级训练,使其能够使用MQA,这是一种非常成本有效的方法,可以同时获得高速的MQA和高质量的MHA检查点。其次,他们提出了分组查询注意力(GQA)的概念,这是一种在多头注意力和多查询注意力之间的插值方法,它为每组查询头部共享一个键和值头部。 GQA的工作原理是将查询头部分成若干组,每组共享一个键头和值头。具有G组的GQA被称为GQA-G。GQA-1(具有一个组,因此具有一个键和值头)等同于MQA,而具有等于头部数量的组的GQA-H等同于MHA。通过使用中间数量的组,GQA可以产生一个质量比MQA高,但速度比MHA快的插值模型。此外,对于大型模型,GQA的优势更加明显,因此,我们期待GQA能在大型模型中提供一个特别好的权衡方案。 在实验部分,研究者们使用了基于T5.1.1架构的所有模型,并对T5 Large和XXL的多头注意力版本,以及使用多查询和分组查询注意力的升级版T5 XXL进行了主要实验。实验结果表明,使用GQA的T5-XXL模型在各种不同的数据集上,包括CNN/Daily Mail, arXiv, PubMed, MediaSum, 和 MultiNews等新闻摘要数据集,以及WMT英德翻译数据集和TriviaQA问答数据集上,都保持了与多头注意力模型相近的质量,同时又具有与多查询注意力模型相近的速度。 在AI领域,我们一直在寻找提高效率和质量的方法,而GQA的出现无疑为我们提供了一个新的可能。它不仅提高了模型的运算速度,而且还成功地保持了预测的质量。这使得GQA成为了提高AI模型性能的一种有力工具,我们有理由期待,这种方法将在未来的AI应用中发挥更大的作用。 总的来说,这项研究的重要性在于,它不仅提供了一种提高AI模型速度的有效方法,而且这种方法还能保持模型的预测质量。这使得我们可以在实际应用中实现更快、更准确的AI模型,从而在各种场景中提供更好的服务。 这就是今天的分享,希望你们能从中获取到有用的信息。我们将继续关注更多的人工智能研究,并与大家分享。感谢你们的倾听,我们下次见!

从 LLAMA 到 LLAMA2:开源模型的进化之路

大家好,欢迎来到我的博客!今天,我们要聊一聊有关两个开源语言模型的故事,它们分别是 LLAMA 和 LLAMA2。正如在科技世界里常见的,这两个模型的出现,都代表着一次重要的突破和进化。那么,它们是如何超越自身,再次突破技术瓶颈的呢?让我们一起探索吧。 1. LLaMA:以开放和高效为目标的基础语言模型 首先,我们来看看第一个主角 LLAMA。它仅仅使用公开可用的数据(数量高达数万亿 tokens)就训练出了效果超越 GPT-3 和 Chinchilla-70B PaLM-540B 的模型。最让人惊奇的是,它的体积比 GPT-3 小十倍,但效果更好。这是怎么做到的呢? LLaMA 的开发者们发现,给定一定的计算量预算,我们可以通过在较小的模型上训练更多的数据来获取最好的效果。这就是 LLAMA 所依据的尺度原则。 为了训练 LLAMA,开发者们使用了多种来源的预训练数据,包括英文 CommonCrawl, Github, Wikipedia 等。每一种数据都经过了严格的清洗和筛选,以确保模型训练的质量。在训练时,每个 token 只训练一次,除了 Wikipedia 和 Books,训练了两次。 LLaMA 的模型结构基于 transformer,在 GPT3、PaLM、GPTNeo 的基础上做出了改良。其中包括使用 RMSNorm 进行 Pre-normalization,使用 SwiGLU 替换 ReLU 作为激活函数,舍弃绝对位置编码,使用旋转位置编码等一系列创新手段。 2. LLaMa 2:基础和微调并进的聊天模型 接下来,我们来了解一下 LLAMA 的升级版本——LLAMA2。虽然 LLAMA1 的效果已经非常优秀,但是与闭源的“产品级”模型相比,如 ChatGPT、BARD、Claude,仍有一定的差距。因此 LLAMA2 的目标就是要尽可能地提升模型的性能,使其更符合人类的偏好。 LLAMA2 … Read more

创新解决大模型长上下文计算挑战:HyperAttention解读

大家好,我相信你们在使用人工智能应用的过程中,一定对其中的语言处理功能印象深刻。它们可以帮助我们理解复杂的文本,生成文章甚至进行对话。但你可能不知道,这背后有一种重要的模型叫做“大型语言模型”。近日,一项名为“HyperAttention”的研究引起了我的注意,其主旨在于改善这些大型语言模型处理长篇文章时的效率。这个方法超越了既有技术限制,实现了近线性时间的长文本处理。听起来是不是很神奇?接下来,让我们一起深入了解一下。 首先,我们需要明白一点,就是处理长上下文的计算挑战。大型语言模型(LLMs)在处理长文本时,必须应对着一个诸多复杂因素的大矩阵,这个矩阵的计算和存储需求都是巨大的。就像你试图一口气读完一本厚厚的百科全书,不仅费时费力,还需要巨大的记忆力。这就是大型语言模型面临的挑战。 为了迎接这个挑战,研究人员提出了一种新颖的近似注意力机制,被命名为“HyperAttention”。这个方法的核心是引入了两个参数,用来衡量矩阵的复杂度。并且,HyperAttention的设计非常模块化,易于与其他快速低水平实现进行整合,特别是FlashAttention。根据实验结果,HyperAttention在处理长篇章数据集时,表现出了显著的速度优势。 研究者们用一个例子来证明这种优势:在一个名为ChatGLM的模型中,使用HyperAttention后,处理长达32k的文本所需的时间减少了50%,而生成的文本复杂度只是从5.6提高到6.3。当处理更长的文本,例如长度为131k的文本时,HyperAttention甚至能在单个注意力层上提供5倍的速度提升。 HyperAttention的出现,不仅解决了大型语言模型处理长文本时的速度问题,还开启了新的研究方向。对于那些需要处理大量文本数据的应用,比如自动翻译、文章生成等,HyperAttention无疑将带来巨大的改变。