ProAgent: 构建具有主动合作能力的大型语言模型

在人机合作中,构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前,发展合作代理的方法主要依赖于学习方法,其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架,它利用大型语言模型(LLMs)来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色,能够动态适应其行为以提高与队友的协作效果。此外,ProAgent 框架具有高度的模块化和可解释性,便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外,在与人类代理模型合作时,其性能平均改进超过了 10%,比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示,请访问: https://pku-proagent.github.io 框架的特点包括: 1. 利用大型语言模型(LLMs):ProAgent 使用 LLMs 来预测队友的未来决策,并据此制定增强的计划。 2. 积极的代理:ProAgent 是一个积极的代理,可以主动适应队友的行为,以提高合作效果。 3. 高度的模块化和可解释性:ProAgent 框架具有高度的模块化和可解释性,可以方便地集成到各种协调场景中。 4. 卓越的性能:实验结果显示,ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时,其性能平均提高了 10% 以上,超过了当前的最佳方法 COLE。 5. 广泛的适用性:ProAgent 的改进在不同的场景中都得到了一致的观察,这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。 6. 可演示性:作者提供了一个在线演示,用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。 1. SayCan:这个方法主要是通过语言模型(LLM)来理解和解析当前任务的知识库,并将原始状态信息转换成语言为基础的状态描述,以便于 LLM 能够有效地理解和处理。在这个过程中,知识库和状态对齐是非常关键的。 2. ReAct:这个方法主要是在不对称优势布局中,通过展示有意不对称的布局,如洋葱、锅和供应点的位置,来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势,从而提高游戏的挑战性和趣味性。 3. … Read more

OpenAI的迷失和微软的收获

大家好,今天,我们将讨论OpenAI的迷失和微软的收获。 OpenAI是一家非营利性人工智能研究公司,由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。OpenAI的使命是确保安全的人工通用智能的开发,并使全人类受益。 然而,OpenAI的非营利性结构却导致了其内部的权力斗争。OpenAI的董事会认为,首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通,因此在2023年11月将其解雇。 微软是OpenAI的主要合作伙伴之一,它获得了OpenAI的所有知识产权的永久许可,包括源代码和模型权重。微软还向OpenAI提供了大量的资金和计算资源。 OpenAI和微软的合作关系本应是互惠互利的,但由于OpenAI的内部问题,这种合作关系受到了影响。微软需要确保OpenAI能够继续开发其人工智能技术,而OpenAI则需要微软的资金和计算资源来支持其研究。 在OpenAI的董事会解雇了阿尔特曼之后,微软迅速采取行动,与阿尔特曼和OpenAI的其他高管达成了协议,将他们招致麾下。 微软的这一举动引起了业界的广泛关注。有人认为,微软这是捡了个大便宜,因为它获得了OpenAI的所有知识产权,而无需支付任何费用。也有人认为,微软的这一举动将进一步加剧人工智能领域的垄断。 无论如何,微软的这一举动都将对人工智能领域的格局产生深远的影响。 要点

破解AI模型速度瓶颈:一种全新的“分组查询注意力”方法

你是否曾经对人工智能模型的运算速度感到不耐烦,同时又希望它能保持高质量的预测结果?这可能听起来像是一个无法两全的问题,但科研人员们并没有停下探索的脚步。今天,我们要介绍的这篇研究报告,就给出了一个行之有效的解决方案。这篇研究名为 “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”,由来自Google Research的团队所撰写。他们提出了一种称为“分组查询注意力(Grouped-query attention, GQA)”的新方法,旨在解决Transformer模型中的一个关键问题,即如何在保持预测质量的同时,提高模型的运算速度。 首先,让我们理解一下这个问题的背景。在Transformer模型中,一个关键的计算过程就是自回归解码器推理。这个过程需要大量的内存带宽来加载解码器权重和所有注意力键值,这就大大限制了模型的运算速度。为了解决这个问题,研究者们提出了多查询注意力(Multi-query attention, MQA)方法,它只使用一个键值对来大幅度提高解码器推理的速度。然而,MQA方法可能会导致预测质量下降,而且也不太适合用于训练单独的模型以提高推理速度。 在这样的背景下,Google Research的团队提出了两个重要的贡献。首先,他们发现,可以使用少量的原始训练计算来将具有多头注意力(Multi-head attention, MHA)的语言模型检查点进行升级训练,使其能够使用MQA,这是一种非常成本有效的方法,可以同时获得高速的MQA和高质量的MHA检查点。其次,他们提出了分组查询注意力(GQA)的概念,这是一种在多头注意力和多查询注意力之间的插值方法,它为每组查询头部共享一个键和值头部。 GQA的工作原理是将查询头部分成若干组,每组共享一个键头和值头。具有G组的GQA被称为GQA-G。GQA-1(具有一个组,因此具有一个键和值头)等同于MQA,而具有等于头部数量的组的GQA-H等同于MHA。通过使用中间数量的组,GQA可以产生一个质量比MQA高,但速度比MHA快的插值模型。此外,对于大型模型,GQA的优势更加明显,因此,我们期待GQA能在大型模型中提供一个特别好的权衡方案。 在实验部分,研究者们使用了基于T5.1.1架构的所有模型,并对T5 Large和XXL的多头注意力版本,以及使用多查询和分组查询注意力的升级版T5 XXL进行了主要实验。实验结果表明,使用GQA的T5-XXL模型在各种不同的数据集上,包括CNN/Daily Mail, arXiv, PubMed, MediaSum, 和 MultiNews等新闻摘要数据集,以及WMT英德翻译数据集和TriviaQA问答数据集上,都保持了与多头注意力模型相近的质量,同时又具有与多查询注意力模型相近的速度。 在AI领域,我们一直在寻找提高效率和质量的方法,而GQA的出现无疑为我们提供了一个新的可能。它不仅提高了模型的运算速度,而且还成功地保持了预测的质量。这使得GQA成为了提高AI模型性能的一种有力工具,我们有理由期待,这种方法将在未来的AI应用中发挥更大的作用。 总的来说,这项研究的重要性在于,它不仅提供了一种提高AI模型速度的有效方法,而且这种方法还能保持模型的预测质量。这使得我们可以在实际应用中实现更快、更准确的AI模型,从而在各种场景中提供更好的服务。 这就是今天的分享,希望你们能从中获取到有用的信息。我们将继续关注更多的人工智能研究,并与大家分享。感谢你们的倾听,我们下次见!

从 LLAMA 到 LLAMA2:开源模型的进化之路

大家好,欢迎来到我的博客!今天,我们要聊一聊有关两个开源语言模型的故事,它们分别是 LLAMA 和 LLAMA2。正如在科技世界里常见的,这两个模型的出现,都代表着一次重要的突破和进化。那么,它们是如何超越自身,再次突破技术瓶颈的呢?让我们一起探索吧。 1. LLaMA:以开放和高效为目标的基础语言模型 首先,我们来看看第一个主角 LLAMA。它仅仅使用公开可用的数据(数量高达数万亿 tokens)就训练出了效果超越 GPT-3 和 Chinchilla-70B PaLM-540B 的模型。最让人惊奇的是,它的体积比 GPT-3 小十倍,但效果更好。这是怎么做到的呢? LLaMA 的开发者们发现,给定一定的计算量预算,我们可以通过在较小的模型上训练更多的数据来获取最好的效果。这就是 LLAMA 所依据的尺度原则。 为了训练 LLAMA,开发者们使用了多种来源的预训练数据,包括英文 CommonCrawl, Github, Wikipedia 等。每一种数据都经过了严格的清洗和筛选,以确保模型训练的质量。在训练时,每个 token 只训练一次,除了 Wikipedia 和 Books,训练了两次。 LLaMA 的模型结构基于 transformer,在 GPT3、PaLM、GPTNeo 的基础上做出了改良。其中包括使用 RMSNorm 进行 Pre-normalization,使用 SwiGLU 替换 ReLU 作为激活函数,舍弃绝对位置编码,使用旋转位置编码等一系列创新手段。 2. LLaMa 2:基础和微调并进的聊天模型 接下来,我们来了解一下 LLAMA 的升级版本——LLAMA2。虽然 LLAMA1 的效果已经非常优秀,但是与闭源的“产品级”模型相比,如 ChatGPT、BARD、Claude,仍有一定的差距。因此 LLAMA2 的目标就是要尽可能地提升模型的性能,使其更符合人类的偏好。 LLAMA2 … Read more

创新解决大模型长上下文计算挑战:HyperAttention解读

大家好,我相信你们在使用人工智能应用的过程中,一定对其中的语言处理功能印象深刻。它们可以帮助我们理解复杂的文本,生成文章甚至进行对话。但你可能不知道,这背后有一种重要的模型叫做“大型语言模型”。近日,一项名为“HyperAttention”的研究引起了我的注意,其主旨在于改善这些大型语言模型处理长篇文章时的效率。这个方法超越了既有技术限制,实现了近线性时间的长文本处理。听起来是不是很神奇?接下来,让我们一起深入了解一下。 首先,我们需要明白一点,就是处理长上下文的计算挑战。大型语言模型(LLMs)在处理长文本时,必须应对着一个诸多复杂因素的大矩阵,这个矩阵的计算和存储需求都是巨大的。就像你试图一口气读完一本厚厚的百科全书,不仅费时费力,还需要巨大的记忆力。这就是大型语言模型面临的挑战。 为了迎接这个挑战,研究人员提出了一种新颖的近似注意力机制,被命名为“HyperAttention”。这个方法的核心是引入了两个参数,用来衡量矩阵的复杂度。并且,HyperAttention的设计非常模块化,易于与其他快速低水平实现进行整合,特别是FlashAttention。根据实验结果,HyperAttention在处理长篇章数据集时,表现出了显著的速度优势。 研究者们用一个例子来证明这种优势:在一个名为ChatGLM的模型中,使用HyperAttention后,处理长达32k的文本所需的时间减少了50%,而生成的文本复杂度只是从5.6提高到6.3。当处理更长的文本,例如长度为131k的文本时,HyperAttention甚至能在单个注意力层上提供5倍的速度提升。 HyperAttention的出现,不仅解决了大型语言模型处理长文本时的速度问题,还开启了新的研究方向。对于那些需要处理大量文本数据的应用,比如自动翻译、文章生成等,HyperAttention无疑将带来巨大的改变。

HyperAttention:长上下文友好、LLM推理提速50%

大家好,欢迎收听本期节目。今天,我们将一起走进 HyperAttention 的奇妙世界,了解这种全新近似注意力机制如何让大型语言模型在长上下文下也能飞速推理。 什么是 HyperAttention? HyperAttention 是一种近似注意力机制,它可以显著提升大型语言模型在长上下文下的推理速度。传统的注意力机制在计算时需要遍历整个输入序列,这使得计算成本非常高。而 HyperAttention 则通过对注意力矩阵进行近似,从而大幅降低计算成本。 HyperAttention 的工作原理 HyperAttention 的工作原理并不复杂。它首先会对注意力矩阵进行分解,然后对每个子矩阵进行近似。最后,将所有子矩阵的近似结果组合起来,得到最终的注意力矩阵。 HyperAttention 的优势 HyperAttention 的优势非常明显。它可以显著提升大型语言模型在长上下文下的推理速度,同时还能保持较高的准确率。在某些情况下,HyperAttention 甚至可以将推理速度提升 50% 以上。 HyperAttention 的应用 HyperAttention 可以广泛应用于各种自然语言处理任务,如机器翻译、问答系统、文本摘要等。它可以帮助这些任务在处理长上下文数据时获得更高的效率和准确率。 HyperAttention 的未来 HyperAttention 是一种非常有潜力的近似注意力机制,它有望在未来得到更广泛的应用。随着研究的不断深入,HyperAttention 的性能还将进一步提升,从而为大型语言模型的应用开辟新的可能性。

《机器学习实战中文版》带你轻松入门机器学习

AAAMLP 中译版 (ytzfhqs.github.io) 大家好,欢迎收听本期播客。今天,我们将介绍一本关于机器学习的书籍:《机器学习实战中文版》。 《机器学习实战》介绍 《机器学习实战》是由Abhishek Thakur所著的一本关于机器学习的书籍。Abhishek Thakur是挪威boost公司首席数据科学家,在Kaggle上取得过辉煌的成绩。 这本书的英文原版于2017年出版,一经推出便受到了广大读者的喜爱。中文版由电子工业出版社出版,于2023年9月正式上市。 《机器学习实战》的内容 《机器学习实战》共12章,内容涵盖了机器学习的基础知识、算法、实战技巧等。 前4章介绍了机器学习的基础知识,包括准备环境、有监督和无监督学习、交叉检验和评估指标。 第5章到第10章介绍了机器学习的各种算法,包括处理分类变量、特征工程、特征选择、超参数优化、图像分类和分割方法、文本分类或回归方法。 最后2章介绍了机器学习的实战技巧,包括组合和堆叠方法、可重复代码和模型方法。 《机器学习实战》的特点 《机器学习实战》的特点是内容全面、深入浅出、实战性强。 《机器学习实战》的意义 《机器学习实战》是一本非常适合机器学习初学者阅读的书籍。它内容全面、深入浅出、实战性强,能够帮助读者快速入门机器学习。 如果你想学习机器学习,那么《机器学习实战》绝对是你不容错过的书籍。 结语 好了,以上就是本期播客的内容。感谢您的收听。我们下期再见。 ytzfhqs/AAAMLP-CN: Approaching (Almost) Any Machine Learning Problem中译版,在线文档地址:https://ytzfhqs.github.io/AAAMLP-CN/

“PrivateGPT”:您的私人文档助手

大家好,今天,我们要向大家介绍的是一款非常实用的AI工具——“PrivateGPT”。它可以帮助您以100%的私密性,利用大型语言模型(LLMs)的力量来处理您的文档。 PrivateGPT的诞生 “PrivateGPT”的诞生源于一个明确的需求:在当今社会,生成式AI技术正在飞速发展,但由于隐私问题,许多公司和行业,比如医疗或法律领域,无法充分利用这项技术。 PrivateGPT的优势 “PrivateGPT”的优势在于,它完全离线运行,这意味着您的数据始终处于您的控制之下,不会泄露给任何第三方。 PrivateGPT的功能 “PrivateGPT”提供了一个API,包含了构建私有、语境感知AI应用程序所需的所有基本功能。它遵循并扩展了OpenAI的API标准,支持普通和流式响应。 PrivateGPT的未来 “PrivateGPT”正在不断发展,目标是成为生成式AI模型和原语的网关,包括补全、文档嵌入、RAG管道和其他低级构建块。 如何使用PrivateGPT 有关“PrivateGPT”的更多信息,包括安装、依赖项、配置、运行服务器、部署选项、嵌入本地文档、API详细信息和UI功能,请访问我们的官方文档网站。 结语 “PrivateGPT”是一款功能强大且易于使用的工具,可以帮助您以100%的私密性来处理您的文档。如果您正在寻找一种安全可靠的方式来利用生成式AI技术,那么“PrivateGPT”绝对是您的最佳选择。

人工智能的新篇章:从 RAG 到 Self-RAG

欢迎来到这个关于人工智能进步的奇妙旅程!今天,让我们一起探索从 RAG (Retrieval Augmented Generation) 到 Self-RAG 的知识增强过程。这其中蕴含的深刻原理和广阔应用,将带你领略新一波 AI 风暴的来临。 RAG:知识增强的先驱 RAG,或称检索增强生成,是一种先进的机器学习技术。在回答问题或生成文本时,它会先从大量文档中检索出相关的信息,然后基于这些信息生成回答或文本,从而提高预测质量。这意味着开发者无需为每一个特定任务重新训练整个大模型,只需要接入知识库即可。 RAG 对于知识密集型的任务尤为有用。那么,你可能会问,如果我们已经有了强大的语言模型(LLM),为什么还需要 RAG 呢?其实,RAG 主要解决了 LLM 所面临的三个问题: RAG 与 SFT:两者的比较 那么,对于 LLM 的上述问题,我们是否有其他解决办法呢?SFT 确实是一种常见的解决方案,但是 RAG 和 SFT 在多个维度上都有各自的优点和弱点。例如,RAG 能够使用动态数据,并且能够利用外部资源增强 LLM 的能力。相较之下,SFT 更适合处理静态数据,它可以对 LLM 进行微调,但对于频繁变动的数据源来说可能不太实用。 当然,RAG 和 SFT 并非非此即彼,合理的做法是根据业务需求,结合两者的优点进行使用。在这个过程中,我们也可以发现 RAG 具有以下优点: RAG:实现步骤与应用案例 RAG 的实现主要包括三个步骤:数据索引、检索和生成。而数据索引的构建又可以进一步分为数据提取、分块和向量化三个阶段。这些步骤中涉及到的数据处理、文本分块以及数据向量化等技术,都是人工智能领域的重要基础。 让我们在这个令人兴奋的 AI 旅程中继续前进。通过 RAG,我们可以实现一系列应用,包括但不限于: 结语:向 Self-RAG 的未来 RAG 无疑是一种强大的工具,但我们也看到了它的一些局限性。比如,它依赖于手动标注的知识库,且在遇到大量数据时,可能会面临检索效率低下的问题。因此,我们需要更进一步,探索如何实现自我增强的 RAG,即 … Read more

人工智能的新篇章:从 RAG 到 Self-RAG

你可能听说过人工智能、机器学习、深度学习等概念,但你知道 RAG(Retrieval Augmented Generation,检索增强生成)和 Self-RAG 吗?今天,我们就一起深入了解一下这两个新兴的人工智能领域概念。 RAG:提升人工智能的知识增强能力 RAG 是一种让大型语言模型 (LLM) 在回答问题或生成文本时,先从大量文档中检索出相关的信息,然后基于这些信息生成回答或文本的方法。这种方法提高了预测的质量,使得开发者不必为每一个特定的任务重新训练整个大型模型,只需要外挂上知识库,即可为模型提供额外的信息输入,提高其回答的准确性。RAG 模型尤其适合知识密集型的任务。 然而,尽管 LLM 具有强大的能力,仍然存在一些问题需要 RAG 解决。例如,LLM 在生成文本时,可能会产生一些幻觉问题;大型模型的训练成本高,更新周期长,对于时效性强的数据处理能力有限;通用的 LLM 没有企业内部数据和用户数据,如何在保证数据安全的同时使用 LLM 成为了一个问题。 RAG 与 SFT:两种方法的对比 实际上,SFT(Supervised Fine-Tuning,监督微调)是解决 LLM 存在问题的另一种常见方法。比较起来,RAG 和 SFT 各有特长。RAG 适合动态数据,擅长利用外部资源,适用于知识密集型任务,而 SFT 可以对 LLM 进行微调以对齐预训练学到的外部知识,优于定制模型的行为或写作风格。两者并非相互排斥,而是可以根据业务需要,结合使用。 RAG 的应用及挑战 RAG 具有诸多优点,例如可扩展性、准确性、可控性、可解释性以及多功能性。例如,ChatPDF 就是一个典型的 RAG 应用案例,该系统首先读取 PDF 文件,将其转换为可处理的文本格式,然后对提取出来的文本进行清理和标准化。当用户提出问题时,ChatPDF 使用 OpenAI 的 Embeddings API 将问题转换为一个向量,并与每个分段的向量进行比较,以找到最相似的分段。最后,ChatPDF 会将 ChatGPT 生成的答案返回给用户,完成一次查询。 … Read more