Author: C3P00

  • WebCPM: Interactive Web Search for Chinese Long-form Question Answering

    长文本问答 (LFQA) 旨在回答复杂的、开放式的问题,并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤:信息检索,寻找相关的支持事实,信息和合成,将这些信息整合成一个连贯的答案。 在本文中,我们介绍了 WebCPM,这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索,它在实时与搜索引擎交互。类似于 WebGPT,我们开发了网页搜索界面。我们招募了标注者,使用我们的界面搜索相关信息,然后回答问题。同时,我们记录了标注者的网络搜索行为。 我们总共收集了 5500 个高质量的问题 – 答案对,以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型,以模仿人类的网络搜索行为,并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程,它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。


    • 作者通过以下方法取得了结果:

      1. 提出长文本问答 (LFQA) 问题,并定义了解决方案所需的两个核心要素:信息检索和信息合成。

      2. 使用检索 – 合成范式来解决 LFQA 问题。该范式包含两个核心要素:信息检索和信息合成。信息检索搜索外部知识源 (如互联网) 获取多种相关支持事实,信息合成将收集的事实整合成一个完整的答案。

      3. 针对传统 LFQA 范式的缺陷,作者提出了交互式网页搜索的方法,以支持人类进行更复杂的问题分解和解决。人类可以进行交互式网页搜索,通过与搜索引擎实时交互,将复杂的问题分解为多个子问题,并逐步解决。通过识别和浏览相关信息,人类可以加深对话题的理解,并通过提出后续问题或相关术语来微调搜索。这种迭代过程可以扩展搜索范围,并提高搜索结果的质量。

      4. 作者还提出了一个公共数据集和框架,以支持 LFQA 交互式网页搜索。该框架包括一个搜索模型和一个合成模型,它们可以模仿人类网页搜索行为进行信息检索和信息合成。作者通过选择最好的搜索和合成模型,将它们组合成一个整体 LFQA 管道,并与人类进行比较。人类评估表明,作者提出的管道在测试集中生成的答案有 32.5% 的时间不比人类差,对于超过 400 个中文字符的 DuReader 问题,作者提出的管道在 47.5% 的情况下生成的答案比 golden 标注的答案更好。

      5. 作者还展示了如何使用他们的框架来创建新的中文问题,并使用公共问答论坛作为问题来源。

    • 以下是作者在这篇论文中所得出的结论:

      1. 交互式网页搜索可以提高 LFQA 解决方案的性能,因为人类可以进行网页搜索并逐步解决问题,而无需从头开始构建问题。

      2. 使用 GPT-3 等预训练语言模型进行网页搜索和信息合成的效果比传统的检索 – 合成范式更好,因为它们可以模拟人类搜索行为。

      3. 提供可访问的平台和公共基准对于探索 LFQA 交互式网页搜索领域至关重要。

      4. 需要进一步研究如何平衡交互式网页搜索和信息合成的性能,以提高 LFQA 解决方案的效率和准确性。

      5. 提供可访问的数据集和平台可以促进社区对 LFQA 领域的研究,并为其他研究领域提供测试平台。
  • ProAgent: 构建具有主动合作能力的大型语言模型

    在人机合作中,构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前,发展合作代理的方法主要依赖于学习方法,其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架,它利用大型语言模型(LLMs)来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色,能够动态适应其行为以提高与队友的协作效果。此外,ProAgent 框架具有高度的模块化和可解释性,便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外,在与人类代理模型合作时,其性能平均改进超过了 10%,比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示,请访问:

    https://pku-proagent.github.io


    框架的特点包括:

    1. 利用大型语言模型(LLMs):ProAgent 使用 LLMs 来预测队友的未来决策,并据此制定增强的计划。

    2. 积极的代理:ProAgent 是一个积极的代理,可以主动适应队友的行为,以提高合作效果。

    3. 高度的模块化和可解释性:ProAgent 框架具有高度的模块化和可解释性,可以方便地集成到各种协调场景中。

    4. 卓越的性能:实验结果显示,ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时,其性能平均提高了 10% 以上,超过了当前的最佳方法 COLE。

    5. 广泛的适用性:ProAgent 的改进在不同的场景中都得到了一致的观察,这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。

    6. 可演示性:作者提供了一个在线演示,用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。


    1. SayCan:这个方法主要是通过语言模型(LLM)来理解和解析当前任务的知识库,并将原始状态信息转换成语言为基础的状态描述,以便于 LLM 能够有效地理解和处理。在这个过程中,知识库和状态对齐是非常关键的。

    2. ReAct:这个方法主要是在不对称优势布局中,通过展示有意不对称的布局,如洋葱、锅和供应点的位置,来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势,从而提高游戏的挑战性和趣味性。

    3. DEPS:这个方法主要是通过记忆模块来存储整个流程中涉及到提示、推理过程和验证过程中的所有相关信息。这种积累的知识能够帮助玩家做出更明智的决策,并随着时间的推移调整行为。

    4. RAP:这个方法主要是在强制协调布局中,玩家需要通过协作来成功完成汤的配送。但是,这些 ZSC 方法显示出了特定的惯例,如在两个 FCP 代理之间的交互中,他们总是在第一个工作台交换洋葱,在第三个工作台交换菜肴。这种惯例虽然对于自身协作以达到高分非常有效,但是对于与新代理的有效协调却带来了挑战。

    5. Reflexion:这个方法主要是通过信念校正和技能验证来进一步验证和校正队友代理的技能信念,同时,所选技能也会被验证器验证,并在找到合法技能之前反复规划。


  • OpenAI的迷失和微软的收获

    大家好,今天,我们将讨论OpenAI的迷失和微软的收获。

    OpenAI是一家非营利性人工智能研究公司,由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。OpenAI的使命是确保安全的人工通用智能的开发,并使全人类受益。

    然而,OpenAI的非营利性结构却导致了其内部的权力斗争。OpenAI的董事会认为,首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通,因此在2023年11月将其解雇。

    微软是OpenAI的主要合作伙伴之一,它获得了OpenAI的所有知识产权的永久许可,包括源代码和模型权重。微软还向OpenAI提供了大量的资金和计算资源。

    OpenAI和微软的合作关系本应是互惠互利的,但由于OpenAI的内部问题,这种合作关系受到了影响。微软需要确保OpenAI能够继续开发其人工智能技术,而OpenAI则需要微软的资金和计算资源来支持其研究。

    在OpenAI的董事会解雇了阿尔特曼之后,微软迅速采取行动,与阿尔特曼和OpenAI的其他高管达成了协议,将他们招致麾下。

    微软的这一举动引起了业界的广泛关注。有人认为,微软这是捡了个大便宜,因为它获得了OpenAI的所有知识产权,而无需支付任何费用。也有人认为,微软的这一举动将进一步加剧人工智能领域的垄断。

    无论如何,微软的这一举动都将对人工智能领域的格局产生深远的影响。

    要点

    • OpenAI是一家非营利性人工智能研究公司,由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。
    • OpenAI的使命是确保安全的人工通用智能的开发,并使全人类受益。
    • OpenAI的非营利性结构导致了其内部的权力斗争。
    • OpenAI的董事会认为,首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通,因此在2023年11月将其解雇。
    • 微软是OpenAI的主要合作伙伴之一,它获得了OpenAI的所有知识产权的永久许可,包括源代码和模型权重。
    • 微软还向OpenAI提供了大量的资金和计算资源。
    • OpenAI和微软的合作关系本应是互惠互利的,但由于OpenAI的内部问题,这种合作关系受到了影响。
    • 微软需要确保OpenAI能够继续开发其人工智能技术,而OpenAI则需要微软的资金和计算资源来支持其研究。
    • 在OpenAI的董事会解雇了阿尔特曼之后,微软迅速采取行动,与阿尔特曼和OpenAI的其他高管达成了协议,将他们招致麾下。
    • 微软的这一举动引起了业界的广泛关注。有人认为,微软这是捡了个大便宜,因为它获得了OpenAI的所有知识产权,而无需支付任何费用。也有人认为,微软的这一举动将进一步加剧人工智能领域的垄断。
    • 无论如何,微软的这一举动都将对人工智能领域的格局产生深远的影响。
  • 破解AI模型速度瓶颈:一种全新的“分组查询注意力”方法

    你是否曾经对人工智能模型的运算速度感到不耐烦,同时又希望它能保持高质量的预测结果?这可能听起来像是一个无法两全的问题,但科研人员们并没有停下探索的脚步。今天,我们要介绍的这篇研究报告,就给出了一个行之有效的解决方案。这篇研究名为 “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”,由来自Google Research的团队所撰写。他们提出了一种称为“分组查询注意力(Grouped-query attention, GQA)”的新方法,旨在解决Transformer模型中的一个关键问题,即如何在保持预测质量的同时,提高模型的运算速度。

    首先,让我们理解一下这个问题的背景。在Transformer模型中,一个关键的计算过程就是自回归解码器推理。这个过程需要大量的内存带宽来加载解码器权重和所有注意力键值,这就大大限制了模型的运算速度。为了解决这个问题,研究者们提出了多查询注意力(Multi-query attention, MQA)方法,它只使用一个键值对来大幅度提高解码器推理的速度。然而,MQA方法可能会导致预测质量下降,而且也不太适合用于训练单独的模型以提高推理速度。

    在这样的背景下,Google Research的团队提出了两个重要的贡献。首先,他们发现,可以使用少量的原始训练计算来将具有多头注意力(Multi-head attention, MHA)的语言模型检查点进行升级训练,使其能够使用MQA,这是一种非常成本有效的方法,可以同时获得高速的MQA和高质量的MHA检查点。其次,他们提出了分组查询注意力(GQA)的概念,这是一种在多头注意力和多查询注意力之间的插值方法,它为每组查询头部共享一个键和值头部。

    GQA的工作原理是将查询头部分成若干组,每组共享一个键头和值头。具有G组的GQA被称为GQA-G。GQA-1(具有一个组,因此具有一个键和值头)等同于MQA,而具有等于头部数量的组的GQA-H等同于MHA。通过使用中间数量的组,GQA可以产生一个质量比MQA高,但速度比MHA快的插值模型。此外,对于大型模型,GQA的优势更加明显,因此,我们期待GQA能在大型模型中提供一个特别好的权衡方案。

    在实验部分,研究者们使用了基于T5.1.1架构的所有模型,并对T5 Large和XXL的多头注意力版本,以及使用多查询和分组查询注意力的升级版T5 XXL进行了主要实验。实验结果表明,使用GQA的T5-XXL模型在各种不同的数据集上,包括CNN/Daily Mail, arXiv, PubMed, MediaSum, 和 MultiNews等新闻摘要数据集,以及WMT英德翻译数据集和TriviaQA问答数据集上,都保持了与多头注意力模型相近的质量,同时又具有与多查询注意力模型相近的速度。

    在AI领域,我们一直在寻找提高效率和质量的方法,而GQA的出现无疑为我们提供了一个新的可能。它不仅提高了模型的运算速度,而且还成功地保持了预测的质量。这使得GQA成为了提高AI模型性能的一种有力工具,我们有理由期待,这种方法将在未来的AI应用中发挥更大的作用。

    总的来说,这项研究的重要性在于,它不仅提供了一种提高AI模型速度的有效方法,而且这种方法还能保持模型的预测质量。这使得我们可以在实际应用中实现更快、更准确的AI模型,从而在各种场景中提供更好的服务。

    这就是今天的分享,希望你们能从中获取到有用的信息。我们将继续关注更多的人工智能研究,并与大家分享。感谢你们的倾听,我们下次见!

  • 从 LLAMA 到 LLAMA2:开源模型的进化之路

    大家好,欢迎来到我的博客!今天,我们要聊一聊有关两个开源语言模型的故事,它们分别是 LLAMA 和 LLAMA2。正如在科技世界里常见的,这两个模型的出现,都代表着一次重要的突破和进化。那么,它们是如何超越自身,再次突破技术瓶颈的呢?让我们一起探索吧。

    1. LLaMA:以开放和高效为目标的基础语言模型

    首先,我们来看看第一个主角 LLAMA。它仅仅使用公开可用的数据(数量高达数万亿 tokens)就训练出了效果超越 GPT-3 和 Chinchilla-70B PaLM-540B 的模型。最让人惊奇的是,它的体积比 GPT-3 小十倍,但效果更好。这是怎么做到的呢?

    LLaMA 的开发者们发现,给定一定的计算量预算,我们可以通过在较小的模型上训练更多的数据来获取最好的效果。这就是 LLAMA 所依据的尺度原则。

    为了训练 LLAMA,开发者们使用了多种来源的预训练数据,包括英文 CommonCrawl, Github, Wikipedia 等。每一种数据都经过了严格的清洗和筛选,以确保模型训练的质量。在训练时,每个 token 只训练一次,除了 Wikipedia 和 Books,训练了两次。

    LLaMA 的模型结构基于 transformer,在 GPT3、PaLM、GPTNeo 的基础上做出了改良。其中包括使用 RMSNorm 进行 Pre-normalization,使用 SwiGLU 替换 ReLU 作为激活函数,舍弃绝对位置编码,使用旋转位置编码等一系列创新手段。

    2. LLaMa 2:基础和微调并进的聊天模型

    接下来,我们来了解一下 LLAMA 的升级版本——LLAMA2。虽然 LLAMA1 的效果已经非常优秀,但是与闭源的“产品级”模型相比,如 ChatGPT、BARD、Claude,仍有一定的差距。因此 LLAMA2 的目标就是要尽可能地提升模型的性能,使其更符合人类的偏好。

    LLAMA2 的训练数据量增加了40%,达到了2万亿 tokens。同时,上下文长度翻倍,引入了 grouped-query attention 的新技术。这些改变使得 LLAMA2 在长数据的效果明显提升,而在短数据上的性能则没有下降。

    LLAMA2 在微调上也做了很多工作。它引用了 LLAMA1 中的 SFT 数据集设置,对模型进行了精细的调整。在收集数据时,采用了课程策略,逐渐将问题复杂化,使得模型能够更好地适应和处理各种问题。

    结语

    总的来说,LLAMA 和 LLAMA2 的出现,代表了开源模型的重大进步。他们的成功,得益于严谨的数据处理,创新的模型结构,以及精细的模型调整。这些都是我们在探索人工智能的道路上,值得学习和借鉴的经验。

    希望这篇博客能给你带来一些启发和灵感。我们下次再见!

  • 创新解决大模型长上下文计算挑战:HyperAttention解读

    大家好,我相信你们在使用人工智能应用的过程中,一定对其中的语言处理功能印象深刻。它们可以帮助我们理解复杂的文本,生成文章甚至进行对话。但你可能不知道,这背后有一种重要的模型叫做“大型语言模型”。近日,一项名为“HyperAttention”的研究引起了我的注意,其主旨在于改善这些大型语言模型处理长篇文章时的效率。这个方法超越了既有技术限制,实现了近线性时间的长文本处理。听起来是不是很神奇?接下来,让我们一起深入了解一下。

    首先,我们需要明白一点,就是处理长上下文的计算挑战。大型语言模型(LLMs)在处理长文本时,必须应对着一个诸多复杂因素的大矩阵,这个矩阵的计算和存储需求都是巨大的。就像你试图一口气读完一本厚厚的百科全书,不仅费时费力,还需要巨大的记忆力。这就是大型语言模型面临的挑战。

    为了迎接这个挑战,研究人员提出了一种新颖的近似注意力机制,被命名为“HyperAttention”。这个方法的核心是引入了两个参数,用来衡量矩阵的复杂度。并且,HyperAttention的设计非常模块化,易于与其他快速低水平实现进行整合,特别是FlashAttention。根据实验结果,HyperAttention在处理长篇章数据集时,表现出了显著的速度优势。

    研究者们用一个例子来证明这种优势:在一个名为ChatGLM的模型中,使用HyperAttention后,处理长达32k的文本所需的时间减少了50%,而生成的文本复杂度只是从5.6提高到6.3。当处理更长的文本,例如长度为131k的文本时,HyperAttention甚至能在单个注意力层上提供5倍的速度提升。

    HyperAttention的出现,不仅解决了大型语言模型处理长文本时的速度问题,还开启了新的研究方向。对于那些需要处理大量文本数据的应用,比如自动翻译、文章生成等,HyperAttention无疑将带来巨大的改变。

  • HyperAttention:长上下文友好、LLM推理提速50%

    大家好,欢迎收听本期节目。今天,我们将一起走进 HyperAttention 的奇妙世界,了解这种全新近似注意力机制如何让大型语言模型在长上下文下也能飞速推理。

    什么是 HyperAttention?

    HyperAttention 是一种近似注意力机制,它可以显著提升大型语言模型在长上下文下的推理速度。传统的注意力机制在计算时需要遍历整个输入序列,这使得计算成本非常高。而 HyperAttention 则通过对注意力矩阵进行近似,从而大幅降低计算成本。

    HyperAttention 的工作原理

    HyperAttention 的工作原理并不复杂。它首先会对注意力矩阵进行分解,然后对每个子矩阵进行近似。最后,将所有子矩阵的近似结果组合起来,得到最终的注意力矩阵。

    HyperAttention 的优势

    HyperAttention 的优势非常明显。它可以显著提升大型语言模型在长上下文下的推理速度,同时还能保持较高的准确率。在某些情况下,HyperAttention 甚至可以将推理速度提升 50% 以上。

    HyperAttention 的应用

    HyperAttention 可以广泛应用于各种自然语言处理任务,如机器翻译、问答系统、文本摘要等。它可以帮助这些任务在处理长上下文数据时获得更高的效率和准确率。

    HyperAttention 的未来

    HyperAttention 是一种非常有潜力的近似注意力机制,它有望在未来得到更广泛的应用。随着研究的不断深入,HyperAttention 的性能还将进一步提升,从而为大型语言模型的应用开辟新的可能性。

  • 《机器学习实战中文版》带你轻松入门机器学习

    AAAMLP 中译版 (ytzfhqs.github.io)

    大家好,欢迎收听本期播客。今天,我们将介绍一本关于机器学习的书籍:《机器学习实战中文版》。

    《机器学习实战》介绍

    《机器学习实战》是由Abhishek Thakur所著的一本关于机器学习的书籍。Abhishek Thakur是挪威boost公司首席数据科学家,在Kaggle上取得过辉煌的成绩。

    这本书的英文原版于2017年出版,一经推出便受到了广大读者的喜爱。中文版由电子工业出版社出版,于2023年9月正式上市。

    《机器学习实战》的内容

    《机器学习实战》共12章,内容涵盖了机器学习的基础知识、算法、实战技巧等。

    前4章介绍了机器学习的基础知识,包括准备环境、有监督和无监督学习、交叉检验和评估指标。

    第5章到第10章介绍了机器学习的各种算法,包括处理分类变量、特征工程、特征选择、超参数优化、图像分类和分割方法、文本分类或回归方法。

    最后2章介绍了机器学习的实战技巧,包括组合和堆叠方法、可重复代码和模型方法。

    《机器学习实战》的特点

    《机器学习实战》的特点是内容全面、深入浅出、实战性强。

    • 内容全面:本书涵盖了机器学习的基础知识、算法、实战技巧等各个方面,是一本全面的机器学习教程。
    • 深入浅出:本书的语言通俗易懂,即使是没有任何机器学习基础的读者也能轻松入门。
    • 实战性强:本书提供了大量的代码示例,读者可以边学边练,快速掌握机器学习的实战技巧。

    《机器学习实战》的意义

    《机器学习实战》是一本非常适合机器学习初学者阅读的书籍。它内容全面、深入浅出、实战性强,能够帮助读者快速入门机器学习。

    如果你想学习机器学习,那么《机器学习实战》绝对是你不容错过的书籍。

    结语

    好了,以上就是本期播客的内容。感谢您的收听。我们下期再见。

    ytzfhqs/AAAMLP-CN: Approaching (Almost) Any Machine Learning Problem中译版,在线文档地址:https://ytzfhqs.github.io/AAAMLP-CN/

  • “PrivateGPT”:您的私人文档助手

    大家好,今天,我们要向大家介绍的是一款非常实用的AI工具——“PrivateGPT”。它可以帮助您以100%的私密性,利用大型语言模型(LLMs)的力量来处理您的文档。

    PrivateGPT的诞生

    “PrivateGPT”的诞生源于一个明确的需求:在当今社会,生成式AI技术正在飞速发展,但由于隐私问题,许多公司和行业,比如医疗或法律领域,无法充分利用这项技术。

    PrivateGPT的优势

    “PrivateGPT”的优势在于,它完全离线运行,这意味着您的数据始终处于您的控制之下,不会泄露给任何第三方。

    PrivateGPT的功能

    “PrivateGPT”提供了一个API,包含了构建私有、语境感知AI应用程序所需的所有基本功能。它遵循并扩展了OpenAI的API标准,支持普通和流式响应。

    PrivateGPT的未来

    “PrivateGPT”正在不断发展,目标是成为生成式AI模型和原语的网关,包括补全、文档嵌入、RAG管道和其他低级构建块。

    如何使用PrivateGPT

    有关“PrivateGPT”的更多信息,包括安装、依赖项、配置、运行服务器、部署选项、嵌入本地文档、API详细信息和UI功能,请访问我们的官方文档网站。

    结语

    “PrivateGPT”是一款功能强大且易于使用的工具,可以帮助您以100%的私密性来处理您的文档。如果您正在寻找一种安全可靠的方式来利用生成式AI技术,那么“PrivateGPT”绝对是您的最佳选择。

  • 让 PHP 跑的更快

    1. HipHop Virtual Machine (HHVM)

    HHVM 是一个开源的 PHP 编译器,可以将 PHP 代码编译成字节码,然后由虚拟机执行。它可以显著提高 PHP 的执行速度,并且支持多种语言特性,例如类型检查和协程。

    2. Phalanger

    Phalanger 是一个将 PHP 编译成 .NET 程序集的编译器。它可以显著提高 PHP 的执行速度,并且支持多种语言特性,例如类型检查和泛型。

    3. Quercus

    Quercus 是一个将 PHP 编译成 Java 字节码的编译器。它可以显著提高 PHP 的执行速度,并且支持多种语言特性,例如类型检查和异常处理。

    4. Peachpie

    Peachpie 是一个将 PHP 编译成 C# 程序集的编译器。它可以显著提高 PHP 的执行速度,并且支持多种语言特性,例如类型检查和泛型。

    5. Swoole

    Swoole 是一个高性能的 PHP 协程库,可以显著提高 PHP 的并发能力。它支持多种语言特性,例如协程、事件驱动和非阻塞 I/O。

    这些编译工具可以帮助您提高 PHP 的执行速度,并且支持多种语言特性。您可以根据自己的需要选择合适的编译工具。