Category: AI

Bitune:双向指令调优技术及其在大型语言模型中的应用Bitune:双向指令调优技术及其在大型语言模型中的应用

在人工智能的发展历程中,语言模型的进步尤为引人注目。特别是在自然语言处理领域,大型语言模型(LLMs)已经成为了不可或缺的工具,广泛应用于各种与人类交互密切的场景,如智能助手、医疗诊断、游戏对话生成以及编程辅助等。然而,尽管这些模型在生成文本方面表现出色,它们在理解和执行具体指令方面仍面临挑战。为了解决这一问题,研究人员提出了“指令调优”(Instruction-Tuning,简称IT)技术,通过对模型进行微调,使其更好地理解和响应用户指令。 双向注意力机制的引入 传统的LLMs,如GPT和Llama,主要采用单向(因果)注意力机制,这意味着在生成每个词时,模型只能利用之前的词。这种设计虽然简化了模型的预测流程,但也限制了信息的全面利用,因为在很多情况下,理解一个词的含义需要考虑其后文的上下文信息。相比之下,双向注意力机制允许模型同时考虑词的前文和后文,这在BERT等模型中得到了广泛应用,并显示出卓越的性能。 然而,直接在LLMs中应用双向注意力机制并非易事,因为这可能会破坏模型的生成性能。为了克服这一挑战,研究团队提出了一种新的方法——Bitune,它巧妙地将因果注意力和双向注意力结合起来,既保留了模型生成文本的能力,又增强了其处理指令的效果。 Bitune:结合双向和因果注意力 Bitune技术的核心在于同时使用双向和因果注意力来处理输入指令,并通过两组独立的参数来实现这一过程。在Bitune的工作机制中,首先使用双向注意力解析输入指令,获取全面的上下文特征;然后,再通过因果注意力生成响应,确保生成过程的连贯性。这两种特征被有效地整合,并通过可学习的混合系数加以调整,最终用于生成模型的输出。 实验与应用 在多项下游任务中,Bitune展示了其卓越的性能。研究团队在包括常识推理、算术和语言理解在内的多种任务上测试了Bitune,结果显示,与传统的LLMs相比,Bitune在零样本(zero-shot)场景下取得了显著的性能提升。此外,通过一系列的消融实验,研究人员进一步验证了Bitune中每个组件的重要性,证明了该技术对不同参数高效微调方法的通用性。 结论与展望 Bitune的成功不仅提高了预训练解码器仅模型在指令理解和执行方面的能力,还为未来语言模型的发展方向提供了新的思路。通过深入探索和优化双向和因果注意力的结合方式,我们有理由相信,LLMs的应用范围和效能将进一步扩展,为人机交互带来更自然和有效的体验。 在人工智能技术持续进步的今天,Bitune的提出不仅是对现有技术的一次重要优化,也预示着未来智能系统在处理复杂人类语言时更大的可能性。随着研究的深入,我们期待看到更多基于此类先进技术的应用实例,不断推动智能对话系统向更高水平发展。  Bitune: Bidirectional Instruction-Tuning Q: 这篇论文试图解决什么问题? A: 这篇论文介绍了一种名为Bitune的方法,旨在解决预训练的解码器仅大型语言模型(LLMs)在遵循指令和回答问题方面的性能问题。具体来说,Bitune通过在提示(prompt)上应用因果(causal)和双向(bidirectional)注意力,来获取更好的查询或指令的表示。这通过引入两组参数实现,这些参数采用参数高效的微调(parameter-efficient finetuning,PEFT)技术进行调整。然后,这些因果和双向特征被结合成一个加权平均值,该平均值具有可训练的系数,并随后用于生成新标记(tokens)。 论文的主要贡献包括: 总的来说,Bitune方法试图通过重新引入双向注意力,并将其与因果注意力结合起来,以改善大型语言模型在理解和执行指令方面的性能,特别是在解码器仅模型架构中,这些模型在预训练阶段之后通常专注于生成性能。 Q: 有哪些相关研究? A: 论文中提到了以下相关研究: 这些研究主要集中在模型预训练方面,而Bitune方法则是针对预训练后的微调阶段,特别是在指令调优(instruction-tuning)方面的改进。通过这些相关工作,Bitune方法试图结合前人研究的优势,提出一种新的微调方法,以提高解码器仅大型语言模型在特定任务上的性能。 Q: 论文如何解决这个问题? A: 论文提出的Bitune方法通过以下步骤解决预训练解码器仅大型语言模型(LLMs)在遵循指令和回答问题方面的性能问题: [...]

人工智能如何模拟人类思维:跨领域映射研究揭示的启示人工智能如何模拟人类思维:跨领域映射研究揭示的启示

在人类的认知科学中,理解抽象和具体概念是一个长期而复杂的议题。最近,由耶路撒冷希伯来大学的研究团队进行的一项研究,探索了大型语言模型(LLMs)在处理跨领域映射任务时显示出的人类思维模式,为我们提供了新的视角来理解人工智能如何模拟人类的思维过程。 1. 研究背景与动机 跨领域映射是指将一个概念从一个领域映射到另一个领域的任务。例如,如果问“如果医生是一种颜色,他会是什么颜色?”这种看似奇特的问题实际上是用来探索人们如何通过映射不同类别及其推理过程来表达具体和抽象概念的。 大型语言模型(LLMs),如GPT和BERT,已经在生成类人文本和处理复杂任务方面取得了显著进展,但它们在以人类可以理解的方式解释或呈现自己的行为方面仍面临挑战。这项研究利用跨领域映射任务来评估这些语言模型的概念化和推理能力。 2. 研究方法与过程 研究团队从心理学领域借鉴了跨领域映射的任务,并对几种大型语言模型进行了行为研究。研究中,研究者将人类数据用于启发模型,通过跨领域映射任务来测试模型,并对模型的响应进行了分析。 实验设置包括选择几个大型语言模型,并使用一系列预定义的模板来引导这些模型生成响应。通过这种方式,研究团队能够评估模型在这一任务上的表现,并将其与人类行为进行比较。 3. 实验结果与发现 研究结果显示,模型在跨领域映射任务上的表现与人类非常相似,这表明它们在概念表示上与人类有着相似之处。例如,大多数模型都能提供有效的解释,并采用与人类相似的推理路径。 此外,研究还发现,模型在解释它们的预测时具有一定的能力,这些解释的类别与人类的解释类别分布相似,表明模型在其表示中依赖于与人类类似的相似性类型。 4. 深入分析与启示 这项研究不仅揭示了大型语言模型在概念化测试中与人类的行为对齐,还通过模型的行为提供了进一步的认知心理学见解。这种跨领域对齐的能力指出,即使是基于文本的模型也能在没有直接感知输入的情况下,通过文本学习到感知相关的知识。 5. 结论与未来方向 这项研究表明,大型语言模型在理解和处理抽象概念方面具有惊人的能力,这些模型不仅可以用作文本生成工具,还可以作为认知模型来研究人类语言和思维。未来的研究可以进一步探索这些模型在更广泛的心理和认知任务中的应用,以及它们如何帮助我们更好地理解人类的思维过程。 通过这样的研究,我们不仅能够改进人工智能模型,还能够通过模拟和理解人类的思维方式,探索人类智能的本质。 [PDF] A Nurse is Blue and Elephant is Rugby: Cross [...]

图像与语言的奇妙联系图像与语言的奇妙联系

我们人类总是试图从大脑中抽象出概念,并通过语言和符号来表达。我们用”椅子”这个词指代所有有腿、有座位、能坐的家具,而看到一幅鲜花图画时会想到”美丽”。但是,我们如何在心中构建这些概念的?不同概念之间是否存在某种奇妙的联系? 最近,一项有趣的心理学实验给出了一些启示。研究人员让参与者在两个看似毫不相关的概念域之间建立联系,比如把职业映射到颜色。结果发现,人们常常以一致且可预测的方式进行映射。例如,医生经常被映射成白色,显然是因为医生穿白大褂。 令人惊讶的是,人工智能模型竟然也展现出了类似的行为!研究人员对多个大型语言模型进行了同样的实验,发现它们在很大程度上能够复现人类的映射模式。更有意思的是,一些模型甚至比普通人更接近人群的平均映射结果。 但AI模型为什么会与人类如此一致呢?通过让模型解释自己的映射过程,研究人员发现它们主要依赖感知相似性、词语关联、共同中介等因素来建立跨域联系,这与人类如出一辙。例如,鼓被映射到雷声,是因为二者声音相似;足球映射到菠萝,是因为它们外形相似。 这项研究初步揭示了人类与AI在概念表征方面的共性。尽管语言模型只接受过文本训练,但它们似乎能从语言中学到感知知识,形成结构化的概念体系。这或许意味着,人类思维的某些基本特征已经融入了当前的AI系统。 不过,机器是否真的拥有概念化能力,仍有待进一步研究。但这一发现无疑加深了我们对AI内在机制的认识,为构建更加智能、更加人性化的AI系统指明了方向。人工智能正以惊人的速度发展,在可预见的未来,或许会诞生出一个崭新的”机器心智”。到那时,人类与AI之间的界限,也许会变得愈发模糊。 [PDF] A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns | Semantic Scholar [...]

当护士变成蓝色,大象变成橄榄球:大型语言模型的跨领域比对揭示人类般的模式当护士变成蓝色,大象变成橄榄球:大型语言模型的跨领域比对揭示人类般的模式

近年来,大型语言模型(LLMs)在生成人类般的文本和处理需要推理的复杂任务方面取得了显著进步。然而,它们解释自身行为或以人类可理解的方式呈现其行为的能力仍然是一个挑战。由于 LLMs 与人类的互动方式与人类非常相似,研究人员开始通过比较它们的行为来评估它们的理解和推理能力,并从认知心理学、心理语言学和神经科学等领域汲取灵感。 本文将借鉴一项新兴的心理学任务——跨领域比对,来评估 LLMs 的概念化和推理能力。这项任务要求参与者将一个语义领域的概念映射到另一个语义领域(例如,将“医生”映射到“颜色”,将“钢琴”映射到“动物”)。有趣的是,研究发现,人们在进行这些看似随意的映射时,会遵循一些可预测的模式,依赖于感知相似性或词语联想等特定类型的相似性。例如,”鼓”通常被映射到”雷声”,这显然是由于它们在感官上的相似性,因为它们都发出类似的声音。 本文通过一项行为研究,将跨领域比对任务应用于评估 LLMs 的概念化和推理能力。研究人员使用人类参与者在认知实验中收集的数据,提示多个 LLMs 进行跨领域比对,并分析其在群体和个体层面的反应。此外,他们还评估了模型对其预测的推理能力,通过分析和分类模型对这些映射的解释。 实验结果表明,LLMs 与人类在映射和解释方面存在一些相似之处,表明模型的概念表征与人类类似。这种相似性不仅体现在模型表征中,也体现在它们的行为中。此外,模型大多提供了有效的解释,并采用了与人类相似的推理路径。 实验设计 研究人员使用了 LL23 在其实验中收集的人类跨领域比对数据。数据包含 12 个领域,从中选择了 32 个领域对。对于每个领域对,研究人员构建了 2-3 个形式为“如果一个 x(源项目)是一个 y(目标领域),它会是什么 y?”的语句(例如,“如果一个医生(源项目)是一个颜色(目标领域),它会是什么颜色?”)。最终,研究人员获得了 75 个语句,每个语句都由 20 个参与者回答。 [...]

G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法

摘要 大型语言模型 (LLM) 在通用场景中展现出卓越的能力,而指令微调使其能够在各种任务中与人类意图保持一致。然而,指令数据的多样性和质量仍然是指令微调的两大挑战。为此,本文提出了一种基于梯度的新方法 G-DIG,用于自动选择高质量、多样化的指令微调数据,以应用于机器翻译任务。 核心创新: 实验结果: 在 WMT22 和 FLORES 翻译任务上的大量实验证明了该方法的优越性,深入分析进一步验证了其有效性和泛化能力。 主要内容: 局限性: 伦理考量: 简要总结 本文提出了一种名为 G-DIG 的方法,用于选择高质量和多样化的训练数据,以改进机器翻译模型。G-DIG 利用梯度信息来识别对模型性能有积极影响的训练样本,并通过聚类和重采样技术来确保数据的多样性。实验结果表明,G-DIG 在各种翻译任务中均优于基线方法,并取得了与最先进模型相当的结果。 export.arxiv.org/pdf/2405.12915 Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决大型语言模型(Large Language Models,LLMs)在指令微调(instruction finetuning)过程中面临的两个主要挑战:指令数据的多样性(Diversity)和质量(Quality)。具体来说,论文提出了一个名为G-DIG(Gradient-based DIverse [...]

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目并综合之前的回答做最终回复。相反,COT 是一种引导模型逐步推理和回答问题的方法,目的是通过明确和详细的推理步骤来提高模型的回答质量和准确性。 Chain of Thought 的核心思想 COT 的核心思想是通过引导模型逐步推理,模拟人类解决复杂问题时的思考过程。它包括以下几个关键点: COT 的实现方式 实现 COT 通常包括以下步骤: 示例 下面是一个简单的例子,展示了如何使用 COT 来解决一个数学问题: 问题:计算 123 和 456 的和。 传统方法: COT 方法: 工程实现中的注意事项 [...]

赋予大模型道德决策能力:Skin-in-the-Game框架赋予大模型道德决策能力:Skin-in-the-Game框架

在人工智能蓬勃发展的今天,大型语言模型(LLMs)在总结、算术推理和问答等任务中展现了卓越的能力。然而,当涉及到多方利益相关者的道德推理和伦理决策时,这些模型往往举步维艰。最近提出的“Skin-in-the-Game”(SKIG)框架旨在通过一种全新的方法,提升LLMs在道德推理方面的能力。 道德决策的挑战 随着Vaswani等人(2017)和Radford等人(2018)开发的LLMs变得越来越复杂,其应用范围也在不断扩大。从教育(Kung等,2023)到优化(Li等,2023),这些模型已经革新了各个领域。尽管取得了显著进展,但在伦理决策领域仍面临重大挑战。这是因为人类价值观和伦理观念的复杂性,受文化和社会偏见(Fraser等,2022)的影响,构成了独特的难题。 SKIG框架 由弗吉尼亚理工大学和亚马逊的研究人员提出的SKIG框架,通过模拟决策对多方利益相关者的影响,旨在提升LLMs的道德推理能力。该框架的核心概念是“Skin-in-the-Game”,即通过让模型承担其决策的结果,促进更加负责任和道德的选择。受到Taleb和Sandis(2013)的启发,该框架结合了共情练习和风险评估,从而模拟问责机制,提升决策能力。 SKIG的工作原理 在SKIG框架中,LLMs被用来基于给定的情境和潜在的行动方案,探索不同的决策情景。模型被引导去设想自己是情境中的每一个利益相关者,模拟其行动的问责性。这种视角的转变显著提高了模型的表现,在各种道德推理基准测试中提升幅度高达70%。这些改进在不同类型的LLMs中都表现出一致性,包括专有模型和开源模型。 SKIG的关键组成部分 相关工作和贡献 道德在LLMs中的研究引起了广泛关注,各种方法侧重于通过微调(Ganguli等,2022)或提示(Bang等,2022)将这些模型与人类价值观对齐。SKIG框架补充了这些方法,通过增加在各种情景下分析决策对利益相关者影响的关键维度。 结论 Skin-in-the-Game框架在提升LLMs道德决策能力方面迈出了重要一步。通过模拟问责机制和培养共情能力,SKIG解决了AI道德推理的固有挑战。随着LLMs的不断发展,像SKIG这样的框架将在确保这些模型做出负责任和道德的选择方面发挥关键作用,最终惠及整个社会。 “身临其境”:通过大语言模型中的多方利益相关者协调进行决策 (中文分析) 这篇论文介绍了 SKIG(Skin-in-the-Game,身临其境),这是一个旨在增强大型语言模型 (LLM) 道德推理能力的新框架。其核心思想是通过促使 LLM 从多个利益相关者的角度考虑其决定的后果,来模拟一种问责制。 以下是该论文关键方面的细分: 1. 问题陈述: 2. 解决方案:SKIG 框架 3. 理论基础: 4. 实验和结果: [...]

打破瓶颈:一种层次化框架优化大规模语言模型的答案选择打破瓶颈:一种层次化框架优化大规模语言模型的答案选择

近年来,基于链式思维提示(Chain-of-Thought, CoT)的技术进步为大规模语言模型(LLMs)在复杂推理任务中带来了显著突破。然而,当模型生成多个推理链并基于答案频率进行集成时,正确答案在少数情况下的表现仍然较差。本文提出的层次化推理聚合框架AoR(Aggregation of Reasoning)通过评估推理链的方式来选择答案,并根据任务复杂度动态调整推理链的数量,显著提升了LLM的推理性能。 背景与现状 LLMs在各种自然语言处理任务中取得了显著进展,但在推理任务上与人类水平仍存在差距。传统方法通过增加模型的规模来提升性能,但效果有限。链式思维提示技术通过生成一系列中间步骤来简化每一步的复杂性,提供了一种新颖的视角来解决复杂推理任务。 然而,目前的多数投票集成方法在错误答案多于正确答案时表现不佳。本文通过对多个推理任务的分析发现,超过80%的样本尽管LLMs能够生成正确答案,但多数投票仍然导致错误预测。例如,在AQuA数据集中,尽管模型生成了正确答案,但由于错误答案的数量优势,最终选择了错误答案。 研究问题 在LLMs能够生成正确答案的情况下,如何减小错误答案的干扰以准确选择正确答案?为了回答这一问题,本文提出了AoR框架,通过评估推理链来提升答案选择的准确性。 AoR框架 AoR框架分为两个阶段:局部评分和全局评价。在局部评分阶段,评估产生相同答案的推理链,重点关注推理过程的合理性和步骤的适当性。在全局评价阶段,联合评估不同答案组中最具逻辑一致性和方法有效性的推理链,确定最佳推理链并将其对应的答案作为最终输出。 此外,AoR利用全局评价阶段的评分来估计模型对其最优推理过程和答案的信心水平,动态决定是否需要采样更多的推理链。这种动态采样机制在平衡性能和计算成本方面表现出色。 实验结果 实验结果表明,AoR在各种推理任务中的表现优于现有的集成方法。特别是在任务难度较大的情况下,AoR通过动态采样显著提升了LLMs的推理性能,减少了推理开销。 主要贡献 结论 本文提出的AoR框架通过评估推理链显著提升了LLMs在复杂推理任务中的性能,为未来的研究和应用提供了新的思路。未来的工作可以进一步优化AoR的评估机制和动态采样策略,以应对更复杂的推理任务。 arxiv.org/pdf/2405.12939#pdfjs.action=download 我们来深入了解一下 AoR 框架的各个组成部分,以及它是如何解决大型语言模型 (LLMs) 在复杂推理任务中所面临挑战的。 现有问题: 现有的 LLM 推理方法,特别是依赖答案频率进行集成的那些,在面对正确答案属于少数情况时往往表现不佳。这是因为: AoR 框架如何解决这些问题: AoR [...]

DeepSeek-V2中的MLA详解DeepSeek-V2中的MLA详解

DeepSeek-V2是DeepSeek团队最新发布的MoE(Mixture of Experts)架构的LLM(大型语言模型)底座。该模型拥有236B的总参数量和21B的每个token激活参数量,支持128K tokens的上下文长度。DeepSeek-V2的一个核心创新点就是Multi-head Latent Attention(MLA)。 Multi-head Latent Attention(MLA)简介 MLA对传统Transformer中的多头注意力机制(MHA)进行了改进,主要目标是: 标准的MHA结构 在标准的MHA结构中,每个token的query、key和value通过参数矩阵映射得到,并分割成多个注意力头。每个头独立计算注意力权重并得到输出,这个过程虽然能捕捉丰富的上下文信息,但在推理时需要缓存大量的KV Cache。 MLA如何改进? MLA通过对keys和values进行低秩联合压缩来降低KV Cache: 代码实现 以下是MLA在DeepSeek-V2中的Python代码实现片段: class DeepSeekV2Attention(nn.Module):def init(self, config: DeepSeekV2Config, layer_idx: Optional[int] = None):…self.w_dq = nn.Linear(self.hidden_size, config.q_lora_rank, [...]

GPT-4o背后的神仙团队GPT-4o背后的神仙团队

在OpenAI最近的一场20多分钟的发布会中,GPT-4o正式亮相。然而,这一新发布的模型并未获得所有专家的一致认可。尽管GPT-4o原生支持多模态,但一些业内大佬对其进步似乎并不买账。 GPT-4o:小升级还是重大突破? 在OpenAI联合创始人、现已离开的传奇大神AK看来,GPT-4o仅仅是一个文本、音频和视觉组合的模型,可以在一个神经网络中处理所有三种模态,甚至可以在特殊情况下进行实时语音翻译。马老板也认为,这种对GPT-4o的描述更加准确,隐隐透露出一丝酸意。 然而,当OpenAI CEO Sam Altman转发了开发GPT-4o背后的团队故事后,外界才真正了解到,要实现原生多模态能力,需要一个怎样的神仙团队。 18人内核团队:开创人机交互新历史 马斯克曾在采访中表示,OpenAI推出ChatGPT的最大意义在于,创造了一个人机交互的界面,让普通人能用文本与AI交流。而GPT-4o则希望在人机交互的媒介上进一步拓展,除了文本,还包括音频和视觉等。 要实现这一目标,OpenAI的Omni Team共由18人组成,其中4名华人,几乎都是90后。团队领导Prafulla Dhariwal本科学历的背景也显得尤为特别,他在本科毕业后直接加入OpenAI,参与过强化学习、无监督学习以及Scaling Law等前沿研究,还参与了DALL-E 2、GPT-3、DALL-E 3等关键项目。 核心成员:多领域天才齐聚 华人科学家的贡献 OpenAI的重要项目中从不缺乏华人的身影,GPT-4o的研发也不例外: 未来展望 GPT-4o的推出,不仅展示了OpenAI团队的非凡实力,也揭示了未来人机交互的更多可能性。虽然目前的评价存在争议,但不可否认的是,GPT-4o在多模态处理上的突破,将为人类与AI的交流带来更多新方式和新体验。 总的来说,这18人的神仙团队,正通过他们的聪明才智和不懈努力,开创人机交互的新历史,将AI的可能性推向新的高度。 GPT-4o背后的神仙团队:项目负责人为本科学历,北大/清华/交大/中科大校友在列 https://dig.chouti.com/link/42443601 [...]