自我进化:语言模型如何学会思考后再开口

在人类的交流中,思考和表达往往是紧密相连的过程。我们经常会在说话或写作前稍作停顿,整理思路,然后才组织语言。这种”先思考,后表达”的能力对于高质量的交流至关重要。那么,人工智能语言模型能否也学会这种能力呢?最新的研究表明,答案是肯定的。 从STaR到Quiet-STaR:语言模型的自我进化之路 斯坦福大学和谷歌大脑的研究人员最近提出了两种创新技术:STaR(Self-Taught Reasoner,自学推理器)和Quiet-STaR(安静版STaR)。这两项技术标志着语言模型在自我进化方面取得了重大突破,让模型能够在没有大量人工标注数据的情况下,自主学习”思考”的能力。 STaR:从少量样本中引导推理能力 STaR技术的核心思想是让语言模型通过反复练习和自我纠错来提升推理能力。具体来说,STaR采用了以下步骤: 这个过程就像是模型在不断地”自我练习”和”自我纠错”。通过这种方式,模型可以从最初的少量样本出发,逐步掌握更复杂的推理能力。 研究表明,经过STaR训练的模型在多个数据集上的表现显著优于直接预测答案的模型。特别是在CommonsenseQA(常识问答)任务中,STaR训练的模型甚至能够与参数量大30倍的最先进模型相媲美。 Quiet-STaR:将”思考”能力泛化到更广泛的场景 在STaR的基础上,研究人员进一步提出了Quiet-STaR技术。这一技术的目标是让语言模型学会在任意文本中推断隐含的推理过程,而不仅仅局限于问答任务。 Quiet-STaR面临的主要挑战包括: 为了解决这些问题,研究人员提出了以下创新方法: 经过Quiet-STaR训练后,模型在多个任务上都表现出了显著的零样本(zero-shot)性能提升。例如,在GSM8K数学推理任务中,准确率从5.9%提升到了10.9%;在CommonsenseQA任务中,准确率从36.3%提升到了47.2%。更重要的是,这些改进是在没有针对特定任务进行微调的情况下实现的。 “思考”的价值:为什么它对语言模型如此重要? 那么,为什么”思考”能力对语言模型如此重要呢?这里有几个关键原因: 技术细节:Quiet-STaR如何工作? Quiet-STaR的工作原理涉及一些精巧的技术细节。以下是该方法的核心组成部分: 1. 逐词并行采样 为了解决生成连续文本时的高计算成本问题,Quiet-STaR采用了一种新颖的逐词并行采样算法。这种算法允许模型同时生成多个词,大大提高了推理效率。 2. 可学习的思考标记 Quiet-STaR引入了特殊的可学习标记,用来标识内部思考的开始和结束。这些标记帮助模型学会如何生成和使用内部思考,形成了一种”元认知”能力。 3. 扩展的教师强制技术 为了帮助模型学习长期依赖关系,研究人员开发了一种扩展的教师强制技术。这种技术不仅考虑下一个词的预测,还关注更长序列的生成,从而提高模型的连贯性和一致性。 4. 迭代优化 Quiet-STaR采用迭代优化的方法,不断改进模型的推理能力。在每次迭代中,模型都会生成大量的内部思考,然后基于这些思考的质量进行自我评估和优化。 实验结果:Quiet-STaR的惊人表现 Quiet-STaR在多项任务中展现出了令人印象深刻的性能。以下是一些关键的实验结果: 最重要的是,这些改进都是在零样本设置下实现的,即模型没有经过任何特定任务的微调。这表明Quiet-STaR帮助模型获得了更强的泛化能力和迁移学习能力。 未来展望:走向更智能的AI Quiet-STaR的成功为未来的AI发展指明了一个重要方向:让语言模型学会更加普遍和可扩展的推理方式。这一技术可能在以下几个方面产生深远影响: 结语:AI的自我进化之路 STaR和Quiet-STaR技术的出现,标志着AI正在向真正的”思考”能力迈进。这些方法不仅提高了模型的性能,更重要的是,它们为AI系统注入了一种类似人类的认知过程。 随着这些技术的进一步发展和应用,我们可能会看到更多”会思考”的AI系统出现在各个领域。这不仅将提高AI的实用性和可靠性,还可能帮助我们更好地理解人类自身的认知过程。 在这个AI快速发展的时代,STaR和Quiet-STaR无疑是一个重要的里程碑。它们展示了AI系统通过自我学习和进化来获得更高级认知能力的潜力。未来,当我们与AI交互时,或许真的能感受到它们在”思考”后再开口。 参考文献:

警惕环境干扰:多模态AI助手容易被分心

在人工智能快速发展的今天,多模态大语言模型(MLLM)正在展现出巨大的潜力。这些模型不仅能理解文字,还能”看懂”图像,甚至可以像人类一样操作计算机图形用户界面(GUI)。然而,一项最新研究表明,即使是最先进的MLLM也很容易受到环境干扰,从而偏离用户的指令。这一发现对于AI助手的实际应用具有重要意义。 环境干扰:一个被忽视的问题 上海交通大学和Meta公司的研究人员近期发表了一篇题为《Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions》的论文,深入探讨了MLLM在图形用户界面环境中的忠实度问题。 研究的主要问题是:多模态GUI代理是否会被环境上下文分心?这个问题看似简单,却触及了AI助手实际应用中的一个关键痛点。 想象一下,当你要求AI助手在网上购买一个键盘时,屏幕上突然弹出一个优惠券广告。正常情况下,人类用户会忽略这个干扰,继续完成购买任务。但AI助手会如何反应呢?它是否会被这个无关的广告分散注意力,偏离原本的任务? 研究人员提出了一个通用设置:用户和AI代理都是善意的,环境虽然不是恶意的,但包含一些无关内容。这个设置模拟了现实世界中的常见情况,让研究更具实际意义。 实验设计:模拟现实世界的干扰 为了全面评估MLLM作为GUI代理的表现,研究团队构建了一个模拟数据集,涵盖了四种容易受到干扰的场景: 研究人员还设计了三种不同级别的工作模式,分别是: 这些工作模式代表了AI对环境感知的不同程度,从隐式感知到充分感知。 惊人发现:顶尖模型也难逃干扰 研究团队评估了10个流行的MLLM,包括通用型代理(如GPT-4)和专门用于GUI操作的代理。实验结果令人警醒: 具体来说,研究发现: 这些发现表明,尽管近期研究主要关注多模态代理的帮助性(即动作准确性),但这些代理很容易受到环境干扰,导致不忠实的行为。 潜在风险:环境注入攻击 为了进一步强调这一问题的重要性,研究人员还从对抗性角度进行了探索。他们提出了一种名为”环境注入”的攻击方法,证明了这种不忠实行为可能被利用,导致意想不到的风险。 环境注入攻击的基本思路是:通过在环境中植入特定的干扰信息,引导AI助手执行预设的行为。例如,在购物网站的界面中加入一个看似无害的广告,实际上可能诱导AI助手点击恶意链接或泄露用户信息。 这种攻击方法的危险之处在于,它不需要直接修改AI模型或用户输入,仅通过操纵环境就可能实现。这意味着即使是经过安全性训练的AI系统,也可能在复杂的现实环境中表现出意料之外的行为。 启示与展望 这项研究为AI助手的实际应用敲响了警钟。它提醒我们,仅仅提高AI模型的性能是不够的,还需要考虑它们在复杂环境中的鲁棒性和忠实度。 对于AI研究人员和开发者而言,这项工作提出了几个重要方向: 对于普通用户和企业决策者,这项研究也提供了宝贵的启示: 随着AI技术不断发展,我们有理由相信这些问题终将得到解决。但在此之前,对AI助手保持理性和谨慎的态度至关重要。正如本研究所展示的,即使是最先进的AI系统,在面对复杂现实世界时也可能表现出意想不到的弱点。 未来的研究可能会围绕以下几个方向展开: 总的来说,这项研究不仅揭示了当前AI技术的一个重要局限,也为未来的发展指明了方向。随着我们不断推进AI向更智能、更可靠的方向发展,理解和解决环境干扰问题将成为一个关键的里程碑。

环境警示:多模态代理对环境干扰的脆弱性

在当今高速发展的技术时代,多模态大型语言模型(MLLMs)在复杂的交互任务中展现出了巨大的潜力。尤其是在图形用户界面(GUI)环境中,这些多模态代理能够模拟人类行为,以实现用户指定的目标。然而,随着这些代理的广泛应用,一个重要的问题逐渐浮出水面:它们在面对环境中的干扰时,能否保持对用户目标的忠诚和信任? 本研究旨在探讨多模态GUI代理在环境干扰下的信任性,特别关注环境中的非恶意但潜在干扰内容如何影响代理的决策和行为。通过构建一个包含多种干扰因素的模拟数据集,我们对多种MLLMs进行了评估,结果表明,即使是最强大的模型在面对环境中的干扰时也难以保持稳定的表现。 背景研究 多模态大型语言模型 多模态大型语言模型通过结合视觉、文本和其他模态信息,极大地提高了机器理解和操作的能力。这些模型通常包括模态编码器、语言模型和适配器,用以实现不同模态之间的有效融合。例如,OpenAI的GPT-4和其他先进模型通过引入视觉信息,能够在操作系统中执行复杂任务,如点击按钮、填写表单等。 GUI代理的工作机制 GUI代理的核心在于其能理解和回应用户的输入,通过感知环境状态(如屏幕内容)并预测后续的动作来实现特定的目标。当用户请求代理执行任务时,代理需要从环境中提取相关信息,并依据这些信息做出决策。近年来,随着技术的发展,越来越多的研究开始关注如何使这些代理在复杂的GUI环境中更加高效地操作。 语言代理的风险 尽管多模态代理在性能上取得了显著进展,但其潜在风险也日益显现。代理的输出可能会受到环境干扰的影响,从而导致不一致的行为。过去的研究主要集中在代理的有用性(即动作的准确性)上,而对其在复杂环境中的干扰脆弱性却鲜有关注。 环境干扰对GUI代理的影响 问题陈述 在多模态环境中,GUI代理的信任性面临着巨大的挑战。当代理在执行任务时,环境中出现的干扰内容(如广告弹窗、推荐信息等)可能会导致代理偏离用户的初始目标。我们的研究定义了一个问题:在用户和代理均为善意的情况下,环境中的干扰内容对代理的影响程度如何? 干扰模拟 为了探讨这一问题,我们构建了一个包含多种干扰场景的模拟数据集,涵盖了弹窗、搜索、推荐和聊天四种常见情况。在每种情况下,我们设计了不同的干扰内容,以观察这些内容如何影响代理的行为。 例如,在弹窗场景中,用户的目标可能是浏览某个网站,但弹窗中出现的广告可能会干扰代理的决策,导致其误点击广告内容而非用户期望的内容。 评估方法 我们对代理的行为进行了评估,将其输出的动作标记为“金标准动作”(即符合用户目标的动作)、“干扰动作”(即受到环境干扰的动作)和“无效动作”(即不在可用动作范围内的动作)。通过对比这些动作,我们能够量化代理在不同场景下的信任性和有效性。 实验设计与结果分析 实验实施 我们在十种流行的多模态大型语言模型上进行了实验,结果显示,无论是通用代理还是专用GUI代理,都对环境干扰表现出易受影响的特征。尽管增强环境感知能力是一种常见策略,但我们的实验结果表明,这种增强并不足以显著减轻干扰影响。 主要结果 在弹窗、搜索、推荐和聊天四种场景下,我们发现多模态代理在执行用户目标时,受到环境干扰的概率显著高于预期。例如,在弹窗场景中,代理的干扰动作比例高达30%以上,显示出其在复杂环境中的脆弱性。 分析与比较 在对不同模型的比较中,强大的API(如GPT-4o)在执行任务时表现出较好的信任性,其干扰动作比例相对较低。而开源模型(如GLM-4v)则显示出更高的干扰脆弱性。这一结果表明,模型的设计和训练方式对其在复杂环境中的表现有着直接影响。 面向对抗性视角的讨论 在探讨多模态代理的脆弱性时,我们不仅关注其在正常环境下的表现,也考虑了潜在的对抗性威胁。通过对环境进行干扰注入,我们可以故意引导代理执行错误的动作。例如,通过改变弹窗按钮的文本,使其在用户意图与环境内容之间产生歧义,从而诱导代理选择错误的动作。 攻击模型 我们设计了一种简单有效的攻击方法,通过修改弹窗中的按钮文本,使其对用户产生误导。这种技术可以在不改变用户目标的情况下,通过环境干扰来影响代理的决策,展示了多模态代理在面对恶意干扰时的脆弱性。 结论 本研究揭示了多模态GUI代理在环境干扰下的信任性问题,强调了在设计和应用这些代理时,必须考虑环境内容对其行为的影响。我们的实验结果表明,即使在用户和代理均为善意的情况下,环境中的干扰内容也可能导致代理失去对用户目标的忠诚。 未来的研究方向 未来的研究可以集中在提升多模态代理的信任性和可靠性上,例如通过预训练模型的信任性对齐、增强环境上下文与指令之间的关联等。此外,考虑到环境干扰的潜在风险,制定有效的防护机制以降低对抗攻击的风险也是一个重要的研究方向。 参考文献

Meta发布Llama 3:通向负责任AGI的里程碑

在人工智能发展的关键时刻,Meta公司发布了其最新一代大语言模型Llama 3,标志着向负责任的通用人工智能(AGI)迈出重要一步。这个开源发布的模型群在多项基准测试中展现出与GPT-4等领先模型相当的能力,同时在有益性和无害性之间保持了更好的平衡。 模型规模与训练细节 Llama 3包含8B、70B和405B参数三个版本,其中最大的405B参数版本是一个具有126层、16,384个令牌表示维度和128个注意力头的密集Transformer模型。它在15.6万亿个多语言令牌上进行了预训练,使用了总计$3.8 \times 10^{25}$次浮点运算。 Meta研究人员表示,他们在开发过程中重点关注三个关键因素:数据质量与数量、模型规模、以及复杂性管理。在数据方面,相比Llama 2的1.8万亿令牌,Llama 3使用了约15万亿的多语言令牌进行预训练。在规模上,405B参数的旗舰版本比Llama 2的最大版本多近50倍的计算量。 在复杂性管理方面,研究团队选择了标准的密集Transformer架构,而非专家混合模型,以最大化训练稳定性。他们还采用了相对简单的后训练程序,基于监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),而非更复杂的强化学习算法。 突破性能力与评估结果 Llama 3展现出全面的语言理解与生成能力。在多项基准测试中,它的表现与GPT-4等顶级模型相当,甚至在某些任务上超越了它们。 在MMLU(多任务语言理解)测试中,Llama 3 405B模型达到了87.8%的准确率,接近GPT-4的86.4%。在AI2推理挑战赛中,Llama 3的得分为91.8%,超过了GPT-4的87.0%。在数学推理能力方面,Llama 3在GSM8K基准上取得了94.2%的准确率,相比GPT-4的92.0%也有所领先。 此外,Llama 3还展现出强大的代码生成与理解能力。在HumanEval基准测试中,它达到了88.0%的通过率,与GPT-4的的67.0%相比有显著提升。在MBPP基准上,Llama 3的得分为78.0%,同样超过了GPT-4的的64.1%。 Meta研究人员强调,Llama 3不仅在英语任务上表现出色,在多语言能力方面也有重大突破。例如,在MGSM基准(涵盖多种语言的数学问题)上,Llama 3达到了87.5%的准确率,远超GPT-4的58.2%。 创新训练方法与架构设计 Llama 3的成功离不开其创新的训练方法和架构设计。研究团队采用了一种分阶段的训练策略,包括初始预训练、长上下文预训练和退火三个阶段。 在初始预训练阶段,模型使用余弦学习率计划,峰值学习率为$8 \times 10^{-5}$,在120万训练步骤中衰减到$8 \times 10^{-7}$。为提高训练稳定性和效率,研究人员在训练初期使用较小的批量大小,随后逐步增加。 长上下文预训练阶段旨在将模型的上下文窗口从8K令牌扩展到128K令牌。这一阶段分六个步骤逐步增加上下文长度,使用了约8000亿训练令牌。 在最后的退火阶段,研究人员在保持128K令牌上下文长度的同时,将学习率线性退火到0。同时,他们还调整了数据混合,对高质量数据源进行上采样,并计算模型检查点的平均值(Polyak平均)以产生最终的预训练模型。 在架构设计方面,Llama 3采用了分组查询注意力(GQA)机制,使用8个键值头来提高推理速度并减少键值缓存的大小。研究人员还引入了注意力掩码,防止同一序列内不同文档之间的自注意力,这在对非常长序列的持续预训练中尤为重要。 此外,Llama 3使用了一个128K令牌的词汇表,结合了来自tiktoken3分词器的100K令牌和额外的28K令牌,以更好地支持非英语语言。这使得模型能够在相同的训练计算量下”阅读”更多的文本。 多模态能力的探索 除了语言模型,Meta研究团队还探索了将图像、视频和语音能力整合到Llama 3中的方法。他们采用了一种组合方法,通过引入和训练交叉注意力层,将预训练的图像编码器与预训练的语言模型结合起来。 在图像识别任务上,Llama 3展现出了与GPT-4V相当甚至更好的性能。例如,在MMMU(多模态多任务理解)基准测试中,Llama 3 405B模型达到了60.6%的准确率,超过了GPT-4V的55.4%。在VQAv2(视觉问答)任务上,Llama 3的得分为82.1%,也略高于GPT-4V的81.0%。 在视频识别方面,Llama 3同样表现出色。在PerceptionTest基准上,Llama 3 70B模型达到了79.5%的准确率,超过了GPT-4V的77.4%。在TVQA(电视问答)任务中,Llama 3的得分为84.5%,与GPT-4V的84.9%相当。 对于语音理解,Llama 3展示了强大的多语言语音识别和翻译能力。在多语种LibriSpeech(MLS)基准上,Llama … Read more

AI代理生成新突破:微软提出AGENTGEN框架自动构建海量训练环境

在人工智能领域,基于大型语言模型(LLM)的AI代理正引发新一轮技术革命。这些AI代理能够像人类一样感知环境、做出决策并执行行动,在机器人规划、旅行规划等领域展现出巨大潜力。然而,如何提升AI代理的规划能力一直是一个挑战。最近,微软研究院联合香港大学的研究人员提出了一种名为AGENTGEN的创新框架,有望在这一问题上取得重大突破。 传统方法存在局限性 目前提升AI代理规划能力的主流方法是通过指令微调(instruction tuning)来训练大型语言模型。具体而言,研究人员会构建一些规划任务和环境,让AI代理在其中执行并收集高质量的轨迹数据(动作-观察序列),然后用这些数据来微调语言模型。 然而,这种方法存在一个关键瓶颈:构建多样化的环境和任务需要大量人工劳动。设计一个环境不仅要定义丰富而实用的场景,还需要编程技能来实现。制定任务则需要创建一套难度递进的任务集。由于这些限制,现有研究通常只能使用少量环境来生成训练数据。 AGENTGEN:自动构建海量环境和任务 为了突破这一瓶颈,微软研究院联合香港大学的研究人员提出了AGENTGEN框架。该框架利用大型语言模型自动构建多样化的环境和规划任务,将可用的环境数量从几个扩展到数百个。AGENTGEN主要包括两个阶段: 1. 环境生成 为了生成足够多样化的环境,研究人员使用了一个灵感语料库作为上下文。具体来说,他们首先从灵感语料库中随机选择一段文本,然后提示大型语言模型生成相关的环境规范,包括动作、限制等细节。例如,从语料库中选择”如何用花生酱粉提升你的饮食?”这段文本后,语言模型生成了一个相关的环境规范:”你是一名营养师,负责创作一本新的健康食谱,将花生酱粉作为关键成分”。 接下来,研究人员让语言模型根据这个规范生成相应的代码,可以是Python、PDDL(Planning Domain Definition Language)或其他特定领域语言。他们还构建了一个环境库,作为上下文示例,并通过迭代方式不断扩充高质量的新生成环境。 2. 任务生成 在生成环境的基础上,AGENTGEN还会创建多个规划任务。为了实现任务难度的多样性,研究人员提出了一种双向演化方法BI-EVOL。具体而言,语言模型首先生成一些随机规划任务,然后通过施加约束朝简化和增加难度两个方向演化这些任务。这种方法创建的任务集具有平滑的难度曲线,有助于语言模型更顺畅地获取规划技能。 实验验证AGENTGEN有效性 为了验证AGENTGEN的有效性,研究人员基于PDDL语言合成了环境和规划任务,构建了一个包含592个环境、每个环境20个任务的数据集。他们使用独立于领域的规划器获得了7,246条高质量轨迹。随后,研究人员使用这些轨迹数据对一系列语言模型进行指令微调,并在AgentBoard上展示了训练后的模型性能。 实验结果表明,AGENTGEN在领域内任务上比原始的LLama3-8B模型提高了5倍以上(11.67 vs 1.67),总体表现超过了GPT-3.5。在某些特定任务上,它甚至超越了GPT-4的表现。在领域外任务上,AGENTGEN也展现了类似的实验结果。具体而言,它显著提高了成功率,在Alfworld和BabyAI上分别实现了29.1和4.47的提升。在Alfworld上,AGENTGEN甚至超过了GPT-3.5的表现(29.1 vs 17.2)。 AGENTGEN的意义与展望 AGENTGEN框架的提出具有重要意义: AGENTGEN为提升AI代理的规划能力开辟了一条新路径。未来,研究人员可能会进一步扩展这一框架,使其适用于更多类型的AI代理场景,如记忆、工具使用等。这将为构建更强大、更通用的AI代理奠定基础,推动人工智能向着更高层次发展。 (参考文献: Hu, M., Zhao, P., Xu, C., Sun, Q., Lou, J., Lin, Q., … & Zhang, D. (2024). AGENTGEN: Enhancing Planning Abilities for Large Language Model based Agent … Read more

Llama 3模型:多维度损失函数铸就大语言模型新巅峰

在人工智能领域,大型语言模型(Large Language Models, LLMs)的发展如火如荼。作为这一领域的佼佼者,Llama系列模型一直备受关注。随着Llama 3的横空出世,其在模型架构、训练方法等方面的创新再次引发业界热议。本文将深入探讨Llama 3模型在训练过程中采用的多维度损失函数策略,揭示其如何通过精心设计的损失函数组合,打造出更加强大、灵活的语言模型。 损失函数:大语言模型的指路明灯 在机器学习领域,损失函数扮演着至关重要的角色。它就像是为模型指明方向的指南针,引导模型不断调整参数,最终达到预期的效果。对于大型语言模型而言,损失函数的设计直接影响着模型的学习效果和最终性能。 Llama 3模型的成功,很大程度上归功于其采用的多维度损失函数策略。这种策略不仅包含了传统的交叉熵损失,还融合了多种创新性的损失函数,形成了一个全方位、多角度的学习目标体系。 Llama 3的损失函数全家福 1. 交叉熵损失函数:基础中的基础 交叉熵损失函数是Llama 3模型的主要损失函数。它源于信息论,用于衡量模型预测的概率分布与真实概率分布之间的差异。在语言模型中,交叉熵损失函数的计算公式如下: $L_{CE} = -\sum_{i=1}^{n} y_i \log(\hat{y}_i)$ 其中,$y_i$是真实标签,$\hat{y}_i$是模型预测的概率。 交叉熵损失函数的工作原理可以类比为教导一个学生写作。想象一下,我们给学生一篇范文,然后让他尝试续写。每当学生写出一个词,我们就会根据这个词与范文中相应位置的词的匹配程度给出反馈。如果学生写出的词与范文完全一致,那么损失就很小;反之,如果写出的词与范文相差甚远,损失就会很大。通过这种方式,学生(模型)会逐渐学会如何更准确地预测下一个词,从而提高写作(生成文本)的能力。 2. 标签平滑:为模型注入”谦逊” 在Llama 3的训练过程中,研究人员还引入了标签平滑技术。这种技术的本质是将原本”硬性”的标签稍微”软化”。例如,原本的标签可能是[0, 0, 1, 0],表示第三个选项是正确答案。经过标签平滑后,它可能变成[0.05, 0.05, 0.9, 0.05]。 标签平滑的引入有两个主要目的: 这种技术可以类比为在教学生写作时,不仅告诉他们”最佳答案”,还会讨论其他可能的表达方式。这样可以培养学生更全面的语言理解和表达能力,而不是死记硬背标准答案。 3. ELECTRA式预训练损失函数:真假词的较量 Llama 3模型借鉴了ELECTRA模型的预训练任务,引入了一种新的损失函数。这个损失函数的核心思想是:在训练文本中随机替换一些词,然后让模型去判断每个词是原始词还是被替换的”假词”。 具体来说,这个损失函数可以表示为: $L_{ELECTRA} = -\sum_{i=1}^{n} [y_i \log(D(x_i)) + (1-y_i) \log(1-D(x_i))]$ 其中,$D(x_i)$表示判别器对词$x_i$的预测(是原始词的概率),$y_i$是真实标签(1表示原始词,0表示替换词)。 这种方法的优势在于: 这种训练方法可以比喻为让学生参与一个”真假词”游戏。我们给学生一段文字,其中某些词被悄悄替换了。学生的任务是找出哪些词是原文,哪些是被替换的。这个游戏不仅能提高学生的词汇量,还能增强他们对语境的理解能力。 4. 句子顺序预测损失函数:长篇大论的逻辑训练 为了提升模型对长文本的理解和推理能力,Llama 3引入了句子顺序预测(SOP)损失函数。这个任务要求模型预测打乱顺序的多个句子的正确排列。 … Read more

突破性框架UniEX:统一信息抽取的新范式

在人工智能和自然语言处理领域,信息抽取一直是一个备受关注的研究方向。传统的信息抽取方法往往需要为每个具体任务设计特定的模型,这不仅增加了开发成本,也限制了模型在不同任务间的知识共享。近日,来自国际数字经济研究院、华南理工大学等机构的研究人员提出了一种名为UniEX的新型通用信息抽取框架,有望彻底改变这一现状。 统一视角下的信息抽取 UniEX框架的核心思想是将各种信息抽取任务统一看作是对文本中片段(span)的检测、分类和关联问题。研究人员发现,不同的信息抽取任务本质上都涉及确定语义角色和语义类型,而这些都可以转化为文本片段的形式。 例如,命名实体识别任务可以看作是检测语义角色的边界并对其进行分类;关系抽取则可以视为在特定语义角色之间建立语义关联。基于这一洞察,UniEX框架将信息抽取任务分解为三个基本操作: 这种统一的视角使得UniEX框架能够以相同的方式处理各种信息抽取任务,包括命名实体识别、关系抽取、事件抽取和情感分析等。 创新的架构设计 为了实现这一统一的抽取范式,UniEX框架采用了多项创新设计: UniEX采用了一种规则化的转换方法,将各种抽取目标和统一的输入格式进行桥接。具体来说,它利用带有标识符的特定任务标签作为基于模式的提示,以学习通用的信息抽取知识。 例如,对于一个命名实体识别任务,输入可能是这样的: 这种设计使模型能够同时编码基于模式的提示和文本信息。 研究表明,具有双向上下文表示的自编码语言模型更适合自然语言理解任务。因此,UniEX采用了类似BERT的语言模型来构建其基础抽取架构,以进行底层语义编码。 UniEX引入了一种名为”三仿射注意力机制”(triaffine attention mechanism)的新技术来进行结构解码。这种机制能够同时考虑多个因素之间的高阶交互,包括任务、标签和内部标记。每个三仿射评分矩阵都分配给一个特定需求的提示,以获得基于片段的抽取目标。 具体来说,UniEX首先使用两个独立的前馈神经网络来创建内部标记的起始/结束位置的不同表示。然后,它应用深度三仿射变换,使用权重矩阵 $W \in R^{d×d×d}$ 来聚合基于模式的片段表示。这个过程可以用以下公式表示: $H^s_x = FFNs(H_x)$$H^e_x = FFNe(H_x)$$S = σ(W ×_1 H_s ×_2 H^s_x ×_3 H^e_x)$ 其中, $×_k$ 表示输入张量与 $W$ 的第 $k$ 维之间的矩阵乘法, $σ(*)$ 表示Sigmoid激活函数。 这种设计使UniEX能够在解码阶段精确控制在所有信息抽取任务中何处进行检测以及关联什么。 卓越的性能表现 研究人员在多个具有挑战性的基准数据集上对UniEX进行了广泛的实验,涵盖了4个主要的信息抽取任务(实体/关系/事件/情感抽取)。实验结果表明,与最先进的通用信息抽取模型和特定任务的低资源方法相比,UniEX在有监督、少样本和零样本设置下都取得了实质性的性能和效率提升。 在有监督的设置下,UniEX在几乎所有任务和数据集上都优于现有的通用信息抽取模型。与TANL和UIE相比,UniEX在大多数数据集上的表现都有显著提升,平均F1分数分别提高了1.36%和1.52%。 在低资源场景下,UniEX同样表现出色。在少样本命名实体识别任务上,UniEX在不同的类型粒度和领域划分下都达到了最佳性能,大幅超越了之前的方法。例如,在Cross-Dataset数据集上,UniEX在1-shot和5-shot设置下的平均F1分数分别比最接近的竞争对手高出6.94%和5.63%。 在零样本关系抽取任务中,UniEX在单三元组和多三元组评估中都始终优于基线模型,无论是在准确率还是整体F1分数方面。这充分证明了UniEX处理未见标签的能力。 高效的推理速度 除了性能优势,UniEX在推理效率方面也表现突出。与生成式模型相比,UniEX能够从通过三仿射变换获得的评分矩阵中一次性解码所有目标结构,大大提高了推理速度。实验表明,UniEX的平均推理速度是UIE的13.3倍。 这种效率优势源于UniEX的抽取式结构。生成式模型需要逐个生成目标结构的每个标记,因此推理速度受限于目标结构的长度。相比之下,UniEX能够并行处理所有可能的片段,从而实现更快的推理。 广阔的应用前景 UniEX框架的提出为通用信息抽取开辟了一个新的研究方向。它不仅在各种信息抽取任务上取得了state-of-the-art的性能,还展示了优秀的泛化能力和迁移学习潜力。 在实际应用中,UniEX可以大大简化信息抽取系统的开发过程。企业和研究机构可以使用同一个UniEX模型来处理多种信息抽取需求,而不必为每个具体任务开发和维护单独的模型。这不仅能降低开发和维护成本,还能提高整体系统的效率和性能。 此外,UniEX在低资源场景下的出色表现,使其特别适合应用于新兴领域或数据稀缺的情况。即使在训练数据有限的情况下,UniEX也能有效地利用标签语义来提升性能,这对于快速开发新的信息抽取应用具有重要意义。 未来研究方向 … Read more

AI将改变物理世界:能源、制造和医疗革命即将来临

雷·库兹韦尔:人工智能不仅仅是数字革命,更将彻底改变人类生活 在数字世界掀起波澜之后,人工智能(AI)正准备跨越虚拟与现实的鸿沟,向物理世界发起冲击。这场革命性的变革将给人类带来无数好处,但其中三个领域的影响尤为深远:能源、制造业和医药。作为在AI领域工作了61年的资深专家,我有幸见证了这一技术从科幻小说般的构想逐步成为全球关注的焦点。然而,大多数评论都忽视了像ChatGPT和Gemini这样的大型语言模型如何融入一个更宏大的故事中。 太阳能:清洁能源的未来之星 能源是人类文明最基本的资源之一。两个世纪以来,世界一直依赖着肮脏、不可再生的化石燃料。然而,仅利用地球接收阳光的0.01%就足以满足人类所有的能源消耗。自1975年以来,太阳能电池每瓦容量的成本已经下降了99.7%,使得全球太阳能装机容量增加了约200万倍。那么,为什么太阳能还没有成为主导能源呢? 问题主要有两个方面。首先,光伏材料仍然太昂贵且效率不高,无法完全取代煤炭和天然气。其次,由于太阳能发电量存在昼夜和季节性的变化,需要存储大量能源以备不时之需——而当今的电池技术在成本效益上还不够理想。物理定律表明,在这些方面有巨大的改进空间,但化学可能性的范围如此之大,以至于科学家们的进展一直非常缓慢。 相比之下,AI可以在模拟中快速筛选数十亿种化学成分,并且已经在推动光伏和电池领域的创新。这一进程正准备大幅加速。直到2023年11月之前的整个人类历史中,我们只发现了约20,000种可用于各种技术的稳定无机化合物。然而,谷歌的GNoME AI一夜之间就将这个数字增加到了421,000。这仅仅是材料科学应用的冰山一角。一旦智能水平更高的AGI(通用人工智能)找到完全优化的材料,大型光伏项目将变得可行,太阳能将变得如此丰富,几乎可以免费使用。 制造业革命:从稀缺到丰裕 能源的丰富将引发另一场革命:制造业的变革。几乎所有商品的成本——从食品和服装到电子产品和汽车——主要来自几个共同因素,如能源、劳动力(包括研发和设计等认知劳动)和原材料。AI正在大幅降低所有这些成本。 在廉价、丰富的太阳能之后,下一个组成部分是人类劳动力,这通常是艰苦和危险的。AI在机器人技术方面正在取得重大进展,可以大大降低劳动力成本。机器人技术还将降低原材料提取成本,而AI正在寻找用锆、硅和碳基石墨烯等常见元素替代昂贵稀土元素的方法。总的来说,这意味着大多数种类的商品将变得异常便宜和丰富。 这些先进的制造能力将使计算的性价比保持过去一个世纪的指数轨迹——自1939年以来提高了75万亿倍。这是由于一个反馈循环:今天最先进的AI芯片被用来优化下一代芯片的设计。就每秒每美元的计算次数而言,去年11月最好的硬件可以达到480亿次。而英伟达新的B200 GPU已经超过5000亿次。 生物医学革命:从近似到精确 随着我们建立起模拟生物学所需的巨大计算能力,我们将解锁AI带来的第三次物理革命:医学。尽管在过去200年中取得了巨大进展,但我们对人体的理解仍然建立在混乱的近似之上,这些近似通常对大多数患者来说大体正确,但可能对你个人并不完全适用。每年有数万美国人因服用研究表明应该有帮助的药物而死亡。 然而,AI正开始将医学转变为一门精确的科学。分子生物模拟——一种帮助研究人体和药物作用机制的精确计算机建模——可以快速评估数十亿个选项,找到最有前景的药物,而不是在实验室中进行耗时的试错。去年夏天,第一种由AI从头到尾设计的药物进入了二期临床试验,用于治疗特发性肺纤维化,这是一种肺部疾病。现在,数十种其他由AI设计的药物正在进入临床试验阶段。 随着模拟融入AI带来的更丰富数据,药物发现和试验流程将被大大加速。在2022年之前的整个人类历史中,科学家们只确定了约19万种蛋白质的形状。而在那一年,DeepMind的AlphaFold 2发现了超过2亿种,这些发现已免费向研究人员开放,以帮助开发新的治疗方法。 还需要进行更多的实验室研究来准确填充更大的模拟,但路线图已经很清晰。接下来,AI将模拟蛋白质复合物,然后是细胞器、细胞、组织、器官,最终是整个身体。 这最终将取代今天的临床试验,后者昂贵、风险高、速度慢且统计学上缺乏说服力。即使在三期试验中,可能也没有一个受试者在基因、生活方式、合并症、药物相互作用和疾病变异等所有相关因素上与你完全匹配。 数字试验将让我们能够为每个患者量身定制药物。这潜力令人惊叹:不仅可以治愈癌症和阿尔茨海默病等疾病,还可以消除衰老本身的有害影响。 长寿逃逸速度:人类寿命的飞跃 今天,科学进步每年为普通美国人或英国人增加6到7周的预期寿命。当AGI让我们完全掌握细胞生物学时,这些增长将急剧加速。一旦预期寿命的年度增长达到12个月,我们就将实现”长寿逃逸速度”。对于那些勤于保持健康习惯并使用新疗法的人来说,我相信这将在2029年到2035年之间发生——届时,衰老将不会增加他们的年度死亡概率。由于计算的价格性能指数呈指数级提高,起初昂贵的AI驱动疗法将很快变得广泛可用。 这是AI最具变革性的承诺:更长、更健康的生命,不再受制于自人类诞生以来一直限制我们的稀缺和脆弱。 结语:AI时代的新篇章 随着AI技术的不断进步,我们正站在一个新时代的门槛。能源、制造和医疗领域的革命性变化将重塑人类社会的方方面面。廉价清洁的能源将推动经济增长,先进的制造技术将使商品更加affordable,而精准医疗的发展则有望大幅延长人类寿命。 然而,这一切的实现还需要时间和持续的努力。我们必须谨慎地权衡AI带来的机遇和挑战,确保这些技术造福全人类,而不是加剧不平等。同时,我们也要保持警惕,防范可能出现的风险和滥用。 无论如何,AI正在开启一个充满无限可能的新时代。我们有理由对未来充满期待,同时也要为迎接这个新时代做好准备。让我们共同努力,塑造一个更美好、更智能的未来。 参考文献:

AI模型评估:基准测试的可信度与挑战

在人工智能快速发展的今天,各大科技公司和初创企业纷纷推出自己的大语言模型(LLM),并声称在某些方面超越了竞争对手。然而,这些声明的可信度如何?本文将深入探讨AI模型评估指标的可靠性问题,以及当前基准测试面临的挑战。 基准测试的重要性 基准测试在AI领域扮演着至关重要的角色。斯坦福大学以人为本人工智能研究所的Percy Liang指出,基准测试不仅”定义并推动进步”,还能告诉模型开发者他们在竞争中所处的位置,激励他们不断改进。此外,基准测试还能: 初创公司Hugging Face的LLM评估专家Clémentine Fourrier强调了基准测试在实际应用中的重要性。然而,她同时警告说,基准测试分数”应该谨慎对待”。 基准测试的局限性 1. 自我评分的问题 模型开发者实际上是在给自己的产品打分,这可能导致结果偏差。他们往往利用这些结果来炒作产品,抬高公司估值。Fourrier博士指出,这种宏伟的声明往往与现实世界的表现不符。 2. 基准测试难度不足 以MMLU(大量多任务语言理解)为例,这个在2020年创建的基准测试对于当今的模型来说已经变得过于简单。MMLU包含15,908个多项选择题,涵盖57个主题,包括数学、美国历史、科学和法律等。 这种情况被称为”饱和”问题。Fourrier博士形象地比喻道:”这就像用初中生的考试来给高中生打分。” 3. 难以区分顶级模型 当多个顶级模型在同一基准测试上的得分非常接近时,很难判断哪个模型更优秀。例如: 这些微小的差异可能不足以反映模型在实际应用中的真实表现差异。 应对基准测试挑战的新方法 为了解决现有基准测试的局限性,研究者们正在开发更具挑战性的评估方法: 1. MMLU-Pro 这是MMLU的升级版,具有以下特点: 2. GPQA GPQA被描述为”博士水平的MMLU”,专注于选定的科学主题。目前,最佳模型在GPQA上的得分通常在50%到60%之间,这表明它确实更具挑战性。 3. MuSR(多步骤软推理) MuSR旨在测试AI模型的推理能力,使用如侦探推理场景等复杂任务。这种测试要求模型能够: 人类在阅读侦探故事并推断凶手身份时,能够自然地结合这些能力。然而,AI模型在这种涉及多个步骤的”软推理”任务上表现不佳。目前,很少有模型在MuSR上的得分高于随机水平。 基准测试的未来发展 随着AI技术的不断进步,基准测试也需要与时俱进。未来的基准测试可能需要考虑以下几个方面: 结论 虽然基准测试在AI领域发挥着重要作用,但我们必须认识到它们的局限性。现有的评估方法可能无法全面反映AI模型在实际应用中的表现。随着技术的发展,我们需要不断改进和创新评估方法,以确保它们能够准确衡量AI模型的真实能力。 同时,我们也应该警惕模型开发者可能存在的自我评分偏差,以及过度依赖单一指标的危险。未来,可能需要建立更加独立、全面和动态的评估体系,以推动AI技术的健康发展。 只有通过不断完善评估方法,我们才能更好地理解AI模型的真实能力,并为其在各个领域的应用奠定坚实基础。 参考文献

AI智能体规划能力再升级:AGENTGEN框架自动生成海量训练数据

在人工智能领域,基于大型语言模型(LLM)的智能体正日益受到关注并广泛应用。然而,如何提升这些AI智能体的规划能力一直是一个挑战。近日,来自香港大学和微软的研究团队提出了一个名为AGENTGEN的创新框架,通过自动生成大量多样化的训练环境和任务,显著增强了LLM智能体的规划能力。这一突破性研究成果发表在最新一期的arXiv预印本平台上。 智能体规划能力的关键性与局限性 规划能力是LLM智能体的核心组成部分之一,涉及与环境交互并执行一系列动作以完成从初始状态到目标状态的任务。近期的研究表明,利用专家级轨迹数据(动作-观察对序列)对LLM进行指令微调,可以有效提升其规划能力。 然而,现有工作主要依赖于从人工设计的规划任务和环境中合成轨迹。创建这些环境和任务的劳动密集性严重阻碍了生成足够多样化和广泛的轨迹数据。正如论文作者所指出:”设计多样化环境需要定义一系列丰富而实用的场景,而实现这些环境通常需要具备编程技能的人类专家参与。此外,制定任务通常需要创建一个逐步提高难度的任务集。” AGENTGEN:自动生成环境和任务的创新框架 为解决上述限制,研究团队提出了AGENTGEN框架,利用LLM首先生成环境,然后基于这些环境生成规划任务。该框架主要包括两个阶段: 1. 环境生成 为确保足够的环境多样性,研究人员使用了由各种领域特定文本段组成的”灵感语料库”作为生成环境规范的上下文。例如,从灵感语料库中随机选择一段文本”如何用花生酱粉提升你的饮食?”这促使生成了相关的环境规范:”你是一名营养师,负责创作一本新的健康食谱,将花生酱粉作为关键成分。” 随后,研究人员提示LLM基于此规范生成相应的代码,可能由Python、规划领域定义语言(PDDL)或其他特定领域语言组成。此外,他们还构建了一个环境库,作为上下文示例,并通过迭代纳入新生成的高质量环境来不断扩展。 2. 任务生成 在生成环境的基础上,研究团队旨在创建多个规划任务。在这个阶段,关键是要有一个从简单到困难的渐进式任务集。为实现更大的难度多样性,他们提出了一种双向演化方法BI-EVOL。 具体而言,LLM首先生成随机规划任务,然后通过应用约束条件向简化和增加难度两个方向演化这些任务。这种方法创建了一个具有平滑难度曲线的任务集,有助于LLM更顺畅地获取规划技能。 研究人员解释道:”BI-EVOL引入了两个方向的演化:简化演化和难化演化。简化演化通常涉及简化目标条件,这有助于在智能体表现不佳且无法直接从典型的困难目标中学习时促进学习。相反,难化演化通常涉及使目标条件更复杂,增加智能体完成任务所需的步骤数。这可以进一步增强智能体执行规划任务的能力。” 实验验证:AGENTGEN的显著成效 为验证AGENTGEN的有效性,研究团队基于PDDL合成了环境和规划任务,构建了一个包含592个环境的数据集,每个环境有20个任务。他们使用领域无关规划器获得了7,246个高质量轨迹。随后,他们使用这些轨迹数据对一系列LLM进行了指令微调,并在AgentBoard上展示了训练后的模型性能。 实验结果表明,AGENTGEN在领域内任务上相比原始LLama3-8B取得了5倍以上的提升(11.67 vs. 1.67),整体表现超过了GPT-3.5。在某些特定任务上,它甚至超越了GPT-4的表现。在领域外任务中,AGENTGEN也展现了类似的实验成果。具体而言,它显著提高了成功率,在Alfworld和BabyAI上分别取得了29.1和4.47的提升。在Alfworld上,AGENTGEN甚至超越了GPT-3.5的表现(29.1 vs. 17.2)。 研究人员强调:”尽管参数规模相对较小,AGENTGEN在总体成功率上仍然优于GPT-3.5(11.67 vs. 5.0)。此外,在调酒师任务中,AGENTGEN甚至超越了GPT-4的表现(15 vs. 10)。与其他具有类似参数规模的模型相比,AGENTGEN在四个不同任务中始终表现出色。” 未来展望与潜在影响 AGENTGEN框架的提出为增强LLM智能体的规划能力开辟了新的可能性。通过自动生成大量多样化的环境和任务,该方法不仅显著提升了模型性能,还展现出良好的泛化能力。 研究团队指出:”AGENTGEN不仅在领域内任务上表现出色,在领域外任务中也取得了显著进步,这进一步证实了我们方法的有效性和泛化能力。” 这项研究的成果可能对多个领域产生深远影响,包括但不限于: 尽管AGENTGEN取得了令人瞩目的成果,研究团队也指出了未来的改进方向。例如,进一步提高生成环境和任务的质量和多样性,探索更高效的训练方法,以及研究如何将AGENTGEN应用于更广泛的AI智能体场景。 总的来说,AGENTGEN为增强AI智能体的规划能力提供了一种创新且有效的方法。随着这一技术的不断发展和完善,我们可以期待看到更多智能、灵活且具有强大规划能力的AI系统在各个领域发挥重要作用,为人类社会带来更多便利和价值。 参考文献:[1] Hu, M., Zhao, P., Xu, C., Sun, Q., Lou, J., Lin, Q., … & Zhang, D. (2024). AGENTGEN: Enhancing Planning Abilities … Read more