Category: AI

生成扩散模型漫谈(二十四):少走捷径,更快到达生成扩散模型漫谈(二十四):少走捷径,更快到达

引言 在生成扩散模型的应用中,如何在保证生成质量的前提下减少采样步数一直是一个关键问题。本文将介绍一种名为“Skip Tuning”的加速技巧,该技巧出自论文《The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling》。通过合理的调节Skip Connection的权重,可以在保持生成质量的同时进一步压缩采样步数,实现更快速的采样过程。 模型回顾 首先,我们需要回顾一下生成扩散模型中的主流架构——U-Net。U-Net最早出自论文《U-Net: Convolutional Networks for Biomedical Image Segmentation》,其特点是输入和输出的大小一致,适合图像分割任务。U-Net在生成扩散模型中也被广泛采用,因为它能够很好地捕捉图像的细节信息。 U-Net的核心是Skip Connection,即在逐层下采样和上采样的过程中,添加了额外的连接来避免信息瓶颈。这些Skip Connection使得第一层的输出可以直接传递到倒数第一层,第二层的输出可以传递到倒数第二层,依此类推。这样可以解决信息流动受限的问题,尤其是在重构和去噪任务中,避免生成模糊的结果。 Skip Tuning 方法 Skip Tuning是一种特别简单有效的加速技巧,适用于已有的加速技术。其核心思想是通过调节Skip Connection的权重来补偿加速过程中损失的非线性能力。具体来说,在扩散模型的采样过程中,采样是一个多步递归地从初始状态到目标状态的过程,这构成了一个复杂的非线性映射。Skip Tuning通过调节Skip Connection的权重来增加模型的非线性能力,从而提高采样质量或者减少采样步数。 [...]

学习超越模式匹配?评估LLMs的数学理解能力学习超越模式匹配?评估LLMs的数学理解能力

作者 Siyuan Guo, Aniket Didolkar, Nan Rosemary Ke, Anirudh Goyal, Ferenc Huszár, Bernhard Schölkopf 摘要 本文《学习超越模式匹配?评估LLMs的数学理解能力》探讨了大语言模型(LLMs)在数学问题解决中的领域知识和理解能力。作者不仅研究了预训练LLM已经掌握的知识,还考察了它们在上下文学习或指令微调过程中如何通过信息来学习。研究旨在评估LLMs在解决问题时理解不同数学技能的能力,以及其利用数学中复杂知识结构的能力。 受到神经切线核(NTK)概念的启发,作者提出了一种名为NTKEval的方法,通过训练不同类型的数学数据来评估LLM概率分布的变化。论文中进行的分析显示了在上下文学习期间领域理解的证据,表明LLMs能够有效地学习和利用相关的数学技能。然而,某些指令微调技术导致的性能变化与训练数据无关,这表明在不同技能之间缺乏领域理解。 主要内容 1. 引言 大语言模型(LLMs)在各种自然语言推理任务中展示了显著的成功。本文评估了LLMs在解决数学问题时所需的不同数学技能的理解能力,不仅关注预训练模型已经掌握的知识,还关注其在上下文学习或指令微调期间如何学习。 2. 相关工作 现有的研究主要关注LLMs在数学问题解决中的表现,然而很少有研究探讨其在不同数学技能上的理解能力。本文提出的方法旨在填补这一空白。 3. 背景 神经切线核(NTK)是一种用于分析神经网络泛化特性的工具。本文将NTK扩展到语言模型,提出NTKEval方法来评估模型在不同数学数据上的训练效果。 4. 方法 NTKEval通过计算在不同技能数据集上的概率分布变化来评估LLM的学习效果。具体来说,本文利用重要性采样方法来计算不同模型在相同输入下生成正确答案的概率差异。 [...]

多模态数据集提升药物不良事件检测:语料库创建与模型开发多模态数据集提升药物不良事件检测:语料库创建与模型开发

引言 药物不良事件(Adverse Drug Events,ADEs)的挖掘在药物警戒中至关重要,通过识别与药物相关的潜在风险,提高患者安全性,促进不良事件的早期检测,并为监管决策提供指导。传统的ADE检测方法虽然可靠,但速度较慢,难以适应大规模操作,并且提供的信息有限。随着社交媒体内容、生物医学文献和电子病历(EMR)等数据源的迅猛增长,从这些非结构化文本中提取相关的ADE信息变得至关重要。 相关工作 文本数据与电子病历 传统的ADE检测多基于文本数据,如电子病历和医学案例报告。这些数据源提供了患者病历记录、治疗情况、病情和潜在风险因素的全面信息。然而,这些方法往往忽视了视觉线索,导致上下文理解不足,影响了准确的解释。 社交媒体数据集 社交媒体因其实时性和多样化的用户生成内容,在ADE检测中也发挥了越来越重要的作用。通过分析社交媒体上的用户评论,可以识别潜在的ADE。然而,这些方法也存在局限性,因为它们仅依赖于文本数据。 语料库开发 为了弥补现有方法的不足,我们创建了一个多模态药物不良事件(MultiModal Adverse Drug Event,MMADE)检测数据集,将ADE相关的文本信息与视觉辅助信息相结合。具体包括以下步骤: 数据收集 我们从社交媒体、医疗博客和医学案例报告中收集数据,确保数据的多样性与代表性。例如,从Twitter收集了大量的推文,并筛选出与ADE相关的内容。 数据注释 为了确保数据注释的准确性,我们邀请了医学专业学生和博士生参与注释工作,并制定了详细的注释手册。通过多数投票确定最终的标签,以确保注释的一致性。 数据分析 我们对收集的样本进行了分析,确定了13种显著的ADE类型,并根据其来源将其分类,形成了一个多样化的ADE数据集。 方法论 我们利用大型语言模型(Large Language Models,LLMs)和视觉语言模型(Vision Language Models,VLMs),如InstructBLIP,对MMADE数据集进行训练,生成详细的医学图像描述。这些模型在视觉问答、图像字幕生成等任务中表现优异,通过集成复杂的联合表示学习机制,能够更好地捕捉文本和视觉模态之间的复杂关系。 实验结果与分析 通过一系列实验评估,我们发现多模态模型在捕捉视觉信息和生成文本描述方面表现优越。特别是经过领域特定数据微调后的InstructBLIP模型,在各种评估指标上均表现出色,显著提升了ADE检测的准确性。 发现 结论与未来工作 [...]

探索 ReRoPE:一种崭新的位置编码方法探索 ReRoPE:一种崭新的位置编码方法

在 Transformer 模型的演进过程中,位置编码一直是关键的一环。最近,笔者引入了一种新的位置编码方法——ReRoPE (Rectified Rotary Position Embeddings),通过这种方法,可以显著提升模型在长度外推上的性能。本文将详细介绍 ReRoPE 的背景、原理、实现和实验结果。 背景与问题 在 Transformer 模型中,RoPE(旋转位置编码)是一种绝对位置编码方法,但实际上它给 Attention 带来的是相对位置信息。这种编码方式在长度外推(Length Extrapolation)上效果较差,因为超出训练长度的位置编码并没有被训练过。 研究人员提出了位置内插(Position Interpolation)来解决这个问题,通过调整相对位置矩阵,使得最大相对位置不超过训练长度。然而,这种方法虽然避免了外推,但使位置信息更加“拥挤”,仍需一定步数的微调。 后来,NTK-aware Scaled RoPE 进一步改进,通过“高频外推、低频内插”平摊外推压力,效果有所提升,但仍存在上限。 ReRoPE 的提出 笔者提出了 ReRoPE(Rectified RoPE),通过设定一个窗口大小 ( w ),在窗口内使用常规位置间隔,在窗口外使用较大的间隔,从而精确保持局域性,且所有位置编码不超过训练长度。形式上,ReRoPE [...]

Luban:通过自主具身验证构建开放式创造性代理Luban:通过自主具身验证构建开放式创造性代理

人工智能研究的终极目标之一是构建开放式代理,而创造性代理更是其中最具吸引力的一类。然而,现有的大型语言模型(LLM)代理在处理具有明确目标的长时间任务(例如在Minecraft中“挖钻石”)方面表现出色,但在面对具有开放目标和抽象标准的创造性任务时却遇到了困难。这主要是因为它们无法弥合这些任务之间的差距,因而缺乏自我改进的反馈机制。在这项研究中,我们引入了自主具身验证技术,旨在填补这一空白,为创造性任务奠定基础。具体来说,我们提出了Luban代理,专注于Minecraft中的创造性构建任务,并采用了两级自主具身验证机制,灵感来源于人类的设计实践。 Luban代理的两级自主具身验证 视觉验证 视觉验证主要针对3D结构模型进行,这些模型由代理合成的CAD建模程序生成。通过对这些3D结构的视觉检查,Luban能够自主地评估其设计的结构完整性和外观质量。 实用验证 实用验证则是通过生成和验证与环境相关的功能性程序,基于抽象标准来评估创作的实用性。这样,Luban不仅能在视觉上检查其设计,还能根据其功能性来评估创作的有效性。 实验与评价 我们进行了广泛的多维度人类研究和Elo评分,结果表明Luban在我们提出的基准上完成了多样化的创造性构建任务,并在可视化和实用性方面表现优于其他基线(提升幅度从33%到100%不等)。此外,针对真实世界机器人手臂的演示也展示了Luban在物理世界的创造潜力。 总结 Luban代理通过自主具身验证技术,成功弥补了现有LLM代理在处理创造性任务上的不足。这不仅为Minecraft中的创造性构建任务提供了一种新的解决方案,也展示了在现实世界中应用的巨大潜力。 本文基于Yuxuan Guo等人的研究工作,详细内容请参考原文链接。 Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决的问题是如何构建能够在没有明确目标和抽象标准的情况下,自主完成创造性任务的开放式智能代理(open-ended agents)。具体来说,论文中提到的现有大型语言模型(LLM)代理在处理具有明确目标的长期任务(如Minecraft中的“挖钻石”)方面表现出色,但在面对创造性任务时,由于缺乏明确的目标和反馈机制,难以进行自我改进和任务解决。 为了解决这个问题,论文提出了一种名为“自主体现验证(autonomous embodied verification)”的新技术。通过这种技术,智能代理能够验证和评估创造性任务中的高级抽象标准,并据此进行自我反思和规划,从而逐步完成开放式的创造性任务。 具体到Minecraft中的创造性建筑任务,论文提出了一个名为“鲁班(Luban)”的代理,它采用了两级自主体现验证机制,包括: 通过这种两级验证方法,鲁班代理能够成功完成多种创造性建筑任务,并在可视化和实用性方面超越其他基线方法。此外,论文还展示了鲁班在现实世界机械臂上的应用潜力,表明其在物理世界中执行开放式创造性任务的潜力。 Q: 有哪些相关研究? A: 在这篇论文中,提到了以下几类相关研究: 这些相关研究为本文提出的Luban代理提供了理论和技术背景,并帮助定义了其在创造性任务中的性能和潜在应用。 Q: 论文如何解决这个问题? A: [...]

探索超越模式匹配:解析大语言模型的数学理解探索超越模式匹配:解析大语言模型的数学理解

随着科学发现逐渐依赖于大语言模型(LLMs)的辅助,我们开始看到这一领域的突破性进展。本文由 Siyuan Guo、Aniket Didolkar、Nan Rosemary Ke、Anirudh Goyal、Ferenc Huszár 和 Bernhard Schölkopf 合著,旨在评估大语言模型在解决数学问题时所需的不同数学技能的领域知识。 引言:从模式匹配到领域理解 大语言模型在处理复杂的数学问题时,不仅需要依赖预训练阶段已掌握的知识,还需要通过上下文学习或指令调整等方式,从信息中学习。本文在此基础上,提出了一种名为 NTKEval 的评估方法,该方法借鉴了神经切线核(Neural Tangent Kernel,NTK)的概念,通过在不同类型的数学数据上训练,评估大语言模型的概率分布变化。 NTKEval 方法:评估模型的学习能力 NTKEval 方法的核心在于通过训练不同种类的数学数据,观察大语言模型的概率分布变化,从而评估其领域理解能力。具体来说,该方法分析了大语言模型在上下文学习过程中的表现,以及在指令调整过程中的表现。结果显示,在上下文学习过程中,模型表现出了一定的领域理解能力。 发现:上下文学习与指令调整的差异 通过系统分析,我们发现大语言模型在上下文学习过程中,能够展现出一定的领域理解能力。然而,在指令调整过程中,无论训练数据的种类如何,模型的性能变化都趋于一致,这表明模型在不同技能上的领域理解能力存在不足。 结论与未来展望 本文的研究揭示了大语言模型在处理数学问题时的优势和不足。尽管在上下文学习过程中,模型能够展现出一定的领域理解能力,但在指令调整过程中,模型的表现仍有待提高。未来的研究可以进一步优化大语言模型的训练方法,提升其在不同数学技能上的理解能力。 通过本文的研究,我们不仅揭示了大语言模型在科学发现过程中的潜力,也为未来的模型优化提供了重要的参考。 如果您对本文的详细内容感兴趣,请访问以下链接阅读完整版论文:Learning Beyond Pattern [...]

Neuromorphic Dreaming: 高效学习的未来路径Neuromorphic Dreaming: 高效学习的未来路径

引言 在人工智能(AI)计算平台上实现高效的能源利用是一个关键挑战。生物系统展示了在复杂技能学习中的快速且高效的能力,这为AI的研究提供了重要的灵感。因此,本文提出了一种基于模型的强化学习(Model-Based Reinforcement Learning,MBRL)方法,使用混合信号类脑(neuromorphic)硬件上的脉冲神经网络(Spiking Neural Networks,SNNs)进行实现,从而提高样本效率和能源效率。 基于模型的强化学习 混合信号神经形态硬件 混合信号神经形态硬件结合了模拟和数字信号处理的优点,能够在低功耗的情况下实现复杂的神经网络计算。本文使用的DYNAP-SE神经形态处理器架构,基于指数泄露积分发放(ExLIF)模型,实现了高效的神经元动态模拟。 “清醒-做梦”学习阶段 提出了一种”清醒-做梦”学习模式,交替进行在线学习(清醒阶段)和离线学习(做梦阶段)。在清醒阶段,代理与真实环境互动并更新其策略和世界模型;在做梦阶段,代理使用学习到的世界模型生成模拟经验,进一步细化策略。这种方法模拟了生物大脑在清醒和睡眠状态下的学习过程,提高了学习效率。 两个共生网络 模型包括两个网络:一个代理网络,通过结合真实和模拟经验进行学习;一个学习到的世界模型网络,用于生成模拟经验。这两个网络相互作用,共同提高系统的学习效率。 实验设计 为了验证所提出方法的有效性,本文在Atari游戏Pong中进行了实验。实验包括以下几个步骤: 基线代理无做梦能力 建立了一个没有做梦能力的SNN基线代理,架构包括一个输入层,一个隐藏层(由510个漏斗积分发放(LIF)神经元组成),以及一个3单元读出层。代理仅在读出层更新权重,使用基于奖励的策略梯度规则进行训练。 代理加入做梦能力 在基线代理的基础上增加了做梦能力,使用一个单独的模型网络来学习环境动态。模型网络架构与代理类似,但有3个额外的动作输入和4+1个读出单元来预测下一个状态和奖励。 时间考虑 为了优化系统性能和训练时间,研究了10毫秒、20毫秒和50毫秒的等待时间,最终选择了10毫秒的等待时间以最小化训练时间。 实验设置 实验在OpenAI Gym工具包中的Atari Pong视频游戏环境中进行,每个训练运行包括2000个游戏,每个游戏持续100帧。进行了10次独立的训练运行,以确保结果的稳健性和可靠性。 实验结果 实验结果显示,通过引入做梦能力,显著提高了样本效率,使得代理在与真实环境的交互次数减半的情况下达到更高的分数。图表展示了有无做梦能力的代理在训练过程中的平均回报以及策略熵的演变。 未来研究方向 论文提出了多个未来研究方向,包括: 结论 [...]

利用大型语言模型提升客户支持服务的创新方法利用大型语言模型提升客户支持服务的创新方法

作者:Dean Wyatte, Fatemeh Tahmasbi, Ming Li, Thomas Markovich 大型语言模型(Large Language Models,LLMs)在生成多样化查询的合理答案方面表现出色,代表了机器学习模型的一次重大飞跃。然而,这些模型在客户支持应用中也面临着一系列挑战,例如容易产生幻觉(hallucination)和数据泄露风险。本文将探讨如何通过将语言建模任务重新定义为判别性分类任务,来利用LLMs增强客户支持服务。 问题背景与研究目标 尽管LLMs在生成多样化查询的合理答案方面表现出色,但它们的短期应用在客户支持中面临挑战。幻觉答案和数据泄露风险使得它们的直接应用受到限制。为了解决这些问题,本文提出了一种系统,将语言建模任务重新定义为判别性分类任务,帮助客服代表选择最佳的模板回复。 方法论:两阶段训练流程 为了有效利用LLMs来增强客户支持服务,本文提出了一个两阶段训练流程: 领域适应性预训练(Domain Adaptive Pre-training) 首先,使用预训练的LLM,并在目标领域的数据上继续预训练。本文使用了Cash App客户支持记录的数据进行预训练,这有助于模型学习特定领域的语言和上下文。 判别性微调(Discriminative Fine-tuning) 在领域适应的基础上,添加一个新的线性层,并在标记了客服代表模板回复选择的较小数据集上进行端到端的微调,以产生最终的分类器。 数据集准备与模型选择 数据集准备 本文使用Cash App客户支持记录构建数据集,并进行了处理以去除个人识别信息(PII),确保数据安全和隐私。 模型选择 选用了基于GPTNeoX架构的Pythia系列LLMs,这些模型在预训练阶段已经学习了大量的通用网络数据。 实验设计与结果 [...]

重温SSM(一):线性系统和HiPPO矩阵重温SSM(一):线性系统和HiPPO矩阵

引言 前几天,我看了几篇介绍SSM(State Space Model)的文章,才发现自己从未认真了解过SSM,于是决定深入学习相关内容,并记录下我的学习所得。SSM的概念由来已久,但我们这里特指的是深度学习中的SSM。一般认为它的开篇之作是2021年的S4,而SSM最新的变体大概是去年的Mamba。 SSM的背景与发展 SSM在深度学习中的应用起源于S4,但在S4之前有一篇重要的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》(简称HiPPO)。本文将从HiPPO开始,深入探讨其基本形式、数学推导及其在SSM中的应用。 基本形式 对于已经对SSM有所了解的读者,可能知道SSM建模所用的是线性ODE系统:[\begin{aligned}x'(t) =&\, A x(t) + B u(t) \y(t) =&\, C x(t) + D u(t)\end{aligned}]其中 (u(t) \in \mathbb{R}^{d_i}, [...]

深入解读 DeepSeek-V2 语言模型中的多头潜在注意力机制 (MLA)深入解读 DeepSeek-V2 语言模型中的多头潜在注意力机制 (MLA)

在最新的 DeepSeek-V2 语言模型中,多头潜在注意力机制 (Multi-head Latent Attention, MLA) 作为一种创新架构,被设计用来保证高效的推理过程。本文将详细介绍 MLA 的关键特性及其在 DeepSeek-V2 中的应用和优势。 高效的推理过程 MLA 通过将 Key-Value (KV) 缓存压缩到一个潜在向量中,显著减少了推理过程中所需的内存和计算资源。这种压缩大大降低了内存占用和计算需求,从而实现更快、更高效的处理 [1]。 Key-Value (KV) 缓存压缩 在注意力机制中,KV 缓存是一个重要组件,负责存储输入序列中不同 token 之间的关系信息。MLA 将这个缓存压缩成一个潜在向量,显著减小其大小和内存占用 [1]。 稀疏计算 MLA [...]