Day: June 21, 2024

思维白板:跨模态逐步思考思维白板:跨模态逐步思考

引言 “哪个小写字母是一个圆圈,右边有一个垂直的线段从圆圈上往下延伸?”这个问题看似简单,但你可能已经通过在脑海中形成一个图像来解答了。你首先想象一个圆圈,然后在圆圈的右边添加一条垂直的线段,最终识别出字母“q”。如果需要记住更多信息,你可能会使用笔和纸,但思考过程仍然类似。 人类擅长这种视觉思考。我们能够轻松地将文字和图像中的推理交织在一起,以解决问题和交流想法(Tversky,2011)。我们不仅在直接的视觉推理中形成图像,而且在空间导航时绘制地图(Card 等人,1999),甚至处理抽象概念(Bobek 和 Tversky,2016)。 大型语言模型(LLMs)已经彻底改变了自然语言处理领域(Brown 等人,2020;Vaswani 等人,2017),它们通过扩展参数数量和训练数据,在各种推理任务中展现出强大的能力。链式思考(CoT)提示(Wei 等人,2022;Kojima 等人,2023)允许语言模型通过在生成最终答案之前以文本形式写出中间步骤来解决复杂问题,并在算术和符号推理等任务中展现出巨大潜力。因此,自然地,我们会问:LLMs 能否解决我们人类通过视觉思考解决的任务? 我们发现,对于某些涉及视觉和空间推理的任务,即使是最先进的LLMs 也会出现显著的失败。在图1中,我们看到GPT-4o(OpenAI 等人,2023)声称我们之前问题的答案实际上是“b”;它没有进行正确的隐式视觉推理,关于左、右、上、下的方向,以得出正确的答案。“b”被观察到是确定性地采样的;在使用温度的情况下,它会在“b”、“p”、“d”和“q”之间随机选择,也就是说,这些字母具有正确的特征,但排列方式不同。它提到了“碗”和“茎”来缩小可能的选项,然后未能进行空间推理来确定所描述的方向意味着什么。一个人不需要具备排版方面的专业知识来回答这个问题;任何能够创建正确图像并具备基本视觉识别能力的人都能轻松解决它。这突出了两种推理过程之间的显著差异。 思维白板:跨模态逐步思考 我们的关键想法是,视觉推理任务需要视觉。我们利用多模态大型语言模型(MLLMs)的能力,这些模型不仅接受文本输入,还接受图像等其他模态的输入,从而实现这一点。我们证明,为MLLMs 提供创建和推理显式视觉的能力——就像一个展示中间思想的白板——可以解锁类似于视觉思考的能力。 因此,我们引入了“思维白板(WoT)”:我们为MLLMs 提供一个隐喻性的“白板”,让它们将中间推理步骤的结果绘制为图像,然后提示它们使用它们的多模态输入能力来生成答案或从模型自身生成的图像中进行进一步推理。我们发现,利用模型现有的能力,通过使用Turtle 和 Matplotlib 等图形库来编写代码,足以创建对解决视觉推理任务有用的图像,而无需任何示例。 我们在三个涉及理解ASCII 艺术的BIG-Bench(Srivastava 等人,2022)任务上展示了这种想法的潜力,以及一个最近的困难基准,它探测了空间推理能力(Yamada 等人,2024),证明了WoT 和 CoT 之间的巨大性能差距。我们进一步分析了哪些类型的问题更适合在视觉标记而不是文本标记上进行推理。最后,我们确定了MLLM [...]

合并模型,安全至上:一个“坏”模型毁掉整个模型池合并模型,安全至上:一个“坏”模型毁掉整个模型池

大型语言模型(LLMs)在语言处理任务中展现出惊人的能力,甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能,研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如,OpenBioLLM在生物医学领域表现出色,而MAmmoTH在STEM科目(科学、技术、工程和数学)中表现良好。 然而,由于专家模型可能只擅长特定领域,因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如,将一个擅长化学的模型与另一个擅长数学的模型合并,可以创建一个在两个科目中都表现良好的统一模型,通常比单个专家模型表现更好。这种方法特别具有吸引力,因为它允许利用来自众多开源模型的知识,而无需承担高昂的训练成本。 然而,一个关键问题被忽视了:模型合并会如何影响现有LLMs的安全对齐? 安全对齐是指模型生成响应的能力,这些响应是安全的、符合道德标准的,并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐,可能会给用户带来不安全的内容。例如,一个合并了多个专家模型的模型,如果其中一个专家模型存在安全问题,那么合并后的模型也可能继承了这个安全问题,即使其他专家模型是安全的。 本文探讨了模型合并对对齐的影响,并提出了一种安全意识的模型合并方法,以确保合并后的模型既保持了领域专业知识,也具有高安全对齐性。 现有模型合并技术的局限性 现有的模型合并技术通常忽略了安全对齐的重要性,导致合并后的模型可能出现严重的对齐问题。论文通过实验表明,现有的模型合并技术不仅会传递领域专业知识,还可能传播对齐问题。例如,如果将一个未对齐的模型与其他对齐的模型合并,合并后的模型也可能变得未对齐,即使其他专家模型是安全的。 安全意识模型合并方法 为了解决这个问题,论文提出了一个简单的两步方法来合并专家模型,同时保持对齐性。这个过程包括生成合成的安全和领域特定数据,并将这些数据整合到现有数据感知模型合并技术的优化过程中。 1. 生成合成数据 论文首先生成两组数据集: 2. 数据驱动合并优化 论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中,例如 EvoMM 和 LM-Cocktail,以优化任务权重,最大化合并模型在对齐性和领域性能上的表现。通过这种方式,合并模型在处理 Dexpert 和 Dsafety 时,能够保持高对齐性和领域专业知识。 实验结果 论文通过一系列实验验证了其方法的有效性。实验结果表明,论文提出的安全意识合并方法在不牺牲领域准确性的情况下,能够显著提高合并模型的安全对齐性。 论文还进行了消融实验来评估不同因素(如损失组合因子、数据来源、样本数量和优化步骤)对合并性能的影响。实验结果表明,论文提出的方法对这些因素的变化具有较强的鲁棒性。 未来研究方向 [...]

合并模型,安全至上:一个“坏”模型毁掉整个模型池合并模型,安全至上:一个“坏”模型毁掉整个模型池

大型语言模型(LLMs)在语言处理任务中展现出惊人的能力,甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能,研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如,OpenBioLLM在生物医学领域表现出色,而MAmmoTH在STEM科目(科学、技术、工程和数学)中表现良好。 然而,由于专家模型可能只擅长特定领域,因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如,将一个擅长化学的模型与另一个擅长数学的模型合并,可以创建一个在两个科目中都表现良好的统一模型,通常比单个专家模型表现更好。这种方法特别具有吸引力,因为它允许利用来自众多开源模型的知识,而无需承担高昂的训练成本。 然而,一个关键问题被忽视了:模型合并会如何影响现有LLMs的安全对齐? 安全对齐是指模型生成响应的能力,这些响应是安全的、符合道德标准的,并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐,可能会给用户带来不安全的内容。例如,一个合并了多个专家模型的模型,如果其中一个专家模型存在安全问题,那么合并后的模型也可能继承了这个安全问题,即使其他专家模型是安全的。 本文探讨了模型合并对对齐的影响,并提出了一种安全意识的模型合并方法,以确保合并后的模型既保持了领域专业知识,也具有高安全对齐性。 现有模型合并技术的局限性 现有的模型合并技术通常忽略了安全对齐的重要性,导致合并后的模型可能出现严重的对齐问题。论文通过实验表明,现有的模型合并技术不仅会传递领域专业知识,还可能传播对齐问题。例如,如果将一个未对齐的模型与其他对齐的模型合并,合并后的模型也可能变得未对齐,即使其他专家模型是安全的。 安全意识模型合并方法 为了解决这个问题,论文提出了一个简单的两步方法来合并专家模型,同时保持对齐性。这个过程包括生成合成的安全和领域特定数据,并将这些数据整合到现有数据感知模型合并技术的优化过程中。 1. 生成合成数据 论文首先生成两组数据集: 2. 数据驱动合并优化 论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中,例如 EvoMM 和 LM-Cocktail,以优化任务权重,最大化合并模型在对齐性和领域性能上的表现。通过这种方式,合并模型在处理 Dexpert 和 Dsafety 时,能够保持高对齐性和领域专业知识。 实验结果 论文通过一系列实验验证了其方法的有效性。实验结果表明,论文提出的安全意识合并方法在不牺牲领域准确性的情况下,能够显著提高合并模型的安全对齐性。 论文还进行了消融实验来评估不同因素(如损失组合因子、数据来源、样本数量和优化步骤)对合并性能的影响。实验结果表明,论文提出的方法对这些因素的变化具有较强的鲁棒性。 未来研究方向 [...]

MetaGPT:将人类工作流程融入多智能体协作框架的元编程MetaGPT:将人类工作流程融入多智能体协作框架的元编程

近年来,基于大型语言模型(LLMs)的智能体社会在自动问题解决方面取得了显著进展。现有的LLM驱动的多智能体系统已经能够解决简单的对话任务,但对于更复杂的任务,由于LLMs链式联接导致的级联幻觉,逻辑不一致问题会变得更加复杂。 本文介绍了MetaGPT,这是一种创新的元编程框架,它将高效的人类工作流程融入LLM驱动的多智能体协作中。MetaGPT将标准操作程序(SOPs)编码成提示序列,以实现更简化的工作流程,从而使具有类似人类领域专业知识的智能体能够验证中间结果并减少错误。MetaGPT利用流水线模式为不同的智能体分配不同的角色,将复杂的任务有效地分解成多个智能体协同完成的子任务。在协作软件工程基准测试中,MetaGPT生成的解决方案比之前的基于聊天的多智能体系统更加连贯。 LLM驱动的多智能体系统的局限性 现有的LLM驱动的多智能体系统(Park et al., 2023; Zhuge et al., 2023; Cai et al., 2023; Wang et al., 2023c; Li et al., 2023; Du et al., 2023; Liang et al., [...]

重温被Mamba带火的SSM:线性系统和HiPPO矩阵重温被Mamba带火的SSM:线性系统和HiPPO矩阵

近年来,深度学习领域涌现出许多新的模型架构,其中状态空间模型(SSM,State Space Model)因其优雅的数学性质和强大的表达能力,逐渐成为Transformer的强劲对手。而Mamba,作为SSM最新的变体,更是凭借其在长序列建模上的优异表现,吸引了众多研究者的关注。 本文将带您深入了解SSM的核心概念,并重温其重要奠基之作——HiPPO(High-order Polynomial Projection Operators)。通过HiPPO的推导,您可以理解线性系统在SSM中的重要性,以及它如何通过有限维的向量来储存无限维的函数信息。 线性系统:简单而强大的表达能力 SSM的核心思想是利用线性微分方程(ODE)系统来建模序列数据。一个典型的线性 ODE 系统可以表示为: $$\frac{dh}{dt} = Ah + Bu$$ 其中,$h$ 代表系统的状态,$u$ 代表输入,$A$ 和 $B$ 是模型参数。 那么,为什么SSM会选择线性系统呢?答案是:线性系统既足够简单,也足够复杂。 简单是指,线性化通常是复杂系统的一个最基本近似。而复杂是指,即使是如此简单的系统,也可以拟合异常复杂的函数。例如,一个简单的线性系统: $$\frac{dh}{dt} = h$$ 其解为 $h(t) = [...]

重温被Mamba带火的SSM:线性系统和HiPPO矩阵重温被Mamba带火的SSM:线性系统和HiPPO矩阵

作者:苏剑林单位:科学空间研究方向:NLP、神经网络 前几天,笔者看了几篇介绍 SSM(State Space Model)的文章,才发现自己从未认真了解过 SSM,于是决定深入学习这一领域,并记录下学习所得。SSM 的概念由来已久,但这里我们特别指深度学习中的 SSM。可以说,2021年的 S4(Structured State Space for Sequence Modeling)是 SSM 的开篇之作,而最近最火的变体大概是去年的 Mamba。 SSM 的基础与发展 SSM 的概念并不新鲜,但其在深度学习领域的应用却是近几年的事。当我们谈到 SSM 时,通常指的是一切线性 RNN 模型,如 RWKV、RetNet 以及 Google 推出的 LRU [...]

HiPPO矩阵:打开序列模型记忆宝库的金钥匙HiPPO矩阵:打开序列模型记忆宝库的金钥匙

在人工智能领域,如何让机器像人一样拥有记忆,一直是科学家们孜孜以求的目标。近年来,序列模型(SSM)的兴起为解决这一难题带来了新的曙光。而在众多SSM模型中,HiPPO矩阵犹如一把金钥匙,打开了序列模型记忆宝库的大门,为我们理解和应用SSM模型提供了全新的视角。 在线函数逼近:序列模型的记忆挑战 许多机器学习任务都需要处理不断涌现的序列数据,例如实时预测时间序列、让智能体在环境中学习和决策等等。这些任务的核心挑战在于如何有效地存储和利用历史信息,即序列模型的“记忆”问题。 传统的机器学习模型往往受限于固定的上下文窗口或启发式机制,难以有效地捕捉长期依赖关系。例如,注意力机制的上下文窗口大小是固定的,而循环神经网络(RNN)则容易出现梯度消失问题,导致模型难以记住很久以前的信息。 HiPPO框架:从数学角度解决记忆问题 为了解决序列模型的记忆问题,HiPPO框架应运而生。HiPPO的全称是“高阶多项式投影算子(High-order Polynomial Projection Operators)”,它从数学角度出发,将序列模型的记忆问题转化为一个在线函数逼近问题。 HiPPO框架的核心思想是:用一个有限维的向量来表示一个连续函数的历史信息。这听起来似乎是一个不可能完成的任务,因为连续函数包含无限多的信息。然而,HiPPO框架巧妙地利用了正交函数基展开的思想,将连续函数投影到一个有限维的子空间中,从而实现了信息的压缩和存储。 具体来说,HiPPO框架选择勒让德多项式作为函数基,并根据不同的“记忆假设”,推导出了不同类型的HiPPO矩阵。这些矩阵可以看作是不同类型的“记忆过滤器”,它们决定了模型应该记住哪些历史信息,以及如何记住这些信息。 两种典型的HiPPO矩阵:LegT和LegS HiPPO框架中最具代表性的两种HiPPO矩阵是LegT(Translated Legendre)和LegS(Scaled Legendre)。 HiPPO矩阵的意义和应用 HiPPO矩阵的提出,为我们理解和应用SSM模型提供了以下重要意义: 总结 HiPPO矩阵是SSM模型发展历程中的一个重要里程碑。它不仅为我们提供了一种高效的记忆机制,更重要的是,它为我们理解和应用SSM模型打开了一扇全新的大门。相信随着研究的深入,HiPPO矩阵将在序列模型的未来发展中发挥更加重要的作用。 参考文献 [...]

超越单一评分:RichHF-18K数据集和RAHF模型如何用“丰富反馈”提升AI图像生成?超越单一评分:RichHF-18K数据集和RAHF模型如何用“丰富反馈”提升AI图像生成?

近年来,Stable Diffusion、Imagen等文生图(T2I)模型在生成高分辨率图像方面取得了显著进步,但生成的图像仍存在不少问题,如图像失真、与文本描述不符、美观度不足等。为了解决这些问题,谷歌和多所高校的研究人员共同创建了包含“丰富反馈”的RichHF-18K数据集,并提出了一种名为RAHF的多模态Transformer模型,旨在更全面、精准地评估和提升AI图像生成质量。 RichHF-18K:不止于评分的“丰富反馈” 现有的图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息。而RichHF-18K数据集则包含了更为丰富的反馈维度,具体包括: RAHF模型:学习“丰富反馈”,预测图像质量 RAHF模型的架构基于ViT和T5X模型,并结合了自注意力机制,能够有效融合图像和文本信息。该模型可以预测图像的失真/不一致区域、不一致关键词以及四个细粒度评分,从而更全面地评估图像生成质量。 RAHF模型的应用:提升AI图像生成质量 RAHF模型预测的“丰富反馈”信息可以用于提升AI图像生成质量,例如: 总结与展望:迈向更智能的AI图像生成 RichHF-18K数据集和RAHF模型的提出,为AI图像生成领域带来了全新的思路和方法。通过引入“丰富反馈”机制,可以更有效地评估和提升AI图像生成质量,推动AI图像生成技术走向更高的智能化水平。 当然,这项研究也存在一些局限性,例如: 未来,研究人员将继续探索如何利用“丰富反馈”机制,开发更先进的AI图像生成技术,为用户带来更优质的图像生成体验。 参考文献: CVPR最佳论文解读:RAHF模型如何利用“丰富人类反馈”提升AI图像生成? 这篇来自加州大学圣地亚哥分校、谷歌研究院等机构的CVPR最佳论文《Rich Human Feedback for Text-to-Image Generation》聚焦于如何利用更丰富的用户反馈来提升AI图像生成技术的质量。 直击痛点:现有评估方法存在不足 论文指出,现有的AI图像生成评估方法大多依赖单一评分或排序,缺乏细粒度的反馈信息,难以有效指导模型改进。例如,仅仅告诉模型一张图片“好”或“不好”,并不能让模型真正理解问题所在,更无法针对性地进行优化。 RAHF模型:捕捉“丰富人类反馈” 为了解决这一问题,研究团队提出了一种名为RAHF(Rich Automatic Human Feedback)的多模态Transformer模型。该模型能够捕捉更丰富的人类反馈信息,包括: 实验结果:RAHF模型提升图像生成质量 实验结果表明,RAHF模型能够有效预测用户的“丰富反馈”,并将其用于提升AI图像生成质量。例如: 总结:迈向更智能的AI图像生成 [...]

IPv4地址的“隐藏宝藏”:E类空间能否拯救互联网?IPv4地址的“隐藏宝藏”:E类空间能否拯救互联网?

自从IPv4地址枯竭以来,获取或租赁IPv4地址块的成本一路飙升。对于许多网络公司来说,这无疑是一场灾难,曾经为每个用户分配一个甚至多个IPv4地址的模式已难以为继。然而,鲜为人知的是,IPv4地址空间中还隐藏着一块巨大的“宝藏”——E类空间,它能否成为解决IPv4地址短缺的“救星”呢? 被遗忘的角落:E类空间的由来 E类空间位于IPv4地址空间的末尾(240.0.0.0~255.255.255.254),早在1989年就被定义,但一直被忽视。实际上,除了E类空间,IPv4地址空间中还存在着其他一些“浪费”的地址块,例如0.0.0.0/8和127.0.0.0/8。这些地址块当初的分配标准如今看来过于宽泛,如果能够重新利用,将能极大缓解IPv4地址短缺的现状。 现实与理想的博弈:E类空间的局限性 尽管E类空间拥有巨大的潜力,但将其重新用于单播空间面临着诸多挑战。首先,现有的设备和终端软件对E类地址的兼容性问题难以解决,全球范围内的升级行动几乎不可能实现。其次,E类空间的启用需要IANA和IETF制定新的政策,这将是一场旷日持久的斗争。 柳暗花明:E类空间的另类用途 尽管E类空间难以成为全球可路由的地址空间,但它在本地网络和网络基础设施中却能发挥重要作用。例如,AWS、一些家庭和中小型企业以及Canonical的“扇”网络都在使用E类空间。此外,Cloudflare还提供了一种将IPv6地址散列到E类地址中的选项,为不支持IPv6地址的系统提供了一种访问IPv6的方式。 供应商的支持:E类空间应用的关键 E类空间的应用离不开设备的支持。目前,Linux、Android、MacOS/OSX等操作系统已经支持E类地址,但Windows、NetBSD/FreeBSD等系统尚未提供支持。网络设备方面,一些路由器供应商支持直接设置E类地址,而另一些则需要特殊配置,还有一些则完全不支持。 路由协议的挑战:OSPF的意外情况 在使用E类地址时,动态路由协议的兼容性也是一个需要关注的问题。例如,在使用OSPF协议时,如果路径中的某些设备不支持E类地址,可能会导致流量丢失。 真实测试:E类空间的接受程度 为了测试E类空间在真实环境中的可行性,Quantcom公司进行了一次E类空间的网络扫描实验。结果显示,只有大约50%的RIPE Atlas探针能够访问E类地址,这表明E类空间的接受程度还很低。 结论:E类空间的未来 总的来说,E类空间虽然拥有巨大的潜力,但由于兼容性、政策、部署等方面的挑战,它难以成为解决IPv4地址短缺的最终方案。然而,在本地网络和网络基础设施中,E类空间可以作为一种有效的地址补充方案。 参考文献: [...]

哄AI像哄小孩?一句“咒语”让GPT-3准确率暴涨61%!哄AI像哄小孩?一句“咒语”让GPT-3准确率暴涨61%!

最近,机器学习界出现了一项令人震惊的研究成果:仅仅对GPT-3说一句“让我们一步一步地思考”,就能让它解开之前无法解答的难题,准确率瞬间提高61%!这感觉就像幼儿园阿姨哄小朋友一样神奇,难道哄AI也要像哄小孩? “一步一步思考”:神奇咒语背后的秘密 这项由谷歌大脑和东京大学合作的研究发现,简单的提示词可以显著提高GPT-3在零样本学习场景下的推理能力。研究人员将这种方法称为“思维链路提示”(CoT),其核心是通过引导语言模型逐步思考,最终得出正确答案。例如,面对“16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?”这个问题,直接询问GPT-3会得到错误答案“8”。但如果在提问时加上“让我们一步一步地思考”,GPT-3就会先列出解题步骤,最终给出正确答案“4”。 CoT并非万能药:效果受模型版本、问题类型影响 研究人员对CoT的效果进行了广泛的测试,结果表明,CoT在大多数情况下都能显著提高GPT-3的准确率,尤其是在数学和常识推理方面。然而,CoT并非万能药,其效果会受到GPT-3版本、问题类型等因素的影响。例如,CoT对GPT-3最新版本Text-davinci-002的效果最佳,对旧版本的提升效果则相对有限。 从“特征工程”到“提示工程”:AI研究的新方向? CoT的成功引发了人们对“提示工程”的关注。一些学者认为,“提示工程”正在取代传统的“特征工程”,成为AI研究的新方向。通过设计巧妙的提示词,可以引导AI更好地理解人类意图,从而提高其性能。未来,”提示词猎人”会不会成为NLP研究者的新头衔? 结语:哄AI,更需理解AI 尽管“哄AI像哄小孩”的说法很有趣,但我们不能忽视对AI本身的理解。CoT的成功表明,通过引导AI模拟人类的思维方式,可以有效提高其推理能力。未来,如何设计更有效的提示词,如何将CoT应用于更广泛的领域,将是AI研究的重要课题。 参考文献: [...]