平衡低成本目标编辑和灾难性遗忘

大家好,今天,我们要一起探讨的是 Microsoft Research 最近的一篇研究:大型语言模型的终身模型编辑。这篇文章讲述了如何在保持低成本的同时,进行有效的模型修正,避免模型出现灾难性的遗忘。让我们一起深入了解一下。🧐 🎯 问题的根源 首先,我们来看看为什么需要对大型语言模型(LLMs)进行修正。LLMs在许多复杂任务中有着广泛的应用,但它们有时会出现不可预测的错误,或者传播偏见语言。这些错误往往随着底层数据或用户行为的变化而产生。这就需要对这些模型和它们支持的实际应用进行有针对性的、成本有效的修复。 我们可能会想到使用重复预训练或微调来实现这些修复。然而,这些解决方案通常在计算上过于昂贵。例如,LLAMA 1的训练需要在2048个A100 GPU上进行21天,其成本超过240万美元。LLMs的微调需要比许多研究实验室能够持续并负担得起的GPU更大。此外,我们甚至还不清楚应该向数据语料库添加或删除哪些数据,以便在不影响无关输入的情况下纠正特定行为。 📝 模型编辑的提出 为了在不进行昂贵训练的情况下保持LLMs的更新,人们最近提出了模型编辑作为对大模型进行有针对性更新的范例。大多数模型编辑器一次更新一个模型,注入一批修正。但错误通常会随时间序列性地被发现,并且必须快速纠正。换句话说,当模型被部署时,必须进行终身模型编辑,即遇到一个流的错误并必须立即对其进行处理。这需要进行许多连续的编辑,在这种设置下,现有的编辑器已知会失败。成功在这里意味着按序纠正所有的编辑,而不遗忘旧的修复,也不会降低对无关输入的性能。 那么,什么是编辑呢?在一篇题为《带有离散键值适配器的GRACE终身模型编辑》的文章中,作者考虑了三种类型的编辑: 🧪 终身模型编辑的挑战与解决方案 我们已经知道,错误往往会随时间序列性地被发现,并且必须快速纠正。这就需要进行许多连续的编辑,这是一项挑战。在这种情况下,现有的编辑器已知会失败。它们可能会遗忘旧的修复,或者对无关输入的性能产生影响。 为了解决这个问题,研究者们提出了一种名为GRACE的新型模型编辑方法。这个方法采用了离散的键值适配器,能够处理连续的编辑。它能够在不遗忘旧的修复,也不会降低对无关输入的性能的情况下,按序纠正所有的编辑。 这种方法的关键在于,它不直接更改模型的参数,而是在模型上添加一个小型的键值存储。每次编辑时,该方法都会将编辑的“键”和“值”添加到存储中。然后,在模型进行预测时,该方法会检查存储中是否存在与当前输入匹配的键。如果存在,模型就会使用存储中的值来修改其预测。 这种方法的优势是,它能够在处理新的编辑时,保留对旧编辑的记忆,从而避免了灾难性的遗忘。此外,由于键值存储的规模远小于模型本身,因此,这种方法的计算和存储成本也相对较低。 总结一下,大型语言模型的终身模型编辑是一个非常重要且具有挑战性的问题。这在保持模型更新,提高预测准确性,同时也降低了训练和维护的成本。通过微调、模型编辑等方法,我们可以使模型更加适应变化的世界,并为我们提供更准确、更贴近现实的预测。希望你们能从这次的讲解中有所收获,下次课我们再见!👋🏻

大语言模型的加速之道:思维骨架(Skeleton-of-Thought)

大家好,欢迎收听我们的人工智能播客,我是你的主播,也是资深的人工智能专家。今天我们要聊的话题是:如何通过一种全新的方式——思维骨架(Skeleton-of-Thought,简称SoT),来加速大语言模型(LLM)的输出,并提高其结果质量。🚀 💡大语言模型的痛点 LLM,例如LLaMA和OpenAI的GPT-4,正在改变我们的技术领域。然而,对LLM的一个普遍抱怨是它们的运行速度。在许多情况下,从LLM获取答案需要很长时间,这限制了LLM在诸如聊天机器人、协同助手和工业控制器等延迟关键功能中的应用。⏱️ 🚀思维骨架的提出 为了解决这一问题,微软研究院和清华大学的研究者提出了一种新的加速LLM生成的方法——思维骨架(SoT)。不同于大多数先前需要对LLM模型、系统或硬件进行修改的方法,SoT将LLM视为黑箱,因此可以应用于任何现成的开源(如LLaMA)或API基础(如OpenAI的GPT-4)模型中。🎁 🚗SoT如何加速? SoT的想法源于LLM和人类处理信息的方式的区别。LLM按顺序生成答案,而人类在很多情况下,会先提炼出答案的骨架,然后添加细节来解释每一点。SoT就是按照这种人类的思维方式,将生成过程分为两个阶段:首先,SoT让LLM生成答案的骨架,然后再让LLM给出骨架中每一点的答案。🔍 这种方法提供了一个新的加速机会,因为第二阶段的每一点的答案都可以并行生成,无论是本地模型(如LLaMA)还是API基础模型(如OpenAI的GPT-4)。对于API基础模型,我们可以对每一点发出并行的API请求。对于本地运行的模型,我们可以在一个批次中同时回答所有的点。💼 ⚖️SoT的效果如何? 我们在包括九个开源模型和三个API基础模型在内的12个最近发布的模型上测试了SoT。我们使用的是Vicuna-80数据集,该数据集包含80个问题,涵盖了编程、数学、写作、角色扮演等九个类别。 结果显示,SoT在所有模型上都提供了显著的速度提升。特别是,SoT在12个模型中的8个模型上获得了超过2倍(最高达到2.39倍)的速度提升。此外,SoT在不明显降低答案质量的情况下实现了这种速度的提升。💪 🌈SoT的未来 SoT通过独立并行地扩展点,因此并不适合需要逐步推理的问题,比如数学和编程。为此,我们提出了一种SoT的扩展,叫做SoT with Router(SoT-R),它可以在适合的时候自适应地触发SoT。我们提出了一个路由器模型,该模型可以基于问题和答案的骨架,预测何时应使用SoT。实验显示,SoT-R在数学和编程问题上的性能超过了原始的SoT,并在所有测试集上达到了最好的性能。🎯 对于未来,我们期待通过进一步的研究和开发,将SoT的应用范围扩大到处理更复杂的问题,同时继续提高其生成速度和答案质量。我们相信,随着技术的不断发展,大语言模型将在我们的日常生活中扮演越来越重要的角色,为我们提供更加智能、快速和准确的服务。✨ 在此,我要提醒大家,SoT的代码和演示已经在Github上开源,欢迎感兴趣的朋友们去查阅和使用。🌐 以上就是今天播客的全部内容,希望大家对SoT有了更深入的理解。如果你有任何问题或者想法,欢迎在评论区留言。我们下期再见,祝大家每天都有新的收获!👋

Orca 2:推理技巧赋能小型语言模型,性能超越5-10倍大模型

大家好,今天,我将为大家介绍一篇关于Orca 2的文章。Orca 2是一种小型语言模型,它通过学习一系列推理技巧,在推理能力上超越了5-10倍的大模型。 背景 大型语言模型(LLMs)正在改变人与机器之间的交互方式,并提升了许多现有应用的用户体验,如编码、网络搜索、聊天机器人、客户服务和内容创作等。这种由LLMs带来的转变也为新型人工智能应用铺平了道路。随着LLMs规模的不断扩大,例如GPT-4和PaLM-2等,它们展现出了前所未有的能力,尤其是在零-shot推理方面,包括回答复杂问题、生成解释和解决多步问题。即使在专业领域,LLMs现在也能在美国医学执照考试等测试中取得合格分数。这些能力曾经被认为是人工智能无法达到的范畴。 问题 然而,现有对于小型语言模型的训练往往依赖于模仿学习,即复制更大、更强大的模型的输出。尽管这些模型可以生成与其“老师”风格相似的内容,但它们在推理和理解能力上往往表现不足。模仿学习可能会限制较小模型的潜力,限制它们根据问题和模型容量来利用最佳解决策略。 主要贡献及解决思路 Orca 2的目标有两个: 一是教导较小模型如何使用一系列推理技巧,例如逐步处理、回忆再生成、回忆-推理-生成、抽取-生成和直接回答方法;二是帮助这些模型确定何时使用最有效的推理策略,让它们能够在任务中表现最佳,不受模型大小的限制。 与Orca 1不同,Orca 2精心设计推理策略以适应特定任务,考虑到学生模型是否具备相同的行为。更强大的LLM被设计为呈现引发特定战略行为的复杂提示,从而产生更精确的结果。在训练阶段,较小模型仅暴露于任务和结果行为,而不知道触发这种行为的原始提示,这种“提示擦除”技术使Orca 2成为一种“谨慎的推理者”。 达到的具体效果 与以往侧重于小型模型评估的研究不同,作者们提供了包含约100个任务和超过36,000个独特提示的15个综合性基准测试来评估Orca 2。初步结果显示(figure 1),Orca 2明显超越了相似规模的模型,甚至在需要推理的任务上与5到10倍大的模型相匹敌甚至超越,突显了赋予较小模型更好推理能力的潜力。 文章推荐 文章名称:Orca 2-Teaching Small Language Models How to Reason 文章链接:https://arxiv.org/pdf/2311.11045.pdf github链接: 结语 以上就是我对Orca 2这篇文章的解读。希望对大家有所帮助。

如何教小型语言模型进行推理

大家好,欢迎收听本期播客节目!我是你们的主持人,今天我将和大家一起探讨一个重要的话题:如何教小型语言模型进行推理。推理能力对于语言模型来说非常关键,它能够帮助模型理解并生成连贯且上下文相关的回答。近年来,有许多研究和方法致力于提高语言模型的推理能力,甚至包括参数较小的模型。 1. 连贯性思维引导 一种在提高大型语言模型推理能力方面取得显著成果的方法是使用连贯性思维引导。这种方法通过给模型提供一系列提示或问题来引导其思维过程,鼓励其逐步推理。通过使用连贯性思维引导训练语言模型,研究人员在各种推理任务上取得了最先进的结果。 2. 知识蒸馏 为了将大型语言模型的推理能力传递给较小的模型,研究人员进行了知识蒸馏的探索。在这种方法中,通过较大的“教师”模型生成的连贯性思维输出来训练较小的“学生”模型。教师模型的连贯性思维输出为学生模型提供了宝贵的知识源,使其能够学习和提高其推理能力。 3. 实验结果 对算术、常识和符号推理数据集进行的实验证明了知识蒸馏方法对较小语言模型的任务性能的改进[1]。例如,当在一个名为PaLM-540B生成的连贯性思维的基础上进行微调时,T5 XXL模型在GSM8K数据集上的准确率从8.11%提高到了21.99%。 来源: 了解更多:

AI新星Orca 2——如何让小型语言模型变得更“聪明”

大家好,欢迎收听今天的播客,我是你们的主持人。在这个科技日新月异的时代,我们的生活被越来越多的人工智能(AI)技术改变。今天,我们要带大家深入了解一种被称为Orca 2的新型AI技术。 🚀Orca 2:推理技巧赋能小型语言模型 一起想象一下,如果我们的手机、电脑、甚至是家用电器,都能像人类一样进行推理、解答问题,那会是怎样的情景呢?这并非遥不可及,因为微软研究团队已经让这个梦想变为现实。他们开发出了一种名为Orca 2的新型人工智能技术,这个技术是如何做到的呢? 大型语言模型,比如我们所熟知的GPT-4,已经在很多方面展示出了强大的能力,比如回答复杂问题、生成解释和解决多步问题。然而,这些模型的规模通常很大,需要大量的计算资源,这在一定程度上限制了它们的应用。而Orca 2的出现,改变了这一局面。 Orca 2的目标很明确,就是教导小型模型如何使用一系列的推理技巧,让它们能够在任务中表现最佳,不受模型大小的限制。比如,它会逐步处理问题、回忆再生成答案、抽取关键信息并生成解答等等。 🔍Orca 2:小型语言模型的“超级大脑” 所以,Orca 2就像是一个“超级大脑”,可以让小型语言模型具有更强大的推理能力。实际上,初步结果显示,Orca 2在需要推理的任务上,甚至可以与5到10倍大的模型相匹敌或超越。这一切都强烈地突显了赋予较小模型更好推理能力的潜力。 🎓Orca 2:深度学习和教育的完美结合 在Orca 2的训练中,研究人员还采用了指令调优和解释调优两种方法。这两种方法可以看作是模仿人类教育的过程,研究人员会以更大、更强大的模型为“老师”,让小型模型进行模仿学习。这样,小型模型不仅可以生成与“老师”风格相似的内容,还可以在推理和理解能力上有所提升。 🏆Orca 2:未来的AI明星 总的来说,Orca 2的出现,不仅为我们展示了小型语言模型的强大潜力,同时也为人工智能的未来发展打开了一扇新的大门。我们有理由相信,Orca 2将会在未来的AI领域中发挥更加重要的作用。 以上就是我们今天的主题:Orca 2——如何让小型语言模型变得更“聪明”。感谢大家的收听,我们下期再见!

顿悟Groking—深度洞察大型语言模型的学习方式

亲爱的听众,大家好!👋欢迎来到我们的AI科技播客节目,我是您的主持人。今天我们要一起探索一个非常有趣也相当深奥的话题:“顿悟Groking——深度洞察大型语言模型的学习方式”。🧠💡📚 🎈引子:神秘的AI世界 在我们开始深入主题之前,我想先给大家讲一个小故事。你是否曾经有过这样的体验:面对一个复杂的问题,你琢磨了很久都无法找到答案,但突然有一天,你灵光一闪,想明白了所有的问题,这就是我们所说的“顿悟”或者“恍然大悟”。在人工智能的世界里,也存在着这样的“顿悟”现象。让我们一起来揭开AI的神秘面纱,看看它们是如何学习和理解我们的世界的。🕵️🔎 📖语境学习(In-Context Learning) 首先,我们要介绍的是一种称为“语境学习”的学习方式。在这种方式中,模型通过观察和学习词语或者短语在语境中的使用,理解它们的含义。也就是说,就像我们通过上下文来理解词汇的含义一样,AI模型也能通过查看输入和标签的样例,学习它们之间的映射关系。🤖🧠 有趣的事实是,当模型足够大时,即使给定的标签和模型的语义先验相矛盾,它们也可以学习并理解这种矛盾的映射关系。这就像是说,即使我们告诉模型白天是黑夜,黑夜是白天,它们也能从这种混乱的情况中学习并理解新的映射关系。这种能力在小型模型中是无法实现的。🌓✨ 🎯无关标签的语境学习(SUL-ICL) 接下来,我们要介绍的是另一种学习方式,叫做“无关标签的语境学习”(SUL-ICL)。在这种情况下,标签和输入的语义是完全无关的。也就是说,模型不能依赖于标签的语义来理解任务,而必须从输入和标签之间的映射关系中学习。这就像是我们给模型展示了一幅抽象画,让它去理解画中的意义。🎨🖼️ 然而,就算在这样的困难环境下,大型模型依旧能够很好地完成任务,而小型模型的表现则大打折扣。这就好像是说,即使我们给模型展示了最抽象最复杂的画作,它也能从中理解并学习到新的知识。这种能力在小型模型中是无法实现的。💪🦾 📈指导调优(Instruction Tuning) 在深度学习和AI领域,我们有一种叫做“指导调优”的技术。这种技术的核心思想是,通过对模型的微调,使模型更好地理解并执行特定任务。在无关标签的语境学习(SUL-ICL)环境中,指导调优能提高模型的性能,增强模型学习输入-标签映射的能力。🎛️🔧 但是,也有一些有趣的现象。研究发现,进行指导调优的模型更不易接受反向的标签。也就是说,调优后的模型更倾向于依赖它们的语义先验,而不愿意接受与这些先验相冲突的新信息。这可能会限制模型的学习灵活性。⚖️🔄 ✨结语 今天,我们一起探索了大型语言模型的学习方式,看到了它们在语境学习中如何依赖或者覆盖语义先验,如何在无关标签的环境中学习输入-标签映射,以及指导调优如何影响模型的学习方式。🌈🎁 AI的世界充满了未知和奇迹,就像我们的世界一样。虽然我们还有很多未解的问题,但是每一次的探索,每一次的“顿悟”,都让我们离理解AI的真相更近一步。让我们期待下一次的探索,期待下一次的“顿悟”。🚀🌟 感谢大家的倾听,我们下期播客再见。再见!👋🎧

深度压缩感知——深度学习与压缩感知的完美融合

🚀 序言 大家好!欢迎收听我们的播客,我是你们的主持人,一个热爱科学和技术的追梦者。今天,我们要谈论的主题是一个神奇且引人入胜的话题——深度压缩感知。听起来有点复杂对吧?别担心,我会尽量将它解释得通俗易懂,让我们一起在知识的海洋中探索、学习。 🌠 挑战与奇迹:压缩感知 首先,让我们来聊聊什么是压缩感知。压缩感知(Compressed Sensing)是一种优雅的框架,用于从压缩信号中恢复稀疏信号。例如,CS 可以利用自然图像的结构,仅从少量的随机测量中恢复图像。这是不是听起来像是进行了一次魔法操作呢?🎩🐰 压缩感知的理论深入复杂,但是它的核心思想非常精妙——我们可以通过极少的采样点,实现了和全采样一样的效果。这就好像我们只需要看一只黑天鹅的一部分,就能推断出整个黑天鹅的样子。这样的思路是不是颠覆了你的认知呢?🤔 🌐 深度学习与压缩感知的结合 现在,让我们把目光转向我们的主题——深度压缩感知。DeepMind 的研究人员提出了一种全新的深度压缩感知框架,这是将压缩感知与深度学习相结合的一种尝试。 深度压缩感知(DCS)框架通过联合训练生成器和通过元学习优化重建过程,显著提高了信号恢复的性能和速度。实际上,这就是合理地利用了压缩感知和深度学习的优点,形成了一种有效的、高效的框架。 💡 新方法:改进 GAN 的新策略 DeepMind 的研究人员还开发了一种使用来自鉴别器的梯度信息来改进 GAN 的新方法。你可能会问,GAN 是什么呢?GAN,全称生成对抗网络(Generative Adversarial Networks),是深度学习的一种方法,通过让两个神经网络互相斗争,来生成新的、以假乱真的数据。通过这种新的方法,我们可以进一步提升 GAN 的性能,打开了深度学习新的可能性。 🎉 结语 今天,我们一起走进了深度压缩感知的奇妙世界,看到了深度学习与压缩感知的完美结合。我们还了解了如何改进 GAN 的新方法,感受到了人工智能的无限可能。 这就是今天的播客内容,希望你们喜欢。记住,无论前方的道路有多么曲折,知识的力量都可以指引我们找到前进的方向。下期播客,我们会继续探索科技的新前沿,期待你的收听!👋 以上内容,主要参考了:深度压缩感知,新框架提升 GAN 性能 – 知乎。 在此,向所有在科技领域探索前沿,努力推动人类进步的研究人员们致敬!🙏 未来, 我们会继续关注这些有着深远影响的科技发展,与你一起分享,一起学习。谢谢大家,我们下期再见!👋🎙️🎉

🚀人工智能新进展:RWKV-5模型的训练与性能对比🔍

大家好,我是你们的播客主播,今天我们要一起探索一篇非常引人入胜的文章,关于人工智能的最新进展:RWKV-5模型的训练与性能对比。这是一篇首发于技术备忘录的深度科技文章,作者是在人工智能领域有着丰富经验的专家PENG Bo。 🎯RWKV-5模型:全新升级,实力更胜一筹🎉 这篇文章介绍的主角,RWKV-5,是一款支持100+种语言的多语言模型,同时代码能力也非常强大。然而,PENG Bo并没有止步于此,他正在努力训练这款模型,向更高的目标挺进。他分享了他的一些测试数据,从中我们可以看出,RWKV-5在训练完成后的英文能力(avg%)可以达到62%的SOTA水准。而且,RWKV-5的多语言能力(xavg%)也显著超过了现有的同规模模型。值得一提的是,尽管PENG Bo在训练时并没有加入多语言任务的数据,但RWKV-5的能力还是通过语言间的迁移实现了👏。 🚀训练进展:超越前代,迎接新挑战💪 让我们再深入看一下RWKV-5的训练进度。PENG Bo分享的数据显示,仅仅在训练进度达到30%时,RWKV-5 World v2 1.6B就全面超过了前代模型RWKV-4 World v1 1.6B的性能。这是一个令人惊叹的进步,我们有理由对RWKV-5的未来充满期待🌟。 🛠️实现细节:深入解析,探索神秘代码🔬 除此之外,PENG Bo还分享了RWKV-5的具体实现方式,包括一段详细的代码。这部分内容对于技术爱好者来说,无疑是一份珍贵的宝藏。通过研究这段代码,我们可以更深入地理解RWKV-5的内部结构和运作机制💡。 🎈结语:期待未来,探索无限可能🎆 最后,PENG Bo对未来的展望让我们更加憧憬。他提到,如果语料库数量再翻倍,我们可以想象,下一个版本World v3的性能将会有多强。这不仅让我们对RWKV-5的性能感到赞叹,也让我们对未来充满期待。 这就是今天的播客内容,我们一起探索了RWKV-5模型的训练进展和性能对比。期待在未来的播客中,我们能一起见证更多的科技突破和人工智能的进步。再见!👋

RWKV/rwkv-5-world-3b的详细解读

RWKV/rwkv-5-world-3b的详细解读 https://huggingface.co/RWKV/rwkv-5-world-3b 该模型名为 RWKV/rwkv-5-world-3b,是一种用于文本生成的模型,使用Transformers库和PyTorch框架进行开发。 🔍 模型的主要信息: ⚙️ 模型的使用: 该模型可以通过Hugging Face的Transformers库进行调用。页面提供了在CPU和GPU上运行模型的代码示例。代码分为几个部分: 🖥️ 代码示例: 在CPU上运行的代码: 在GPU上运行的代码: 📊 模型的统计数据: 🚀 推理API: 此模型支持Hugging Face的推理API,可以进行文本生成。

🎙️AMD和英特尔处理器高危漏洞警报⚠️

今天,我们要讲的话题可能让你的心跳加速,那就是处理器高危漏洞!听起来是不是有点头大?别担心,我会尽我所能让这个复杂的话题变得易懂有趣。 💥炸弹来袭:处理器高危漏洞曝出💥 首先,让我们来了解一下这个炸弹的来源。最近,两大处理器巨头AMD和英特尔,都曝出了影响广泛的高危漏洞。这些漏洞可能被攻击者利用,提升权限、远程执行代码,甚至泄漏敏感信息。 对于AMD来说,其处理器的漏洞可能导致Linux虚拟机受到黑客的攻击。而英特尔的处理器漏洞则直接影响到其全线产品和架构,可能给云计算厂商带来巨大的损失。 🔍漏洞详解一:AMD的CacheWarp🔍 让我们先来看看AMD的这个漏洞。这个漏洞被命名为”CacheWarp”,它存在于部分AMD处理器的INVD指令中。如果有恶意攻击者利用这个漏洞,他们可以破解受AMD SEV保护的虚拟机,提升权限并执行远程代码。 这个漏洞影响的是支持SEV的AMD处理器,包括第一代、第二代和第三代的AMD EPYC处理器。但好消息是,AMD的第四代”Genoa” EPYC处理器并不受这个漏洞的影响。 对于受影响的第三代EPYC处理器,AMD已经发布了可热加载的微码补丁和更新的固件映像,这个补丁并不会导致任何性能下降。 🔍漏洞详解二:英特尔的Reptar🔍 接下来,让我们来看看英特尔的这个漏洞。这个漏洞被谷歌安全团队命名为”Reptar”,它存在于英特尔的台式机、服务器、移动和嵌入式CPU中。 攻击者可以利用Reptar来提升权限、获取敏感信息的访问权限,或者触发拒绝服务状态。英特尔已经在2023年11月之前为受影响的系统(包括使用Alder Lake、Raptor Lake和Sapphire Rapids的系统)提供了更新的微代码,并表示没有观察到性能影响或预期问题。 🚀解决方案:及时更新🚀 那么,面对这些高危漏洞,我们应该怎么办呢?最简单也是最有效的解决方案就是及时更新。无论是AMD还是英特尔,都已经发布了对应的补丁或者更新的微代码。用户只需要更新他们的BIOS、系统操作系统和驱动程序,就可以得到这些最新的微代码,从而规避这些高危漏洞。 我知道,这些信息听起来可能让人有些紧张。但记住,只要我们保持警惕,及时进行更新,就能有效地保护自己的设备不受这些漏洞的影响。 好了,今天的节目就到这里,希望大家在听完今天的节目后,能有所收获,也能增强对科技世界的理解和热爱。在下次的节目中,我们将继续带来最新、最有趣的科技资讯,敬请期待!