Day: May 26, 2024

打破不可能三角:WISE如何重新定义大语言模型的知识记忆打破不可能三角:WISE如何重新定义大语言模型的知识记忆

在科技日新月异的今天,大语言模型(LLMs)的应用越来越广泛。然而,随着世界知识的不断更新,这些模型也需要不断地进行知识更新,以纠正错误的回答和应对新兴的事实。这就引出了一个重要的问题:模型的记忆如何管理和更新?本文将介绍一项名为WISE的创新方法,旨在解决大语言模型的知识记忆问题。 大语言模型的挑战 大语言模型在扩展参数数量和计算能力方面展现出了惊人的智能潜力。然而,这些模型在实际应用中仍然会犯错,例如产生幻觉、不准确的回答以及偏见等问题。同时,世界的知识是不断变化的,因此模型在预训练期间所学的知识可能已经过时。 为了应对这些挑战,研究人员提出了“终身模型编辑”的概念,即在不需要重新训练或微调的情况下,持续地更新模型的知识。这种方法不仅能够节省大量的计算成本,还能确保模型能够及时响应最新的知识和事实。 不可能三角:可靠性、泛化性和局部性 有效的终身模型编辑方法需要满足以下三个特性: 然而,现有的方法在这三个特性上往往无法同时满足。这被称为“终身编辑的不可能三角”。 现有方法的局限性 现有的方法主要分为两类:编辑长期记忆和编辑工作记忆。长期记忆是指直接编辑模型的参数,这种方法容易与预训练的知识产生冲突,导致局部性差。工作记忆是指通过检索机制在推理时替换模型的表示,而不改变模型参数。这种方法虽然在可靠性和局部性上表现较好,但在泛化性上表现不佳,因为检索机制难以让模型理解和泛化编辑内容。 WISE:桥接长期记忆与工作记忆的创新方案 WISE(智慧编辑)通过引入双重参数记忆机制,克服了上述不可能三角。它包括主记忆(存储预训练知识)和侧记忆(存储编辑知识)。具体来说,WISE设计了以下组件: 实验与结果 通过在GPT、LLaMA和Mistral等主流大语言模型上的广泛实验,WISE在问答、幻觉和分布外数据集上的表现优于现有的模型编辑方法。实验结果表明,WISE能够在终身模型编辑中更好地同时实现可靠性、泛化性和局部性,打破了不可能三角。 结语 WISE的出现为大语言模型的终身编辑带来了新的希望。它通过巧妙的记忆管理和编辑机制,不仅解决了长期记忆与工作记忆之间的矛盾,还为模型的持续进化提供了强有力的支持。未来,随着技术的不断发展,我们有理由相信WISE及其衍生技术将在更多应用场景中发挥重要作用。 WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models https://papers.cool/arxiv/2405.14768 Authors: Peng [...]

大型语言模型如何应对长篇数学文本问题大型语言模型如何应对长篇数学文本问题

近年来,随着人工智能技术的迅猛发展,大型语言模型(LLMs)在解决数学问题方面展现出了巨大的潜力。然而,当前的研究大多集中在那些背景简短的问题上。现实生活中的数学问题往往涉及复杂的叙述和背景,这对大型语言模型提出了更高的要求。本文将探讨LLMs在解决长篇数学文本问题(MWPs)方面的能力,并介绍一种名为E-GSM的新数据集及相关研究成果。 背景介绍 数学文本问题(MWPs)是以自然语言形式呈现的数学问题,需要精细的推理能力来解决。传统的数学问题数据集,如GSM8K,通常包含简短的叙述,只有几句话。然而,这种设置与现实世界中的情况存在差异。现实中的数学问题往往有更长的背景,这可能会对数学推理过程产生影响。研究表明,长篇背景可能会阻碍而不是促进数学推理过程。 研究目的 本研究的主要目的是探讨LLMs在解决长篇数学文本问题(CoLeG,即Context Length Generalizability)的能力。为此,我们构建了一个名为Extended Grade-School Math(E-GSM)的数据集,这个数据集包含了从GSM8K扩展而来的长篇数学问题。我们还提出了两种新的指标来评估LLMs在解决这些问题时的效率和韧性。 研究方法 数据集构建 E-GSM数据集的构建过程主要包括以下几个步骤: 我们通过多轮扩展逐步增加问题的长度,最终获得了一个包含多个扩展轮次问题的综合数据集。 评估方法 我们使用七个专有LLMs和20个开源LLMs,以及三种最先进的零样本提示技术对E-GSM进行了评估。结果表明,LLMs在长篇数学文本问题上的表现较弱,尤其是在处理更长的背景时。 解决方案 为了解决这个问题,我们针对专有LLMs和开源LLMs分别提出了不同的策略: 研究结果 我们的实验结果表明,这些策略在E-GSM及其他多个MWP基准测试上都表现出了显著的效果和较强的泛化能力。具体来说,CoRe和扩展微调任务不仅提高了LLMs在E-GSM上的准确性,还展示了其在其他数学问题基准测试中的广泛适用性。 结论 LLMs在解决长篇数学文本问题上的能力对于其在现实世界应用中的重要性不言而喻。我们的研究表明,长篇数学问题会显著降低LLMs的数学推理能力。通过提出有针对性的解决方案,我们不仅改善了LLMs在长篇数学问题上的表现,也为未来研究提供了宝贵的方向和方法。 本研究为LLMs在复杂、真实世界应用中的使用铺平了道路,提供了实用的解决方案,并为模型泛化能力和训练方法的进一步探索开辟了新的途径。 本文参考了《Can LLMs Solve Longer Math Word Problems Better?》一文中的研究成果,旨在为读者提供关于大型语言模型在解决长篇数学文本问题方面最新进展的深入洞见。希望通过这篇文章,您能对这一前沿领域有更清晰的认识。 [...]

人工智能与教育:Ken Koedinger教授论智能辅导系统人工智能与教育:Ken Koedinger教授论智能辅导系统

前国防部长唐纳德·拉姆斯菲尔德曾说过:“我们不清楚我们不知道的是什么。”这句话揭示了一个深刻的困境,即“未知的未知”,这是军方和数据科学家都熟悉的概念。 同样的原则也适用于教育领域。卡内基·梅隆大学的人机交互和心理学教授肯·科丁格(Ken Koedinger)认为,这种不确定性动摇了传统的教学方式。他指出,学生在学习过程中可能表现不佳,因为他们往往无法判断自己是否真正掌握了知识,或者是否还需要更多的训练。 为了解决这一问题,科丁格教授提倡使用人工智能(AI)作为辅助教学的工具,而不是替代教师。他认为,智能辅导系统可以为学生提供个性化的课程设计,避免重复学习已掌握的内容,同时收集数据来完善学习系统。 1. 你知道什么时候该学习吗? 在哈佛大学的演讲中,科丁格教授向应用计算科学研究所的50位与会者提出了一个问题:“你知道你什么时候该学习吗?” 这个问题的回答往往是两极分化的,而科丁格教授认为,正确答案是“不知道”。研究表明,学生通常无法准确判断自己是否需要学习,他们自认为的学习状态实际上可能是一种错觉。 喜欢 vs. 学会 一个典型的例子是,学生们常常认为喜欢某一课程就意味着能够学得更好。然而,科丁格教授的研究表明,喜欢与学会之间的相关性很低。使用AI软件检测学生参与情况的结果显示,那些自称喜欢课程的学生可能会关注错误的内容,而那些看起来困惑的学生可能正处于有效的学习过程中。 科丁格教授指出,学生缺乏必要的专业知识,无法将他们所知与实际掌握的知识区分开来。而教师们则往往高估了学生的理解能力。例如,在学习高中代数问题时,教师们认为方程式是学生最容易解决的形式,但学生实际上在基本的数学词汇上就遇到了困难。 2. “以数据开始和结束” 智能辅导系统,特别是其生成的数据,可能有助于弥补认知上的差距。科丁格教授讲述了卡内基·梅隆大学开发的智能辅导系统Cognitive Tutor及其背后的项目。 Cognitive Tutor基于机器生成的认知模型和表现模型,已经存在了几十年。认知模型基于解决问题所需的技能、如何获得这些技能、问题管理规则以及学生可能犯的错误等。 认知模型的算法 认知模型使用两种算法来测量性能: 所有智能辅导系统的模型都产生数据,这对教育研究和改善学习系统至关重要。科丁格教授指出,这些改进是在一个以数据开始和结束的连续循环中进行的。研究人员使用A/B测试法(称为“体内测试”)进行随机、可控的实验,评估改进效果。 数据还可以揭示学生的学习方式,通过生成学习曲线,映射学生的错误率,为改进提供依据。智能辅导系统产生的数据可以帮助教育者将广泛的话题拆分为具体的、细微的小问题来解决。 科丁格教授举例说,类似于网球运动员在发球有问题时,找出具体原因并有针对性地练习,教育工作者也可以通过数据发现学生具体的学习问题,并在这些点上进行反复练习。 科丁格教授主张通过数据驱动的智能辅导系统,不仅能够实现个性化教学,还能通过持续的数据反馈和改进,显著提升学生的学习效果。 卡内基·梅隆大学的人机交互和心理学教授肯·科丁格(Ken Koedinger)提出了一个引人深思的观点:学生常常不知道他们真正掌握了什么。他引用前国防部长唐纳德·拉姆斯菲尔德的名言“未知的未知”来说明这一点,这种困境在教育中尤为显著。 主要观点概括: 补充说明和重点: 科丁格教授提倡的智能辅导系统,如Cognitive [...]

MySQL 事务一致性要求的级别MySQL 事务一致性要求的级别

在 MySQL 中,事务一致性级别是通过隔离级别(Isolation Level)来控制的。不同的隔离级别提供不同程度的事务隔离,以平衡一致性和性能。MySQL 支持以下几种隔离级别: 要调低事务一致性要求,可以选择较低的隔离级别,如 READ COMMITTED 或 READ UNCOMMITTED。以下是调整 MySQL 隔离级别的方法: 调整全局隔离级别 要调整 MySQL 实例的全局隔离级别,可以使用以下 SQL 语句: 或者: 调整全局隔离级别需要重启 MySQL 服务才能生效,或者你可以启动一个新的会话来观察变化。 调整会话隔离级别 要调整当前会话的隔离级别,可以使用以下 SQL 语句: 或者: 查看当前隔离级别 要查看当前会话或全局的隔离级别,可以使用以下 [...]

Koa2 框架介绍Koa2 框架介绍

Koa 是由 Express 的原始团队开发的,旨在成为一个更小、更富表现力且更健壮的 Web 框架。Koa2 是 Koa 的第二个主要版本,具有一些显著的改进和特性。以下是对 Koa2 框架的详细介绍和分析: Koa2 的特点 Koa2 的使用场景 Koa2 示例代码 以下是一个简单的 Koa2 应用示例: Koa2 的优势 Koa2 的局限性 总结 Koa2 是一个现代、轻量且高效的 Node.js Web 框架,非常适合构建 [...]

职业发展中的市场切入与个人成长职业发展中的市场切入与个人成长

引言 在职业发展的道路上,选择行业与市场切入点是至关重要的。尤其是在计算机行业,如何应对市场需求、选择合适的工作路径,直接影响到个人的职业成长和发展方向。 选择行业与市场切入 当你选择了一个行业,首先要考虑的是如何切入市场。对于计算机行业而言,市场被大公司所占据,对于个人而言,切入市场的方式就是迎合这些公司的招聘要求,这相当于从被动的角度去解决问题。 为什么现在有这么多培训班,特别是Web前端,招生宣传往往是“一毕业就18K”?追根溯源,这是因为外包公司能给到这个价格。 外包与自研公司的薪资差异 为什么外包能给18K,而自研公司却不能?因为外包对接的是甲方客户,甲方一个岗位,初、中、高、专级别划分,能给到18K的,基本是中高级别的外包。但是你知道甲方给外包多少钱吗?据我了解,可以开到25~30K,中间的差价,相当于是外包公司的毛利了。 你以为这就完了?大公司的部门之间是有HC(Headcount,俗称人头)差异的。如果A部门的项目缺人,又没有HC,怎么办?找有富余HC的B部门,借调。可以是直接调人,也可以是借HC自己招人,只不过招来的是挂在B部门的编制下。而A部门的预算,要支付给B部门「服务费」,我们部门的收费标准是50K。 你没听错,一个50K的技术服务费,落到真正干活的外包手上,往往只有15~18K。 那我们部门傻吗,花50K去招一个外包?项目的压力就摆在那里,干不完就影响年终绩效,反正花的是公司的预算,50K也收不到自己的腰包,而且对部门领导而言,这点钱都不够年终奖塞牙缝的。 那公司傻吗,允许手底下这么做?因为要抢市场,或者是优化流程,这些带来的收益,往往能增加几千万利润或者节省几百万的成本。财报好看了,股票涨了,股东开心了,领导年终奖有着落了,皆大欢喜。区区50K一个的外包岗算什么,连服务器租赁费的零头都算不上,何况做完项目了还能优化掉。 培训班与自研岗位的挑战 那回到18K,为什么培训班出来的Web前端,大部分没法直接去自研? 内编与外包的选择 为什么大公司都喜欢用外包?因为内编麻烦啊!一个月薪20K的内编,企业往往要付出远超20K的成本,招聘流程又臭又长,每年还要搞考核,还不能随意裁员。 但还是因为利益问题,部门必须要有内编镇场,而且有些东西,外包就是做不了,比如核心算法、服务器部署权限等等,这些都要用合同和股票来捆绑。 公司越大,岗位越重要,越是会弄A/B角备份机制,防止某些人权重过高,「功高震主」这句话不是开玩笑的,这点尤其体现在技术岗上。 技术学习与个人恐惧感 如果你只知道学技术,刷题,即便你的技术再好,内心深处仍然会有被别人支配的恐惧感。而且,你时常会疑问,技术到底学多少,才能没有恐惧感?答案是,越学技术,很可能你会越质疑自己。 我先后待过N家世界五百强公司,可以明确地说,公司越大,用到的技术可能性越多,涉及的会议也越多,留给真正写代码的时间反而变少了。技术越好,责任越大,这种压力并不会因为技术水平的提升而减少,反而可能会加剧。 从供需关系切入市场 在思考职业发展时,不能仅仅依靠技术,必须从社会的供需关系切入市场。通过复利的原理来塑造和扩大一个模式,这个模式可能并不是高科技,但它能够解决实际问题,为别人创造价值。这种方法不仅适用于计算机行业,也适用于其他行业。 复利思维的重要性 复利思维指的是通过一次性投入,获取多次收益。比如,开发一个软件工具,虽然前期投入很大,但一旦开发完成,只要市场有需求,就能持续产生收益。这个工具可能只是一个简单的应用,但它解决了用户的痛点,满足了市场需求。 实际案例 例如,一位程序员开发了一款高效的任务管理工具,前期投入了大量时间和精力,但上线后,不断有用户购买和订阅。这款工具解决了很多人工作效率低的问题,因此获得了广泛的市场认可。通过复利效应,这位程序员不仅收回了前期的投入,还持续获得了丰厚的回报。 建立自己的圈子 在复杂的工作环境中,建立自己的圈子至关重要。通过建立自己的影响力和网络,可以掌握主动权,而不是被动地适应外部环境。 圈子的力量 一个强大的圈子不仅能够提供技术支持,还能在职业发展中提供宝贵的机会和资源。通过与业内人士交流,获取第一手的行业信息,了解最新的发展趋势,这些都能帮助你在职业道路上走得更远。 [...]

《德国电梯社会:一个欧洲心脏地区的危机》《德国电梯社会:一个欧洲心脏地区的危机》

Reblog via Libgen中文新书速递 《德国电梯社会:一个欧洲心脏地区的危机》作者:[德] 奥利弗·纳赫特威 (Oliver Nachtwey)等华东师范大学出版社 2023下載:https://libgen.is/book/index.php?md5=364BA16D991222165E3CBA9FA13B7097 [...]

在Android系统中,有时候应用程序或系统会发出“beep”声。要在代码中关闭这个声音,可以采取以下几种方法在Android系统中,有时候应用程序或系统会发出“beep”声。要在代码中关闭这个声音,可以采取以下几种方法

1. 禁用系统声音 你可以通过编写代码来关闭特定的系统声音。以下是一个示例,展示了如何关闭按键声音: 请注意,这种方法会关闭所有系统声音,不仅仅是“beep”声。 2. 调整音量 你也可以通过调整音量来降低或关闭声音。以下是一个示例: 3. 捕获并处理系统音效 如果你只想在特定情况下关闭声音,例如按下某些按钮时,可以捕获这些事件并处理它们: 4. 禁用按键声音 如果你的应用中有特定的UI组件(如按钮),你可以禁用它们的按键声音: 或者通过代码: 5. 修改音频焦点 在某些情况下,你可以通过管理音频焦点来暂时关闭声音: 注意事项 通过以上方法,你可以在代码中控制和关闭Android系统中的“beep”声音。 [...]