Month: May 2024

图像与语言的奇妙联系图像与语言的奇妙联系

我们人类总是试图从大脑中抽象出概念,并通过语言和符号来表达。我们用”椅子”这个词指代所有有腿、有座位、能坐的家具,而看到一幅鲜花图画时会想到”美丽”。但是,我们如何在心中构建这些概念的?不同概念之间是否存在某种奇妙的联系? 最近,一项有趣的心理学实验给出了一些启示。研究人员让参与者在两个看似毫不相关的概念域之间建立联系,比如把职业映射到颜色。结果发现,人们常常以一致且可预测的方式进行映射。例如,医生经常被映射成白色,显然是因为医生穿白大褂。 令人惊讶的是,人工智能模型竟然也展现出了类似的行为!研究人员对多个大型语言模型进行了同样的实验,发现它们在很大程度上能够复现人类的映射模式。更有意思的是,一些模型甚至比普通人更接近人群的平均映射结果。 但AI模型为什么会与人类如此一致呢?通过让模型解释自己的映射过程,研究人员发现它们主要依赖感知相似性、词语关联、共同中介等因素来建立跨域联系,这与人类如出一辙。例如,鼓被映射到雷声,是因为二者声音相似;足球映射到菠萝,是因为它们外形相似。 这项研究初步揭示了人类与AI在概念表征方面的共性。尽管语言模型只接受过文本训练,但它们似乎能从语言中学到感知知识,形成结构化的概念体系。这或许意味着,人类思维的某些基本特征已经融入了当前的AI系统。 不过,机器是否真的拥有概念化能力,仍有待进一步研究。但这一发现无疑加深了我们对AI内在机制的认识,为构建更加智能、更加人性化的AI系统指明了方向。人工智能正以惊人的速度发展,在可预见的未来,或许会诞生出一个崭新的”机器心智”。到那时,人类与AI之间的界限,也许会变得愈发模糊。 [PDF] A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns | Semantic Scholar [...]

当护士变成蓝色,大象变成橄榄球:大型语言模型的跨领域比对揭示人类般的模式当护士变成蓝色,大象变成橄榄球:大型语言模型的跨领域比对揭示人类般的模式

近年来,大型语言模型(LLMs)在生成人类般的文本和处理需要推理的复杂任务方面取得了显著进步。然而,它们解释自身行为或以人类可理解的方式呈现其行为的能力仍然是一个挑战。由于 LLMs 与人类的互动方式与人类非常相似,研究人员开始通过比较它们的行为来评估它们的理解和推理能力,并从认知心理学、心理语言学和神经科学等领域汲取灵感。 本文将借鉴一项新兴的心理学任务——跨领域比对,来评估 LLMs 的概念化和推理能力。这项任务要求参与者将一个语义领域的概念映射到另一个语义领域(例如,将“医生”映射到“颜色”,将“钢琴”映射到“动物”)。有趣的是,研究发现,人们在进行这些看似随意的映射时,会遵循一些可预测的模式,依赖于感知相似性或词语联想等特定类型的相似性。例如,”鼓”通常被映射到”雷声”,这显然是由于它们在感官上的相似性,因为它们都发出类似的声音。 本文通过一项行为研究,将跨领域比对任务应用于评估 LLMs 的概念化和推理能力。研究人员使用人类参与者在认知实验中收集的数据,提示多个 LLMs 进行跨领域比对,并分析其在群体和个体层面的反应。此外,他们还评估了模型对其预测的推理能力,通过分析和分类模型对这些映射的解释。 实验结果表明,LLMs 与人类在映射和解释方面存在一些相似之处,表明模型的概念表征与人类类似。这种相似性不仅体现在模型表征中,也体现在它们的行为中。此外,模型大多提供了有效的解释,并采用了与人类相似的推理路径。 实验设计 研究人员使用了 LL23 在其实验中收集的人类跨领域比对数据。数据包含 12 个领域,从中选择了 32 个领域对。对于每个领域对,研究人员构建了 2-3 个形式为“如果一个 x(源项目)是一个 y(目标领域),它会是什么 y?”的语句(例如,“如果一个医生(源项目)是一个颜色(目标领域),它会是什么颜色?”)。最终,研究人员获得了 75 个语句,每个语句都由 20 个参与者回答。 [...]

游戏卡顿的救星?深度解析CPU缓存为何如此重要!游戏卡顿的救星?深度解析CPU缓存为何如此重要!

你是否也曾体验过在酣畅淋漓的游戏过程中,画面突然卡顿,操作延迟甚至出现撕裂?这种糟糕的体验足以让任何玩家抓狂。众所周知,显卡性能不足是造成游戏卡顿的重要原因之一,但除此之外,还有一个常常被玩家忽视的关键因素——CPU缓存。 CPU缓存:CPU的高速“便签本” CPU缓存,顾名思义,是CPU内部的一块存储区域,它的作用类似于CPU的“高速便签本”,用于临时存储CPU需要频繁使用的数据和指令。 想象一下,CPU就像一位经验丰富的厨师,而内存则是存放着各种食材的仓库。当厨师需要某种食材时,如果每次都要跑到仓库去取,那将花费大量的时间。而CPU缓存就像厨师工作台旁边的小冰箱,存放着一些常用的食材,需要时随手可取,大大提高了工作效率。 CPU缓存的分级存储 为了更高效地利用缓存空间,CPU缓存通常采用多级缓存结构,常见的有三级缓存: 当CPU需要访问某个数据时,会先在L1缓存中查找,如果找到则直接使用;如果没有找到,则依次在L2、L3缓存中查找,最后才会访问内存。 CPU缓存为何对游戏至关重要? 游戏运行时,CPU需要进行大量的计算和数据处理,例如计算游戏角色的位置、处理游戏物理效果、渲染游戏画面等等。这些数据通常需要反复调用,而CPU缓存的存在就能大大减少CPU访问内存的次数,从而提高游戏运行效率,减少卡顿现象。 举例来说,游戏中角色的移动轨迹、碰撞检测等都需要CPU进行大量的计算,而这些计算都需要反复读取和写入角色的位置、速度等数据。如果这些数据存储在内存中,每次读取都需要花费较长时间,就会导致游戏卡顿。而如果将这些数据存储在CPU缓存中,CPU就能快速访问,从而保证游戏的流畅运行。 AMD与英特尔:缓存技术之争 长期以来,AMD和英特尔作为CPU领域的巨头,一直在缓存技术上不断竞争,并分别推出了各自的技术,例如AMD的3D V-Cache技术和英特尔的Smart Cache技术。 总结: CPU缓存作为CPU的重要组成部分,对游戏性能有着至关重要的影响。无论是AMD的大容量缓存还是英特尔的快速缓存,都在努力提升玩家的游戏体验。未来,随着游戏对硬件性能的要求越来越高,相信CPU缓存技术也将不断发展,为玩家带来更加流畅的游戏体验。 [...]

G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法G-DIG: 基于梯度的机器翻译高质量、多样化指令微调数据选择方法

摘要 大型语言模型 (LLM) 在通用场景中展现出卓越的能力,而指令微调使其能够在各种任务中与人类意图保持一致。然而,指令数据的多样性和质量仍然是指令微调的两大挑战。为此,本文提出了一种基于梯度的新方法 G-DIG,用于自动选择高质量、多样化的指令微调数据,以应用于机器翻译任务。 核心创新: 实验结果: 在 WMT22 和 FLORES 翻译任务上的大量实验证明了该方法的优越性,深入分析进一步验证了其有效性和泛化能力。 主要内容: 局限性: 伦理考量: 简要总结 本文提出了一种名为 G-DIG 的方法,用于选择高质量和多样化的训练数据,以改进机器翻译模型。G-DIG 利用梯度信息来识别对模型性能有积极影响的训练样本,并通过聚类和重采样技术来确保数据的多样性。实验结果表明,G-DIG 在各种翻译任务中均优于基线方法,并取得了与最先进模型相当的结果。 export.arxiv.org/pdf/2405.12915 Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决大型语言模型(Large Language Models,LLMs)在指令微调(instruction finetuning)过程中面临的两个主要挑战:指令数据的多样性(Diversity)和质量(Quality)。具体来说,论文提出了一个名为G-DIG(Gradient-based DIverse [...]

中文互联网正在加速崩塌:一场关于记忆与遗忘的数字浩劫中文互联网正在加速崩塌:一场关于记忆与遗忘的数字浩劫

这篇文章探讨了一个令人担忧的现象:中文互联网内容正在以前所未有的速度消失,尤其是移动互联网兴起之前的时期。作者以“时间的二向箔”来形容这种现象,将互联网比作正在被二维化的太阳系,所有曾经存在过的信息都在逐渐消失殆尽。 文章从一个简单的搜索开始,引出问题: 作者尝试在百度上搜索“马云”在1998年到2005年期间的信息,结果却发现几乎没有任何有效信息。即使更换搜索引擎,结果也大同径庭。进一步的搜索表明,不仅仅是马云,其他同时期的人物,甚至是曾经红极一时的网站和平台,其信息都已大量消失。 造成这种现象的原因主要有两个: 除了经济和监管因素,其他原因还包括: 作者认为,互联网内容的消失是“信息进化竞争”的必然结果。 在注意力经济时代,只有能够持续吸引注意力的内容才能存活,而维持内容存在的成本也是一个重要因素。传统互联网内容的消失,正是这种竞争的体现。 文章最后表达了对“没有历史”的担忧。 作者认为,互联网信息的消失将导致我们失去对过去的记忆,无法再了解曾经发生过的事情和存在过的人。这种“失忆”将对个人和社会产生深远的影响。 文章以《三体》中的“二向箔”作比喻,将互联网内容的消失描绘成一场不可逆转的浩劫,并呼吁人们珍惜现存的信息,因为它们随时都可能消失。 文章亮点: 这篇文章以其深刻的洞察力和犀利的笔触,揭示了中文互联网内容正在加速消失的现状,并对其原因和影响进行了深入分析,是一篇发人深省的佳作。 中文互联网正在加速崩塌 在互联网时代,我们习惯了通过几次简单的点击就能获取信息。然而,近年来,一个令人警觉的趋势正在悄然发生:中文互联网的内容正在迅速消失。 一个简短的实验 先问大家一个问题:如果我们在百度上搜索“马云”,并将时间范围设定在1998年到2005年,结果会有多少条呢?很多人会猜测,大概有百万甚至千万条。然而,实际结果却令人震惊:仅有1条,并且这条信息还是错的,发布时间是2021年。 这个现象不仅仅限于马云,其他知名人物如马化腾、雷军等的早期信息也同样难以搜寻。几乎所有在那个年代曾经红火的中文网站的信息都已经消失,唯一的例外是新浪网,但其能找到的信息也非常有限。 崩塌的原因 为什么会出现这种情况呢?主要有两个原因: 此外,版权保护、机构和个人意愿等原因也导致了大量内容的消失。但这些只是次要原因,主要还是经济和监管因素。 互联网的记忆 互联网曾被认为是有记忆的,但现在看来,这种记忆是短暂的。大量曾经存在的内容已经消失。曾有人将重要文件存储在某BBS上,几年后发现整个BBS都不见了。类似的情况在Hotmail邮箱、人人网等平台上也发生过。 这种现象让人不禁想起刘慈欣的《三体》中的“二向箔”概念。小说中,先进文明用二向箔将整个太阳系从三维压缩成二维。而在现实中,互联网内容的消失就像是时间的二向箔,吞噬了过去的记忆。 互联网内容的进化 互联网内容的存在也遵循进化论:以尽可能低的成本争取尽可能多的注意力。当一个内容能吸引足够多的注意力且维持成本较低时,它就有可能存活。否则,它就会消失。传统互联网内容的消亡是这种“信息进化竞争”的自然结果。 综上所述,中文互联网内容的消失是一个复杂而多维度的现象。随着时间的推移,这种趋势可能还会继续。对于我们这些依赖互联网获取信息的人来说,这无疑是一种损失。我们需要更多的关注和讨论,以便找到应对之策,保护这份曾经属于我们的数字记忆。 这篇文章旨在引发读者对互联网内容保存的思考。如果您对这一话题有更多见解,欢迎在评论区分享。 这篇文章的标题是《中文互联网正在加速崩塌》,作者丁丁在文中详细描述了中文互联网内容正在迅速消失的现象,并探讨了背后的原因。这是一个值得深思的问题,尤其对于那些关心互联网历史与信息保存的人们来说。 主要内容与观点 评论与思考 [...]

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目来回答

在工程上,”Chain of Thought” (COT) 并不是简单地让大语言模型(LLM)多看几遍题目并综合之前的回答做最终回复。相反,COT 是一种引导模型逐步推理和回答问题的方法,目的是通过明确和详细的推理步骤来提高模型的回答质量和准确性。 Chain of Thought 的核心思想 COT 的核心思想是通过引导模型逐步推理,模拟人类解决复杂问题时的思考过程。它包括以下几个关键点: COT 的实现方式 实现 COT 通常包括以下步骤: 示例 下面是一个简单的例子,展示了如何使用 COT 来解决一个数学问题: 问题:计算 123 和 456 的和。 传统方法: COT 方法: 工程实现中的注意事项 [...]

赋予大模型道德决策能力:Skin-in-the-Game框架赋予大模型道德决策能力:Skin-in-the-Game框架

在人工智能蓬勃发展的今天,大型语言模型(LLMs)在总结、算术推理和问答等任务中展现了卓越的能力。然而,当涉及到多方利益相关者的道德推理和伦理决策时,这些模型往往举步维艰。最近提出的“Skin-in-the-Game”(SKIG)框架旨在通过一种全新的方法,提升LLMs在道德推理方面的能力。 道德决策的挑战 随着Vaswani等人(2017)和Radford等人(2018)开发的LLMs变得越来越复杂,其应用范围也在不断扩大。从教育(Kung等,2023)到优化(Li等,2023),这些模型已经革新了各个领域。尽管取得了显著进展,但在伦理决策领域仍面临重大挑战。这是因为人类价值观和伦理观念的复杂性,受文化和社会偏见(Fraser等,2022)的影响,构成了独特的难题。 SKIG框架 由弗吉尼亚理工大学和亚马逊的研究人员提出的SKIG框架,通过模拟决策对多方利益相关者的影响,旨在提升LLMs的道德推理能力。该框架的核心概念是“Skin-in-the-Game”,即通过让模型承担其决策的结果,促进更加负责任和道德的选择。受到Taleb和Sandis(2013)的启发,该框架结合了共情练习和风险评估,从而模拟问责机制,提升决策能力。 SKIG的工作原理 在SKIG框架中,LLMs被用来基于给定的情境和潜在的行动方案,探索不同的决策情景。模型被引导去设想自己是情境中的每一个利益相关者,模拟其行动的问责性。这种视角的转变显著提高了模型的表现,在各种道德推理基准测试中提升幅度高达70%。这些改进在不同类型的LLMs中都表现出一致性,包括专有模型和开源模型。 SKIG的关键组成部分 相关工作和贡献 道德在LLMs中的研究引起了广泛关注,各种方法侧重于通过微调(Ganguli等,2022)或提示(Bang等,2022)将这些模型与人类价值观对齐。SKIG框架补充了这些方法,通过增加在各种情景下分析决策对利益相关者影响的关键维度。 结论 Skin-in-the-Game框架在提升LLMs道德决策能力方面迈出了重要一步。通过模拟问责机制和培养共情能力,SKIG解决了AI道德推理的固有挑战。随着LLMs的不断发展,像SKIG这样的框架将在确保这些模型做出负责任和道德的选择方面发挥关键作用,最终惠及整个社会。 “身临其境”:通过大语言模型中的多方利益相关者协调进行决策 (中文分析) 这篇论文介绍了 SKIG(Skin-in-the-Game,身临其境),这是一个旨在增强大型语言模型 (LLM) 道德推理能力的新框架。其核心思想是通过促使 LLM 从多个利益相关者的角度考虑其决定的后果,来模拟一种问责制。 以下是该论文关键方面的细分: 1. 问题陈述: 2. 解决方案:SKIG 框架 3. 理论基础: 4. 实验和结果: [...]

打破瓶颈:一种层次化框架优化大规模语言模型的答案选择打破瓶颈:一种层次化框架优化大规模语言模型的答案选择

近年来,基于链式思维提示(Chain-of-Thought, CoT)的技术进步为大规模语言模型(LLMs)在复杂推理任务中带来了显著突破。然而,当模型生成多个推理链并基于答案频率进行集成时,正确答案在少数情况下的表现仍然较差。本文提出的层次化推理聚合框架AoR(Aggregation of Reasoning)通过评估推理链的方式来选择答案,并根据任务复杂度动态调整推理链的数量,显著提升了LLM的推理性能。 背景与现状 LLMs在各种自然语言处理任务中取得了显著进展,但在推理任务上与人类水平仍存在差距。传统方法通过增加模型的规模来提升性能,但效果有限。链式思维提示技术通过生成一系列中间步骤来简化每一步的复杂性,提供了一种新颖的视角来解决复杂推理任务。 然而,目前的多数投票集成方法在错误答案多于正确答案时表现不佳。本文通过对多个推理任务的分析发现,超过80%的样本尽管LLMs能够生成正确答案,但多数投票仍然导致错误预测。例如,在AQuA数据集中,尽管模型生成了正确答案,但由于错误答案的数量优势,最终选择了错误答案。 研究问题 在LLMs能够生成正确答案的情况下,如何减小错误答案的干扰以准确选择正确答案?为了回答这一问题,本文提出了AoR框架,通过评估推理链来提升答案选择的准确性。 AoR框架 AoR框架分为两个阶段:局部评分和全局评价。在局部评分阶段,评估产生相同答案的推理链,重点关注推理过程的合理性和步骤的适当性。在全局评价阶段,联合评估不同答案组中最具逻辑一致性和方法有效性的推理链,确定最佳推理链并将其对应的答案作为最终输出。 此外,AoR利用全局评价阶段的评分来估计模型对其最优推理过程和答案的信心水平,动态决定是否需要采样更多的推理链。这种动态采样机制在平衡性能和计算成本方面表现出色。 实验结果 实验结果表明,AoR在各种推理任务中的表现优于现有的集成方法。特别是在任务难度较大的情况下,AoR通过动态采样显著提升了LLMs的推理性能,减少了推理开销。 主要贡献 结论 本文提出的AoR框架通过评估推理链显著提升了LLMs在复杂推理任务中的性能,为未来的研究和应用提供了新的思路。未来的工作可以进一步优化AoR的评估机制和动态采样策略,以应对更复杂的推理任务。 arxiv.org/pdf/2405.12939#pdfjs.action=download 我们来深入了解一下 AoR 框架的各个组成部分,以及它是如何解决大型语言模型 (LLMs) 在复杂推理任务中所面临挑战的。 现有问题: 现有的 LLM 推理方法,特别是依赖答案频率进行集成的那些,在面对正确答案属于少数情况时往往表现不佳。这是因为: AoR 框架如何解决这些问题: AoR [...]

DeepSeek-V2中的MLA详解DeepSeek-V2中的MLA详解

DeepSeek-V2是DeepSeek团队最新发布的MoE(Mixture of Experts)架构的LLM(大型语言模型)底座。该模型拥有236B的总参数量和21B的每个token激活参数量,支持128K tokens的上下文长度。DeepSeek-V2的一个核心创新点就是Multi-head Latent Attention(MLA)。 Multi-head Latent Attention(MLA)简介 MLA对传统Transformer中的多头注意力机制(MHA)进行了改进,主要目标是: 标准的MHA结构 在标准的MHA结构中,每个token的query、key和value通过参数矩阵映射得到,并分割成多个注意力头。每个头独立计算注意力权重并得到输出,这个过程虽然能捕捉丰富的上下文信息,但在推理时需要缓存大量的KV Cache。 MLA如何改进? MLA通过对keys和values进行低秩联合压缩来降低KV Cache: 代码实现 以下是MLA在DeepSeek-V2中的Python代码实现片段: class DeepSeekV2Attention(nn.Module):def init(self, config: DeepSeekV2Config, layer_idx: Optional[int] = None):…self.w_dq = nn.Linear(self.hidden_size, config.q_lora_rank, [...]

整体调整Android App的UI亮度整体调整Android App的UI亮度

要在夜间模式下整体降低 Android 应用的亮度,以实现车内环境中舒适的视觉效果,你可以使用以下几种方法: 下面详细介绍这两种方法: 方法一:调整主题和样式 方法二:动态调整屏幕亮度 你可以使用代码动态调整屏幕的亮度,以适应车内环境的需求。 请求系统权限(如果需要): 如果你需要全局调整系统亮度,你可能需要请求系统权限。在 AndroidManifest.xml 中添加权限: 然后在代码中请求权限: 在 onActivityResult 中处理权限请求的结果: 结合两种方法 你可以结合上述两种方法,既调整应用的主题颜色,又动态调整屏幕亮度,以达到最佳的夜间模式效果。 总结 通过这两种方法的结合,你可以为用户提供一个更好的夜间使用体验。希望这些方法能够帮助你实现应用的夜间模式功能。 如果不想调整屏幕亮度,你可以通过调整应用的整体 UI 亮度来实现夜间模式效果。以下是几种简单的方法: 方法一:使用半透明的暗色覆盖层 为整个应用添加一个半透明的暗色覆盖层,以降低整体亮度。 方法二:调整应用的主题颜色 使用 DayNight 主题,并为夜间模式定义较暗的颜色。 方法三:动态调整各个 UI 组件的亮度 可以通过编程方式调整各个 [...]