斯坦福监狱实验:人性与邪恶的边界

1971年夏天,斯坦福大学的心理学教授菲利普·津巴多(Philip Zimbardo)进行了一项著名的社会心理学实验——斯坦福监狱实验。这个实验旨在研究环境对人类行为的影响,结果却出乎意料地揭示了人性中潜藏的黑暗面,并引发了人们对权力、服从和道德的深刻思考。 现实与角色的模糊界限 实验开始前,津巴多精心挑选了24名心理健康且无犯罪记录的男性大学生,并随机将他们分为两组:囚犯和狱警。实验地点设在斯坦福大学心理学系地下室,被改造成了一个逼真的监狱环境。 实验的第一天,囚犯们被逮捕、搜身,并被带到监狱,他们被分配了囚服、编号,并被剥夺了姓名和个人物品。狱警们则被配发了制服、警棍和墨镜,并被告知要维持监狱秩序,确保实验顺利进行。 随着实验的进行,原本只是扮演角色的参与者逐渐将角色融入自身,并开始表现出与角色相符的行为。囚犯们变得消沉、被动、服从,甚至开始表现出精神崩溃的症状。而狱警们则变得越来越强势、冷酷、残忍,甚至开始对囚犯进行羞辱和虐待。 权力与人性:一个令人不安的发现 实验中,一个名叫“819号囚犯”的参与者因情绪崩溃而被释放。然而,令人震惊的是,其他囚犯并没有同情他,反而开始指责他,说他是一个“坏囚犯”。 津巴多在实验报告中写道:“当我们意识到819号囚犯能够听到其他囚犯的指责时,我冲回房间,发现他正在失控地哭泣,而他的狱友们则在高喊‘819号囚犯是个坏囚犯’。他们齐声喊了十几次,声音中充满了服从和一致性,就好像一个声音在说‘819号囚犯是坏的’。” 这个事件表明,即使是在模拟环境中,权力也会扭曲人性,让人们丧失同情心和道德感。 实验的终止与反思 实验原本计划持续两周,但由于情况失控,津巴多不得不提前终止了实验。实验结束后,参与者们都表现出强烈的反应,他们对自己的行为感到震惊和愧疚。 津巴多在实验结束后写道:“我们创造了一个极具压力的环境,在这个环境中,囚犯们变得消沉、被动、服从,而狱警们则变得越来越强势、冷酷、残忍。即使是那些原本善良的狱警也无法抵挡权力带来的诱惑。” 斯坦福监狱实验的结论令人警醒:环境对人类行为的影响巨大,权力会扭曲人性,而普通人也可能成为施虐者。这个实验也提醒我们,要警惕权力带来的腐蚀,并时刻保持对自身行为的反思和批判。 参考文献

基于 LLM 的智能体应用:从单体到多体,走向人机协作

基于 LLM 的智能体作为一种新兴技术,正在迅速改变着我们的生活。从完成日常任务到推动科学创新,这些智能体展现出强大的通用能力,为我们构建一个更加便捷、高效的未来世界打开了大门。 4. 基于 LLM 的智能体应用场景 本章将深入探讨基于 LLM 的智能体的应用场景,从单体智能体到多智能体交互,以及人机协作,展现出这些智能体在不同场景下的潜力。 4.1 单体智能体的通用能力:从任务到创新 目前,基于 LLM 的智能体应用实例正在蓬勃发展,例如 AutoGPT,一个旨在实现完全自主系统的开源项目。AutoGPT 集成了各种外部工具和记忆管理机制,能够在用户输入目标后自主地生成想法并执行任务,无需额外的用户提示。 4.1.1 面向任务的部署:高效的助手 基于 LLM 的智能体能够理解人类自然语言命令并执行日常任务,是目前最受用户青睐且具有实际价值的智能体类型之一。它们可以提高任务效率,减轻用户工作量,并促进更广泛的用户群的访问。 4.1.2 创新型部署:科学探索的伙伴 基于 LLM 的智能体在执行任务和提高重复性工作效率方面表现出了强大的能力。然而,在更具智力要求的领域,比如尖端科学,智能体的潜力尚未完全实现。 4.1.3 Lifecycle-oriented 部署:持续学习的探索者 在开放的、未知的世界中,构建一个能够持续探索、开发新技能并维持长期生命周期的通用能力的代理是一个巨大的挑战。 4.2 协调多个智能体的潜力:协作与竞争 尽管基于 LLM 的智能体具有强大的能力,但它们本质上是作为孤立的实体运行的。为了提高效率和解决更复杂的问题,研究人员开始探索多智能体系统,让多个智能体相互协作或竞争。 4.2.1 互补合作相互作用:共同完成目标 在协作型多智能体系统中,个体智能体评估其他智能体的需求和能力,并积极寻求与他们合作行动和信息共享。 4.2.2 促进进步的对抗性交互:竞争中的进步 在竞争环境中,智能体可以通过动态交互快速调整策略,努力选择最有利或最理性的行动,以应对其他智能体引起的变化。 4.3 人类与智能体之间的交互参与:协作共赢 人机交互是指智能体与人类合作完成任务,确保智能体与人类的需求和目标保持一致。 4.3.1 Instructor-Executor 范式:人类作为指导者 人类提供清晰具体的指令,智能体充当执行者,作为人类合作的助手参与。 4.3.2 平等伙伴关系模式:人类与智能体并肩作战 智能体达到人类的水平,与人类平等参与互动。 总结: 基于 LLM … Read more

智能体的“大脑”、“感知”与“行动”:构建通往通用人工智能的桥梁

在上一节中,我们探讨了智能体的起源和发展历程,并阐明了大型语言模型(LLM)作为 AI 智能体“大脑”的潜力。本章将深入探讨基于 LLM 的智能体的概念框架,并详细介绍其三大关键组成部分:大脑、感知和行动。 3. 基于 LLM 的智能体框架:大脑、感知与行动 为了更好地理解基于 LLM 的智能体,我们可以将其与人类进行类比。人类的大脑负责思考、决策、记忆,眼睛和耳朵感知外部世界,而四肢则执行行动。基于 LLM 的智能体也遵循类似的结构,由“大脑”、“感知”和“行动”三个模块组成。 3.1 大脑:智能体的核心 人类的大脑是一个复杂的结构,由大量相互连接的神经元组成,能够处理各种信息,产生多样化的思想,控制不同的行为,甚至创造艺术和文化。就像人类一样,基于 LLM 的智能体的“大脑”是其核心,主要由一个大型语言模型构成。 3.1.1 自然语言交互:沟通的桥梁 语言是沟通的桥梁,它不仅包含直观表达的内容,还隐藏着说话者的信念、欲望和意图。由于 LLM 拥有强大的自然语言理解和生成能力,基于 LLM 的智能体不仅可以进行基本的交互对话,还能表现出深入的理解能力,使人类能够轻松地理解智能体并与之互动。 3.1.2 知识:智能体的“记忆宝库” 现实世界的信息是庞大而复杂的,基于 LLM 的智能体需要拥有丰富的知识储备来应对各种挑战。这些知识可以大致分为以下几种类型: 尽管 LLM 在获取、存储和利用知识方面表现出色,但仍存在一些挑战,例如知识过时、幻觉和知识编辑等问题。 3.1.3 记忆:过去的经验积累 人类大脑依赖记忆系统来回顾性地利用先前的经验,进行策略制定和决策。同样,智能体需要特定的记忆机制来确保他们能够熟练地处理一系列连续的任务。 随着基于 LLM 的智能体中交互周期的扩展,出现了两个主要挑战: 为了解决这些问题,研究人员提出了多种增强基于 LLM 的代理记忆能力的方法,包括: 3.1.4 推理与规划:智能体的“思考引擎” 推理和规划是人类智力活动的基础,是解决问题、决策和批判性分析的基石。 3.1.5 可迁移性和通用性:智能体的“学习能力” 人类大脑具有高度的可塑性和适应性,能够根据外部刺激和内部需求不断调整结构和功能,从而适应不同的环境和任务。LLM 也展现出类似的学习能力: 3.2 感知:智能体的“感官” 人类和动物都依靠感觉器官从周围环境中收集信息。同样,对于基于 LLM 的智能体来说,从各种来源和模式接收信息也是至关重要的。这种扩展的感知空间有助于智能体更好地了解他们的环境,做出明智的决策,并在更广泛的任务中表现出色。 … Read more

智能体的起源与演化:大型语言模型如何成为人工智能的“大脑”

本章将为我们深入探讨人工智能(AI)领域中的一个关键概念——智能体(Agent)。我们将从哲学角度追溯智能体的起源,并探讨人工实体是否能够拥有“主体性”。随后,我们将回顾智能体发展历程中的关键技术趋势,并最终阐明为什么大型语言模型(LLM)非常适合作为 AI 智能体的大脑。 2.1 智能体的起源:从哲学到人工智能 “智能体”这个概念源远流长,在不同领域都有着不同的解读。我们首先从哲学角度探讨其起源,并探讨人工产品是否能够在哲学意义上拥有“主体性”。 哲学中的智能体: “智能体”的核心思想可以追溯到亚里士多德、休谟等哲学家,他们认为“智能体”是拥有行动能力的实体,而“主体性”则是这种能力的表现形式。在更狭义的定义中,“智能体”通常指具有欲望、信念、意图和行动能力的实体,这些实体可以是人类个体,也可以是物理世界或虚拟世界中的其他实体。 人工实体的“主体性”: 从哲学角度来看,人工实体是否能够拥有“主体性”是一个值得探讨的问题。如果将“智能体”定义为具有行动能力的实体,那么 AI 系统无疑表现出一种“智能体”形式。然而,当我们谈论“主体性”时,通常是指具有意识、意向性和行动能力的实体或主体。在这个框架下,人工系统是否能够拥有“主体性”尚无定论,因为我们尚不清楚它们是否拥有形成欲望、信念和意图基础的内部状态。 一些人认为,将意图等心理状态归因于人工主体是一种拟人化的形式,缺乏科学的严密性。正如 Barandiaran 等人所述,“对智能体的具体要求告诉我们,人工形式的智能体发展还有很长的路要走。” 然而,也有研究人员认为,在某些情况下,采用有意立场(即从意图的角度解释智能体行为)可以更好地描述、解释和抽象人工智能体的行为。 随着语言模型的进步,人工主体性似乎变得更加可行。从严格意义上说,语言模型只是作为条件概率模型,利用输入来预测下一个词语。而人类则结合社会和感知语境,根据自己的心理状态说话。因此,一些研究人员认为,当前的语言建模范式与智能体的有意行为不兼容。 然而,也有研究人员提出,从狭义上讲,语言模型可以作为智能体的模型。他们认为,在基于上下文的下一个词语预测过程中,当前的语言模型有时可以推断出生成上下文的智能体所持有的信念、愿望和意图的近似、部分表示。有了这些表示,语言模型就可以像人类一样生成话语。 将智能体引入人工智能: 直到 20 世纪 80 年代中后期,主流 AI 社区对与智能体相关的概念投入的关注相对较少。然而,自那时以来,计算机科学领域和人工智能社区对这个主题的兴趣显著激增。正如 Wooldridge 等人所说,我们可以这样定义 AI:它是计算机科学的一个子领域,旨在设计和构建基于计算机的智能体,展示智能行为的各个方面。所以我们可以将“智能体”视为 AI 的核心概念。 当智能体的概念被引入 AI 领域后,它的含义发生了一些变化。在哲学领域,智能体可以是人,可以是动物,甚至可以是具有自主性的概念或实体。然而,在人工智能领域,智能体是计算实体。 由于计算实体的意识和欲望等概念似乎具有形而上的性质,并且考虑到我们只能观察机器的行为,许多 AI 研究人员建议暂时搁置智能体是否“实际”思考或字面上拥有“心灵”的问题。相反,研究人员采用了其他属性来帮助描述智能体,如自主性、反应性、主动性和社交能力等属性。 从本质上讲,AI 智能体并不等同于哲学智能体;相反,它是 AI 背景下主体哲学概念的具体化。在本文中,我们将 AI 智能体视为能够使用传感器感知周围环境,做出决策,然后使用执行器采取响应行动的人工实体。 2.2 智能体研究的技术趋势 AI 智能体的发展经历了几个阶段,这里我们将从技术趋势的角度来简要回顾其发展。 符号智能体: 在人工智能研究的早期阶段,使用的主要方法是符号 AI,其特点是依赖于符号逻辑。这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期的 AI 智能体是基于这种方法构建的,它们主要关注两个问题:转导问题和表示/推理问题。这些智能体旨在模拟人类的思维模式。它们具有明确和可解释的推理能力框架,并且由于其符号性质,它们表现出高度的表达能力。这种方法的一个典型例子是基于知识的专家系统。 然而,符号智能体在处理不确定性和大规模现实问题方面面临限制。此外,由于符号推理算法的复杂性,找到一种能够在有限时间内产生有意义结果的高效算法是具有挑战性的。 反应型智能体: 与符号智能体不同,反应型智能体不使用复杂的符号推理。相反,它们主要关注智能体与其环境之间的交互,强调快速和实时的响应。这些智能体主要基于感觉-行为循环,有效地感知和对环境做出反应。此类智能体的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号操作。 … Read more

大型语言模型赋能的智能体:通往通用人工智能的全新路径

人工智能(AI)致力于设计和开发能够模拟人类智能和能力的系统。自18世纪哲学家丹尼斯·狄德罗提出“会回答所有问题的鹦鹉就是聪明的”,人们就一直在探索机器是否能像人类一样思考。20世纪50年代,艾伦·图灵提出了著名的图灵测试,为人工智能研究奠定了基础。 智能体的演化:从哲学到人工智能 “主体”的概念源于哲学,它描述了拥有欲望、信念、意图和行动能力的实体。这一概念逐渐过渡到计算机科学领域,旨在赋予计算机理解用户意图并自主行动的能力。随着人工智能的发展,“智能体”一词逐渐成为 AI 研究中的核心概念,用来描述能够表现出智能行为,并具备自主性、反应性、主动性和社交能力等特性的实体。 智能体的挑战:通往通用人工智能的瓶颈 从20世纪中期开始,人工智能研究取得了重大进展,但主要集中在增强特定能力或完成特定任务上,例如符号推理或玩围棋和国际象棋。在不同场景中实现广泛的适应性仍然是一个巨大的挑战。此外,之前的研究更注重算法和训练策略的设计,而忽视了模型内在能力的发展,例如知识记忆、长期规划、有效泛化和高效交互。 大型语言模型:智能体的“大脑” 大型语言模型(LLM)的出现为智能体的进一步发展带来了希望。LLM 拥有强大的文本处理能力,能够理解和生成自然语言,并展现出知识获取、指令理解、泛化、规划和推理等方面的潜力。这些优势使其被认为是通往通用人工智能(AGI)的潜在路径。 基于 LLM 的智能体:一个通用框架 本文提出了一个基于 LLM 的智能体通用框架,包含三个关键部分:大脑、感知和行动: 基于 LLM 的智能体的应用:从单体到多体 基于 LLM 的智能体在现实世界中有着广泛的应用: 智能体社会:模拟社会与未来展望 基于 LLM 的智能体可以形成模拟社会,展现出类似人类的行为和个性。这些智能体可以在不同的环境中运行,包括基于文本的环境、虚拟沙箱和物理世界。模拟社会中涌现的社会现象为我们提供了宝贵的经验教训和潜在风险的警示。 未来挑战与展望: 基于 LLM 的智能体领域充满了挑战和机遇: 结语: 基于 LLM 的智能体为我们打开了通往通用人工智能的大门。未来,随着技术的不断发展,这些智能体将更加强大,为我们带来更加智能、便捷和充满希望的未来。

PowerInfer-2:在智能手机上实现快速大语言模型推理

随着人工智能领域的迅速发展,大语言模型(LLMs)已经成为了不可或缺的工具,提供了前所未有的理解和生成类人文本的能力。传统上,这些模型被部署在配备强大GPU的数据中心,但现在有一个日益增长的趋势是在更广泛的设备如智能手机上实现这些能力。这一转变旨在利用丰富的个人数据,同时通过在本地进行计算来维护隐私。然而,由于智能手机的处理能力和内存有限,在这些设备上部署LLMs面临着巨大的挑战。本文将介绍来自上海交通大学并行与分布式系统研究所(IPADS)的PowerInfer-2,这一框架旨在迎接这些挑战。 PowerInfer-2介绍 PowerInfer-2 是一个专门为智能手机设计的创新框架,旨在实现LLMs的高速度推理,即使对于那些模型大小超过设备内存容量的情况也是如此。PowerInfer-2成功的关键在于其能够利用现代智能手机中异构的计算、内存和I/O资源。通过将传统的矩阵计算分解为细粒度的神经元簇计算,PowerInfer-2显著提高了推理速度和效率。 PowerInfer-2的关键特性 技术洞察 异构计算利用 PowerInfer-2 利用智能手机中存在的异构硬件,如非对称big.LITTLE CPU核心、GPU和NPU。这种方法使得框架能够在LLM推理的不同阶段动态适应每个组件的优势。 预填阶段 在预填阶段,处理所有输入序列中的令牌,PowerInfer-2 使用NPU处理大矩阵计算。这个阶段受益于NPU在处理密集计算方面的效率,显著加快了第一个令牌的生成速度。 解码阶段 在解码阶段,令牌逐个顺序生成,PowerInfer-2利用小神经元簇和CPU核心处理稀疏计算。这种方法利用了CPU核心的灵活性,这些核心非常适合处理稀疏激活相关的较轻计算任务。 神经元缓存和流水线 PowerInfer-2 引入了一个在神经元粒度级别操作的分段缓存。这个缓存设计用于提高缓存命中率并减少I/O开销对推理性能的影响。通过将I/O操作与神经元簇计算重叠,框架最大限度地减少了等待时间并最大化了吞吐量。 离线规划器 在智能手机上首次运行新模型之前,PowerInfer-2执行一个离线规划阶段。这个阶段分析模型和硬件规格,生成一个执行计划,优化配置计算、内存和I/O资源。该计划确保即使在模型不能完全适应内存的情况下,也能高效执行推理。 实现与评估 PowerInfer-2在原始PowerInfer框架的基础上增加了12,000行代码。研究人员将其部署在两部智能手机上:OnePlus 12和Ace 2,分别配备了24GB和16GB的DRAM,并采用了高通XPUs。 支持的模型 PowerInfer-2支持多种LLMs,包括: 性能 PowerInfer-2的评估结果显示: 值得注意的是,PowerInfer-2是第一个在移动平台上支持TurboSparse-Mixtral-47B模型的系统,生成速度达到了每秒11.68个令牌。 实际应用 为了展示其实际效用,PowerInfer-2在各种实际任务上进行了测试,如多轮对话、代码生成、数学问题解决和角色扮演。该框架在这些不同任务中一致提供了高性能,展示了其鲁棒性和多功能性。 结论 PowerInfer-2代表了LLMs在智能手机上部署的重大进步。通过利用现代智能手机的异构资源并优化计算、内存和I/O操作,PowerInfer-2使得即使是最大模型的推理也能快速高效地进行。这一创新为隐私保护、智能个人助手和其他需要强大语言理解和生成能力的移动设备应用开辟了新的可能性。 更多详情和演示视频,请访问PowerInfer-2项目网站。

PowerInfer: 让你的消费级显卡也能飞速运行大型语言模型

大型语言模型(LLM)凭借其强大的文本理解和生成能力,已经深刻地改变了我们的生活和工作方式。然而,这些模型通常运行在配备高端服务器级 GPU 的数据中心,这使得它们对于个人用户来说难以触及。近年来,将 LLM 部署到个人电脑(PC)上,尤其是配备消费级 GPU 的 PC 上,成为了一个热门趋势。这主要是因为个人用户希望拥有更高的数据隐私、更强的模型定制能力以及更低的推理成本。 与数据中心部署优先考虑高吞吐量不同,本地部署更关注低延迟,尤其是处理单个请求时。但是,将 LLM 部署到消费级 GPU 上也面临着巨大的挑战,主要是因为它们的内存需求非常大。LLM 通常采用自回归 Transformer 架构,逐个生成文本标记,每次生成都需要访问整个模型,而模型可能包含数百亿甚至上千亿个参数。因此,推理过程受到 GPU 内存容量的严重限制,尤其是在本地部署中,因为单个请求(通常一次只有一个)无法充分利用并行处理能力。 目前解决内存问题的方案包括模型压缩和卸载。压缩技术,例如量化、蒸馏和剪枝,可以减小模型尺寸。然而,即使是深度压缩后的模型对于消费级 GPU 来说仍然太大。例如,一个 4 位精度的 OPT-66B 模型仅仅加载参数就需要大约 40GB 的内存,这超出了即使是高端 GPU(如 NVIDIA RTX 4090)的容量。模型卸载,将模型在 Transformer 层级上分配到 GPU 和 CPU 之间,可以减轻 GPU 内存压力。例如,llama.cpp 将层分配到 CPU 和 GPU 内存中,利用两者进行推理,从而减少了 GPU 资源需求。然而,这种方法受到 PCIe 互连速度慢和 CPU 计算能力有限的限制,导致推理延迟很高。 PowerInfer 的突破:利用 LLM 推理中的高局部性 … Read more

美洲:文明的交汇与冲突

在欧洲人抵达美洲之前,这片广袤的大陆上已经孕育了众多独特的文明。从墨西哥的阿兹特克文明到秘鲁的印加文明,从北美东部的森林部落到西南部的普韦布洛人,美洲大陆上的人们创造了丰富多彩的文化,并发展出独特的社会结构和生活方式。 奥尔梅克文明:美洲文明的摇篮 奥尔梅克文明被认为是中美洲文明的母体,它兴盛于公元前1200年至公元前400年,位于墨西哥湾沿岸的热带雨林地区。奥尔梅克人创造了精美的艺术作品、建筑、陶器和雕塑,其中最著名的就是巨大的石雕人头像和拉文塔的金字塔。他们还建造了水渠,将水输送到城市并灌溉田地。奥尔梅克人种植玉米、南瓜、豆类和番茄,并饲养小型家犬,以补充他们的食物来源。 奥尔梅克文明在公元前400年左右衰落,但他们的文化影响了后来的玛雅文明和阿兹特克文明。他们崇拜雨神、玉米神和羽蛇神,这些神灵在后来的阿兹特克人和玛雅人的宗教体系中扮演着重要的角色。 玛雅文明:辉煌的文化成就 玛雅文明兴盛于公元前2000年至公元900年,分布在现在的墨西哥、伯利兹、洪都拉斯和危地马拉。玛雅人继承了奥尔梅克文明的文化遗产,并将其发展到新的高度。他们完善了奥尔梅克人发明的历法和文字,并创造了独特的数学体系,用于记录作物产量、人口规模和贸易活动。 玛雅人建造了科潘、蒂卡尔和奇琴伊察等城邦,以及寺庙、神像、金字塔和天文台。然而,由于土壤贫瘠和持续近两个世纪的干旱,玛雅文明在公元900年左右衰落,他们放弃了大型人口中心。 阿兹特克文明:帝国的崛起与覆灭 阿兹特克文明,也称为墨西哥人,在公元1325年开始在墨西哥城附近的特诺奇提特兰岛上建造城市。到1519年,当西班牙人赫尔南·科尔特斯抵达时,这座城市已经拥有超过20万居民,是当时西半球最大的城市。阿兹特克人建立了一个强大的帝国,通过征战和收取贡品来维持统治。 阿兹特克人崇拜众多神灵,并进行日常的人祭活动,以维持太阳神在天空中的旅程,安抚神灵,并促进农业生产。他们建造了宏伟的寺庙和宫殿,并发展了复杂的社会结构。 印加文明:南美大陆的霸主 印加文明,也称为奇楚瓦人,兴盛于15世纪和16世纪,位于南美洲的安第斯山脉地区,其帝国疆域从现在的哥伦比亚延伸到智利,跨越了2500多公里。印加人建造了宏伟的城市,并修建了与罗马帝国媲美的道路系统,将整个帝国连接起来。 印加人没有文字,他们使用一种称为奇普的绳结和彩色绳索系统来记录信息和进行交流。他们崇拜太阳神因蒂,并认为黄金是太阳神的“汗水”。印加人很少进行人祭,通常用食物、衣服和古柯叶祭祀神灵。 北美原住民:多元的文化 与中美洲和南美洲的文明相比,北美原住民的文化更加分散,人口规模和社会组织程度也较低。虽然玉米种植已经传到了北美,但许多原住民仍然依靠狩猎和采集为生。 北美原住民的文化多样性体现在不同的生活方式、宗教信仰和习俗中。例如,西南部的普韦布洛人建造了多层石屋,并发展了复杂的灌溉系统;东部森林地区的部落则生活在小型村落中,以农业、狩猎和捕鱼为生。 文明的交汇与冲突 欧洲人抵达美洲,给美洲大陆带来了巨大的变革。他们带来了新的文化、技术和疾病,也带来了冲突和压迫。欧洲人对美洲原住民的土地和资源充满了贪婪,他们掠夺财富,并试图将自己的文化强加于原住民。 欧洲人带来的疾病对美洲原住民造成了毁灭性的打击。由于没有对这些疾病的免疫力,许多原住民死于天花、麻疹和流感等疾病。 欧洲人的到来,改变了美洲大陆的命运。原住民的文明被摧毁,他们的文化和生活方式遭到破坏。欧洲人建立了殖民地,并最终建立了美国。 参考文献

美国历史的开端:一个跨越海洋的旅程

美国历史的开端,并非从美国独立战争开始,而是从一个跨越海洋的旅程开始。1492 年,克里斯托弗·哥伦布在寻找通往东方的海上航线时,意外发现了美洲大陆,开启了欧洲人对新大陆的探索和殖民。这个事件不仅改变了美洲的历史,也深刻影响了欧洲和非洲的命运,并最终塑造了我们今天所知的世界。 美洲:一个充满机遇的未知世界 哥伦布的发现,让欧洲人意识到美洲大陆的存在,并将其称为“新世界”。这个新世界充满了机遇,吸引了欧洲人前来探索和殖民。美洲大陆上拥有丰富的资源,包括金银、木材、土地和劳动力。欧洲人对这些资源的渴望,推动了他们不断向新大陆扩张。 欧洲:变革的浪潮 15 世纪的欧洲正处于变革的浪潮之中。文艺复兴的兴起,带来了思想解放和科学进步。航海技术的进步,使得欧洲人能够远航探索未知的世界。宗教改革的爆发,则挑战了天主教的权威,为欧洲社会带来了新的思想和观念。 欧洲人对财富、权力和新世界的渴望,推动了他们向美洲大陆的扩张。他们不仅带来了新的文化和技术,也带来了新的疾病和冲突,改变了美洲原住民的生活方式和文化。 非洲:奴隶贸易的悲剧 在欧洲人对美洲大陆的殖民过程中,非洲也扮演了重要的角色。欧洲人为了满足对劳动力需求,开始在非洲进行奴隶贸易。非洲人被强行带到美洲,成为种植园的劳动力,为欧洲殖民者创造了巨大的财富。 奴隶贸易给非洲带来了深重的灾难。它破坏了非洲社会的稳定,造成了人口损失和文化断裂。非洲人被迫离开自己的家园,在美洲遭受残酷的压迫和剥削。 一个跨越海洋的旅程 欧洲人、美洲原住民和非洲人,这三个不同文明的相遇,构成了美国历史的开端。他们的互动充满了冲突、合作和融合。欧洲人带来了新的文化和技术,美洲原住民则拥有丰富的土地和资源,非洲人则成为了欧洲殖民扩张的牺牲品。 这段跨越海洋的旅程,不仅塑造了美洲的历史,也改变了世界格局。它带来了全球化的进程,也带来了奴隶制和殖民主义的阴影。美国历史的开端,是一个充满机遇和挑战的时代,它为美国未来的发展奠定了基础。 参考文献

思维白板:跨模态逐步思考

引言 “哪个小写字母是一个圆圈,右边有一个垂直的线段从圆圈上往下延伸?”这个问题看似简单,但你可能已经通过在脑海中形成一个图像来解答了。你首先想象一个圆圈,然后在圆圈的右边添加一条垂直的线段,最终识别出字母“q”。如果需要记住更多信息,你可能会使用笔和纸,但思考过程仍然类似。 人类擅长这种视觉思考。我们能够轻松地将文字和图像中的推理交织在一起,以解决问题和交流想法(Tversky,2011)。我们不仅在直接的视觉推理中形成图像,而且在空间导航时绘制地图(Card 等人,1999),甚至处理抽象概念(Bobek 和 Tversky,2016)。 大型语言模型(LLMs)已经彻底改变了自然语言处理领域(Brown 等人,2020;Vaswani 等人,2017),它们通过扩展参数数量和训练数据,在各种推理任务中展现出强大的能力。链式思考(CoT)提示(Wei 等人,2022;Kojima 等人,2023)允许语言模型通过在生成最终答案之前以文本形式写出中间步骤来解决复杂问题,并在算术和符号推理等任务中展现出巨大潜力。因此,自然地,我们会问:LLMs 能否解决我们人类通过视觉思考解决的任务? 我们发现,对于某些涉及视觉和空间推理的任务,即使是最先进的LLMs 也会出现显著的失败。在图1中,我们看到GPT-4o(OpenAI 等人,2023)声称我们之前问题的答案实际上是“b”;它没有进行正确的隐式视觉推理,关于左、右、上、下的方向,以得出正确的答案。“b”被观察到是确定性地采样的;在使用温度的情况下,它会在“b”、“p”、“d”和“q”之间随机选择,也就是说,这些字母具有正确的特征,但排列方式不同。它提到了“碗”和“茎”来缩小可能的选项,然后未能进行空间推理来确定所描述的方向意味着什么。一个人不需要具备排版方面的专业知识来回答这个问题;任何能够创建正确图像并具备基本视觉识别能力的人都能轻松解决它。这突出了两种推理过程之间的显著差异。 思维白板:跨模态逐步思考 我们的关键想法是,视觉推理任务需要视觉。我们利用多模态大型语言模型(MLLMs)的能力,这些模型不仅接受文本输入,还接受图像等其他模态的输入,从而实现这一点。我们证明,为MLLMs 提供创建和推理显式视觉的能力——就像一个展示中间思想的白板——可以解锁类似于视觉思考的能力。 因此,我们引入了“思维白板(WoT)”:我们为MLLMs 提供一个隐喻性的“白板”,让它们将中间推理步骤的结果绘制为图像,然后提示它们使用它们的多模态输入能力来生成答案或从模型自身生成的图像中进行进一步推理。我们发现,利用模型现有的能力,通过使用Turtle 和 Matplotlib 等图形库来编写代码,足以创建对解决视觉推理任务有用的图像,而无需任何示例。 我们在三个涉及理解ASCII 艺术的BIG-Bench(Srivastava 等人,2022)任务上展示了这种想法的潜力,以及一个最近的困难基准,它探测了空间推理能力(Yamada 等人,2024),证明了WoT 和 CoT 之间的巨大性能差距。我们进一步分析了哪些类型的问题更适合在视觉标记而不是文本标记上进行推理。最后,我们确定了MLLM 能力的当前局限性,并提供了对WoT 失败原因的详细分析。 实验 我们对两类涉及视觉推理的自然语言任务进行了实验。首先,我们考虑了BIG-Bench(Srivastava 等人,2022)中的三个数据集,这些数据集涉及理解以ASCII 文本图形表示的信息。接下来,我们考虑在不同空间条件下进行自然语言导航的任务(Yamada 等人,2024)。 我们所有实验都在零样本环境下进行,并与两个没有可视化的基线进行比较:直接提示模型给出答案(“Direct”)和零样本链式思考(Kojima 等人,2023)(“CoT”)。我们使用温度为0 和贪婪解码进行生成。对于所有实验,我们使用GPT-4o(gpt-4o-2024-05-13)作为底层MLLM,因为它具有启用我们的模型和基线所需的所有功能——零样本链式思考以及生成代码输出和接受图像输入的能力。完整的提示和其他生成细节可以在附录中找到。 ASCII 理解 我们从BIG-Bench 中发现的一个明显视觉任务开始:ASCII 理解。最近的研究表明,即使是最强大的语言模型也难以识别ASCII 表示,这种失败甚至可以被用来执行非常有效的越狱攻击,导致意外和不安全的行为,绕过最先进的防御技术(Jiang 等人,2024)。 ASCII 艺术突出了我们潜意识地在处理模态之间切换的能力:它需要重新解释通常具有某种自然语言解释的字符(例如,’=’ 作为等号)在视觉上的排列和空间关系(例如,’======‘ 作为一条水平线)。对于人类来说,书面文本通常以与图像相同的输入模态(我们的眼睛)进行处理,使我们能够进行视觉思考,而无需任何中间处理。 想象一下,理解被朗读出来的ASCII 艺术的难度。这可以被认为类似于LLMs 如何处理ASCII:作为文本标记,与它们可能能够处理的任何视觉标记不同,如果它们具有多模态能力。因此,ASCII 为我们提供了一个有趣的测试平台,用于证明MLLMs … Read more