Day: July 26, 2024

从工程中心化到数据中心化:语言智能体自我进化的未来之路从工程中心化到数据中心化:语言智能体自我进化的未来之路

导言:迈向通用人工智能的探索 近年来,人工智能领域一直在探索通往通用人工智能(AGI)的道路。其中一个重要的方向是开发“语言智能体”。这些智能体是基于大型语言模型(LLM)的复杂管道,结合了提示技术和工具使用方法。虽然语言智能体在许多现实任务中展现出了令人印象深刻的能力,但目前的研究存在一个根本性的局限性:它们以模型为中心,或者说是以工程为中心。这意味着,语言智能体的提示、工具和管道的改进需要人类专家的大量手动工程工作,而不是自动地从数据中学习。 工程中心化语言智能体的局限性 当前语言智能体开发的一个主要瓶颈是构建和定制特定任务的语言智能体系统所需的大量工程工作。具体来说,研究人员和开发人员必须手动将复杂的任务分解成更易于LLM处理的子任务(我们称之为节点),然后为特定节点精心设计提示和工具,包括API函数、知识库、记忆等等。这一过程的复杂性使得当前的语言智能体研究领域以模型为中心,或者说是以工程为中心。这意味着研究人员几乎不可能像以数据为中心的方式训练神经网络那样,在数据集上手动调整或优化语言智能体。这限制了手动编码的语言智能体的鲁棒性和通用性,并且需要大量的工程工作来使语言智能体适应新的任务或数据分布。 我们认为,从以工程为中心的语言智能体开发过渡到以数据为中心的学习是语言智能体研究的重要一步。 智能体符号学习:模拟神经网络的训练过程 为了解决上述问题,本文介绍了一种用于训练语言智能体的智能体符号学习框架。该框架的灵感来自于用于训练神经网络的连接主义学习过程。具体来说,我们将语言智能体与神经网络进行了类比: 通过这种方式,我们能够在智能体训练的背景下,使用基于语言的损失、梯度和权重来实现连接主义学习的主要组成部分,即反向传播和基于梯度的权重更新。 智能体符号学习框架的工作流程 智能体符号学习框架的工作流程如下: 智能体符号学习的优势 与现有的单独优化单个提示或工具的方法相比,智能体符号学习框架联合优化了智能体系统中的所有符号组件,包括提示、工具以及将它们堆叠到智能体系统中的管道。这种自上而下的优化方案还使智能体符号学习框架能够“整体地”优化智能体系统,避免了每个分离组件的局部最优。这使得针对复杂现实问题的语言智能体能够有效地从数据中学习,为将当前的语言智能体研究状态从以工程为中心转变为以数据为中心开辟了可能性。 此外,由于基于语言的损失函数在生成语言损失时不需要ground-truth,因此我们的框架使语言智能体能够从经验中学习,并在创建和部署到实际环境中后,刻意更新其所有符号组件,从而实现“自我进化智能体”。 实验结果和分析 我们在标准的LLM基准测试和更复杂的智能体任务(如创意写作和软件开发)上进行了一系列实验。结果表明,所提出的智能体符号学习框架在优化和设计提示和工具,以及通过学习训练数据来更新整体智能体管道方面是有效的。 结论:迈向数据中心化智能体研究的一步 本文介绍了智能体符号学习,这是一个用于智能体学习的框架,可以联合优化智能体系统中的所有符号组件。智能体符号学习框架从标准的连接主义学习过程中汲取灵感,进行符号学习。它使用基于语言的损失、梯度和优化器,根据智能体系统的整体性能来优化提示、工具和智能体管道。所提出的框架是首次尝试优化能够使用复杂管道解决复杂现实问题的智能体。我们的框架使语言智能体能够“从数据中学习”,并在创建和部署到实际环境中后进行“自我进化”。我们进行了一些概念验证实验,结果表明,智能体符号学习框架可以有效地优化不同任务复杂度的智能体。我们相信,这种从以模型为中心到以数据为中心的智能体研究的转变是朝着通用人工智能迈出的有意义的一步,并将开源智能体符号学习框架的代码和提示,以加速这一转变。 参考文献 [...]

谁将掌控AI的未来?Sam Altman 激进发声引发全球关注谁将掌控AI的未来?Sam Altman 激进发声引发全球关注

导语: 近日,OpenAI CEO Sam Altman 在《华盛顿邮报》发表专栏文章,一改往日温和形象,以强烈的措辞呼吁建立以美国为首的AI主权联盟,引发全球关注。Altman 认为,人工智能的未来正面临着“自由与民主”和“独裁统治”两种截然不同的道路,而美国及其盟友必须在这场竞赛中占据主导地位。 “没有中间道路,这是时代的抉择” Altman 在文章中开宗明义地指出:“人工智能将由谁掌控,是我们这个时代最紧迫的问题”。他认为,世界正处于一个十字路口:要么由美国及其盟友引领全球人工智能的发展,传播其益处,并促进其开放性;要么任由一些不认同我们价值观的专制国家利用 AI 来巩固和扩大他们的权力。 “没有中间道路可选——现在是决定方向的时候了。” Altman 强调,这并非危言耸听,而是迫在眉睫的现实挑战。 美国领先地位岌岌可危,中国被视为主要竞争对手 Altman 虽然承认美国目前在 AI 领域处于领先地位,但他同时警告称,这种领先优势并不稳固。全球范围内的威权政府正投入巨资,试图追赶并超越美国。他特别提到,中国明确表示,其目标是在 2030 年前成为全球 AI 的领导者。 欧洲方面也对此表示担忧,有声音警告说,赢得 AI 竞赛的国家将拥有最高权力和影响力。 Altman 的四点建议:构建以美国为中心的 AI [...]

如何利用 RAGAs 框架评估检索增强生成 (RAG) 应用效果如何利用 RAGAs 框架评估检索增强生成 (RAG) 应用效果

导语: 近年来,随着大语言模型 (LLM) 的迅速发展,检索增强生成 (RAG) 技术应运而生,为信息检索和自然语言处理领域带来了新的突破。RAG 将 LLM 与外部知识库相结合,能够更准确、更智能地回答用户问题。然而,如何有效评估 RAG 应用的效果成为了一个关键问题。本文将介绍 RAGAs 框架,一种专门用于评估 RAG 流程的工具,并结合实际案例,详细阐述其使用方法和优势。 一、RAG 技术面临的评估挑战 传统的 LLM 评估方法主要关注模型的语言生成能力,而 RAG 应用的评估则更为复杂,需要考虑检索和生成两个环节的协同作用。具体来说,RAG 应用的评估面临以下挑战: 为了解决上述挑战,我们需要一个专门针对 RAG 流程的评估框架,能够全面、客观地衡量 RAG 应用的性能。 二、RAGAs 框架:为 [...]

GPU编程的新范式:gpu.cpp将重塑计算格局GPU编程的新范式:gpu.cpp将重塑计算格局

GPU计算长期以来一直是人工智能和高性能计算领域的重要推动力,但其复杂的编程环境一直是许多开发者望而却步的门槛。然而,一个名为gpu.cpp的新项目可能正在改变这一现状,为GPU编程带来前所未有的简洁性和可移植性。 从梦想到现实:简化GPU编程 前谷歌DeepMind研究员Austin Huang最近加入Answer.ai后,立即着手实现他长期以来的一个梦想:让GPU编程变得像普通C++编程一样简单。这个梦想最终在gpu.cpp项目中得以实现。 “我们希望能够像编写普通C++代码一样编写GPU程序,”Huang解释道,”无需复杂的工具链,无需庞大的构建系统,也无需纠结于繁琐的描述符集布局。就是简单地include一个头文件,然后直接编译运行。” gpu.cpp通过巧妙地利用WebGPU作为底层API来实现这一目标。尽管名字中带有”Web”,但gpu.cpp实际上并不依赖于浏览器环境。相反,它为开发者提供了一个轻量级的接口,使他们能够直接在本地环境中进行GPU编程。 令人瞩目的性能与简洁性 为了展示gpu.cpp的威力,Huang编写了一个”Hello World”级别的程序,实现了机器学习中常用的GELU(Gaussian Error Linear Unit)激活函数。令人惊叹的是,整个编辑、编译和运行的周期仅需1-2秒,这种快速的迭代速度对于GPU编程来说是前所未有的。 更令人印象深刻的是,Huang还开发了一个名为shadertui的终端版Shadertoy克隆。这个工具能够实时加载和执行WebGPU计算着色器,而整个程序的代码量仅为150行左右,编译时间不到一秒。这充分展示了gpu.cpp在快速原型开发和实验方面的潜力。 填补GPU编程生态的空白 尽管有人可能认为gpu.cpp仅仅是对WebGPU的简单封装,但Huang强调了该项目的独特定位。他指出,当前的GPU编程主要有两种方式:一是像CUDA和ROCm这样的底层平台专用栈,二是PyTorch、JAX等框架与各种机器学习编译器的组合。 “这两种方式各有优势,但都不太适合快速原型开发和实验,”Huang解释道,”gpu.cpp的目标就是填补这个空白。它让开发者能够像编写普通C++代码一样进行GPU编程,既保留了底层控制的灵活性,又避免了繁琐的环境配置。” WebGPU:通用GPU编程的新标准? gpu.cpp的一个关键创新在于它将WebGPU转变为一个通用的GPU编程接口。这一巧妙的策略可能会对整个GPU编程生态系统产生深远影响。 “我们希望扩大GPU计算的可用性,”Huang表示,”并使自定义GPU算法能够轻松地集成到各种应用程序、模拟环境和运行时中,同时保证广泛的可移植性和易用性。” 为了展示gpu.cpp的潜力,Huang还展示了一个小型物理模拟项目——一组双摆系统的动态模拟。这个不到100行代码的程序能够立即编译和运行,充分体现了gpu.cpp的简洁性和高效性。 性能与可移植性的权衡 在可移植性方面,Huang承认存在一些权衡,但早期的实验结果令人鼓舞。一位名为@junjihashimoto的开发者使用gpu.cpp实现的简单矩阵乘法基准测试在M1 Max笔记本电脑上达到了约2.5 TFLOPS的性能,而且还有很大的优化空间。 Huang表示,未来他们计划沿着llm.c项目开辟的道路继续前进,将CUDA内核移植到WebGPU上,以探索在保持易用性和可移植性的同时能够达到多高的性能。 GPU编程的未来展望 尽管有人兴奋地宣称gpu.cpp将使开发者摆脱CUDA的束缚,但Huang保持谨慎乐观的态度。他承认,要完全取代CUDA还有很长的路要走,但gpu.cpp确实为GPU编程开辟了一条新路,让更多人能够轻松地进入GPU编程的世界。 “GPU的用途远不止训练AI模型,”Huang强调道,”我们希望通过gpu.cpp展示GPU在通用计算方面的巨大潜力。” 随着gpu.cpp的出现,GPU编程的春天似乎真的来临了。无论是AI研究人员、图形编程爱好者,还是其他领域的开发者,gpu.cpp都为他们提供了一个新的、富有吸引力的选择。 然而,关键问题仍然存在:gpu.cpp是否有潜力成为下一个CUDA,彻底改变GPU编程格局?还是说它只是昙花一现?随着项目的进一步发展和更多开发者的参与,我们将拭目以待gpu.cpp在GPU编程生态系统中的表现。 [...]

WD SN5000S固态硬盘深度评测:nCache 4.0算法表现不佳WD SN5000S固态硬盘深度评测:nCache 4.0算法表现不佳

西部数据(Western Digital)推出的SN5000S固态硬盘(SSD)近期引起了存储界的广泛关注。这款定位于OEM市场的中高端QLC硬盘,采用了全新的nCache 4.0缓存算法,本应带来性能的飞跃。然而,经过深入测试,我们发现这款产品存在诸多问题,尤其是在高占用率和脏盘状态下表现令人失望。本文将从硬件规格、性能测试到算法分析,全方位剖析SN5000S的优缺点。 硬件规格:密度之王的诞生 SN5000S采用了西部数据自研的新一代主控芯片,搭配最新的B6Q NAND闪存。主控型号为A101 000171 A1,采用12nm工艺制程,大小与MAP1602相仿。B6Q NAND闪存采用162层QLC设计,单Die容量高达1Tb(1024Gb)。得益于更大的单Die容量和先进的封装技术,2TB容量版本仅需一颗NAND芯片即可实现,这使得SN5000S成为目前市面上密度最高的SSD,无出其右。 本次评测样品包括1TB和2TB两个容量版本,分别来自不同的OEM厂商。这种做法也反映了西部数据在供应链管理上的灵活性。 性能测试:空盘亮眼,满盘崩溃 空盘状态下的表现 在空盘状态下,SN5000S展现出了不俗的性能。使用CrystalDiskMark(CDM)测试,不同容量版本的成绩高度接近,可视为误差范围内。与几款基准盘对比,SN5000S在4K随机读取性能上表现出色,甚至超过了PC411。然而,4K随机写入性能相对较弱,低于PC411。值得一提的是,在4K混合读写测试中,SN5000S表现惊人,超越了P41P,仅次于顶级SSD PVC10。 切换到Ubuntu 23.04系统,使用FIO工具进行更精确的测试。结果显示,SN5000S的4K随机写入性能确实出色,但4K随机读取性能与CDM测试结果相反,在高队列深度下仅能达到600K IOPS,限制了其整体表现。不过,混合读写性能依然令人印象深刻,无论在高队列深度还是低队列深度下都表现出色,证明了nCache 4.0算法在空盘状态下的优秀设计。 在PCMark 10存储测试中,1TB版本获得了3281分的高分,超越了PM9A1,接近SN810和SN850的水平。2TB版本略逊,得分为3245。虽然这个成绩在所有样本中属于不错水平,但考虑到SN5000S比SN580具有更高的标称顺序传输速率和更优秀的4K混合性能,这个得分并不算特别出色。 3DMark Storage测试中,SN5000S的表现中规中矩。1TB版本得分3481,而2TB版本仅为3080,性能下降明显。考虑到QLC SSD通常不会用作仿真和计算的缓存盘,这项测试的重要性相对较低。 满盘状态下的灾难性表现 然而,当填充率达到75%时,SN5000S的性能急剧下降,表现堪称灾难。性能下降幅度远超预期,即使是以回收策略懒惰著称的Ti600和BM9C1也不至于如此。 通常情况下,QLC和TLC SSD可以通过全盘填0(Full0)操作来解决高脏盘度问题,强制进行垃圾回收(GC)和SLC缓存的回写(WriteBack)释放。然而,SN5000S在这方面表现异常: 为什么会出现如此大的性能下滑?许多人可能会认为这是由于缓存耗尽(缓外)导致的。然而,通过深入分析PCMark 10的子项目成绩,我们发现真正的问题并非如此简单。 在进行75%填充率测试之前,第二个SN5000S样品经过了手动填0和TRIM操作,以确保SLC缓存的强制释放。然而,结果显示,真正灾难性的表现出现在4K随机读写项目上,尤其是CPS2和CPS3测试中。相比之下,顺序写入性能的下降幅度并不大。 [...]