Category: AGI

越级的语言模型:Hugging Face的Zephyr 7B Alpha越级的语言模型:Hugging Face的Zephyr 7B Alpha

你是否曾经想过,人工智能能否与我们进行自如的对话,就像人与人交谈一样自然?欢迎你来到这个博客,今天,我们将要深入探讨一款名为Zephyr 7B Alpha的语言模型,这款语言模型由Hugging Face公司开发,它正在积极推动人工智能语言处理的边界。 Zephyr 7B Alpha:一款全新的语言模型 Zephyr 7B Alpha是一款强大的7B参数的GPT类模型,这款模型的主要语言是英语。它是基于mistralai/Mistral-7B-v0.1模型进行微调的,使用了一系列公开可用的、合成的数据集进行训练。它是Zephyr系列的第一个模型,专门为了提供帮助而训练。 Zephyr 7B Alpha的模型源 Zephyr 7B Alpha的源代码位于GitHub的Hugging Face仓库中,你可以在此浏览和学习。同时,Hugging Face也提供了一个在线演示,你可以在那里直接体验Zephyr 7B Alpha的能力。 Zephyr 7B Alpha的应用与局限性 Zephyr 7B Alpha的初始微调是基于UltraChat数据集的一个变体,该数据集包含了由ChatGPT生成的各种合成对话。然后,我们进一步使用Hugging Face的DPOTrainer在openbmb/UltraFeedback数据集上对模型进行了对齐。因此,你可以使用这个模型进行聊天,并可以在我们的在线演示中测试其能力。 虽然Zephyr 7B Alpha是一个强大的模型,但也存在一些局限性。由于它没有使用RLHF等技术进行人工偏好对齐,或者像ChatGPT那样使用环路过滤响应进行部署,所以在某些情况下,模型可能会产生问题的输出。 [...]

Zephyr 7B Alpha:打破边界的人工智能语言模型Zephyr 7B Alpha:打破边界的人工智能语言模型

无论你是AI研究者,还是对人工智能技术有所热爱的普通人,都一定听说过Hugging Face,这家以人工智能为核心,致力于开放研究和推广最前沿技术的公司。今天,我们将一起探索他们的新作品——Zephyr 7B Alpha模型,一款融合了最先进技术,且有着广泛应用场景的语言模型。我们会通过这篇文章深入理解其工作原理,应用限制,以及训练过程。让我们一起踏上这次知识的旅程吧。 Zephyr 7B Alpha:一款全新的人工智能语言模型 Zephyr是一系列训练有素、能够充当帮助助手的语言模型系列的开山之作,而Zephyr-7B-α则是这一系列的首个模型。这款模型是基于mistralai/Mistral-7B-v0.1进行微调的,同时也使用了公开可用的合成数据集进行训练。这种独特的训练方法使模型在MT Bench上的性能大幅提升,使其更具有帮助性。然而,这也意味着模型可能会在被提示时生成问题文本,因此只建议将其用于教育和研究目的。 Zephyr-7B-α是使用了7B参数的GPT-like模型,主要使用英语进行交互,其开源许可为MIT。此外,你可以通过以下链接访问其源代码库和演示页面: 应用场景与限制 Zephyr-7B-α模型首先在UltraChat数据集的变体上进行了微调,该数据集包含了由ChatGPT生成的各种合成对话,然后使用了DPOTrainer对模型进行了进一步的校准。因此,这款模型可以用于聊天,并且你可以在我们的演示页面上测试其功能。 然而,Zephyr-7B-α并没有像ChatGPT那样应用RLHF技术来根据人类偏好进行对齐,或者使用循环过滤的方式来部署,因此模型可能会生成问题输出(特别是在被提示时)。此外,基础模型(mistralai/Mistral-7B-v0.1)的训练所使用的语料库的大小和组成也不为人知,但可能包含了各种Web数据和技术源,比如书籍和代码。 训练与评估 Zephyr 7B Alpha在评估集上取得了以下结果: 训练过程使用了以下超参数: Zephyr 7B Alpha是Hugging Face的一款强大的人工智能语言模型,它的诞生标志着我们在语言处理技术上取得了一次重大突破。虽然这款模型有一些已知的限制,如可能生成问题输出等,但通过不断的学习和改进,我们相信这些问题将会被解决,而模型的性能也将得到进一步的提升。对于那些寻求深入了解最新人工智能技术的读者来说,Zephyr 7B Alpha无疑提供了一个极好的研究对象。 在这个日新月异的时代,每一次的突破,每一次的创新,都代表着我们对未知世界的一次更深入的探索。让我们一起期待Zephyr 7B Alpha在未来能够带来更多的惊喜! [...]

XAgent:面向复杂任务解决的自主智能体XAgent:面向复杂任务解决的自主智能体

XAgent 是一个开源的基于大型语言模型(LLM)的自主智能体,能够自动解决各种任务。它旨在成为一个通用的智能体,应用于各种任务。尽管 XAgent 目前仍处于早期阶段,我们正在不断努力改进它。 我们的目标是创建一个可以解决任何给定任务的超级智能体。我们欢迎全职、兼职等各种形式的合作。如果您对智能体的前沿感兴趣,并希望加入我们实现真正的自主智能体,欢迎与我们联系。 XAgent 特点 XAgent 具有以下特点: 工具服务器 工具服务器为 XAgent 提供强大和安全的工具来解决任务的服务器。它是一个 Docker 容器,为 XAgent 提供一个安全的运行环境。目前,工具服务器提供以下工具: 快速开始 首先,您需要安装 Docker 和 docker-compose。然后,您需要构建工具服务器的镜像。在 ToolServer 目录下,运行以下命令: 这将构建工具服务器的镜像并启动工具服务器的容器。如果您想在后台运行容器,请使用 docker-compose up -d。 在启动 ToolServer [...]

vLLM:让大型模型推理更快的工具vLLM:让大型模型推理更快的工具

今天,我要给大家介绍一款名为vLLM的神奇工具。它的主要功能是加速大型语言模型(如OpenAI的GPT-3)的推理速度。如果你是NLP(自然语言处理)领域的研究员或开发者,我相信这个工具可能会对你的工作有所帮助。 为什么我们需要vLLM? 在大规模语言模型运行时,我们常常遇到一个问题:显存不足。这是因为在生成新的单词或者词语(token)时,我们需要存储一些称为 keys 和 values的数据(我们可以把它们看作是模型用来生成新token的”记忆”)在GPU的显存中。然而,这些数据通常非常大,而且大小也会不断变化,这使得显存管理变得困难。传统的管理方式往往会造成显存的60%-80%的浪费。 这就是vLLM要解决的问题。它引入了一种名为PagedAttention的新技术,可以有效地管理这些keys和values,使得显存的使用效率接近最优(浪费比例低于4%)。这样一来,我们就可以使用更大的数据批次进行运算,从而提高GPU的并行计算能力。 vLLM的核心技术:PagedAttention PagedAttention的工作原理受到了操作系统中虚拟内存和分页的启发。它将每个序列的数据划分为块,每个块包含固定数量的keys和values。这些块不需要连续的内存,因此可以更灵活地对它们进行管理。 此外,PagedAttention还支持内存共享,也就是说,当用一个提示生成多个不同的序列时,可以共享计算量和显存。这种内存共享机制可以大幅降低显存需求(最高可降低55%),从而进一步提升推理速度。 如何使用vLLM? vLLM的使用非常简单。首先,使用pip命令安装vLLM: 然后,你就可以使用vLLM来生成文本了: vLLM也支持在线服务。你可以使用以下命令启动一个在线服务: 然后,你就可以通过HTTP请求来调用这个服务了: 如果你对vLLM感兴趣,可以在这里查阅更多信息。希望这个工具能对你的工作或学习有所帮助! [...]

LMDeploy: 你的AI模型部署和服务的全方位解决方案LMDeploy: 你的AI模型部署和服务的全方位解决方案

欢迎来到LMDeploy的世界!LMDeploy是由MMDeploy和MMRazor团队联合打造的一款全面的工具箱,旨在帮助你轻松、高效地实现LLM任务的轻量化、部署和服务。 高效推理引擎 TurboMind 首先,让我为你介绍一下我们的高效推理引擎TurboMind。它是基于FasterTransformer构建的,能以极其高效的方式执行 InternLM、LLaMA、vicuna 等模型在NVIDIA GPU上的推理。想象一下,一个强大且高效的工具正在为你处理复杂的AI计算,这就是TurboMind为你提供的! 交互推理方式 我们知道,在多轮对话中,如果每次都处理整个对话历史,会消耗大量的计算资源。因此,LMDeploy引入了一种交互推理方式。它通过缓存对话过程中attention的k/v值,记住对话历史,避免了重复处理历史会话,提升了推理效率。 多GPU部署和量化 LMDeploy还提供了全面的模型部署和量化支持。无论你的AI模型规模大小,我们都已经完成了验证。这意味着,你可以更自由地选择硬件资源,无需担心模型的部署和量化问题。 persistent batch推理 最后,我们还有一个优化模型执行效率的神秘武器,那就是persistent batch推理。这个功能可以进一步优化你的模型,让你的AI应用运行得更快、更流畅。 LMDeploy就像一个多功能的瑞士军刀,为你的AI模型提供全方位的支持。从高效推理引擎到灵活的模型部署,再到持续优化的推理方式,我们始终在努力为你提供最佳的AI部署和服务解决方案。让我们一起,开启AI的未来! [...]

打开数学大门的神奇模型——阿贝尔打开数学大门的神奇模型——阿贝尔

大家好,今天我想和大家分享一项最新的研究成果。这是由上海交通大学生成式人工智能研究组(GAIR)提出的一款名为“阿贝尔”的大型语言模型,专门用于解决数学问题。 首先,让我们来看看为什么我们需要这样的模型。在当前的大数据时代,人工智能已经成为了我们生活中不可或缺的一部分。然而,尽管人工智能在文本理解和知识理解等任务上表现出色,但在复杂数学推理计算、物理建模、科学发现等领域,人工智能的研究却远未达到我们的期望。这就是为什么GAIR团队决定研发阿贝尔模型,以帮助我们更好地理解和解决数学问题。 那么,阿贝尔模型是如何工作的呢?在阿贝尔模型中,研究者们结合了两种先前的数学解决方法,即CoT(思维链)和PoT(思维程序)。CoT方法通过一步步的自然语言描述来解决问题,但在处理复杂的数学或算法推理过程时,可能会遇到困难。而PoT方法则是通过编程的方式来解决问题,尽管这种方法在处理更抽象的推理场景时可能会遇到困难,但它利用Python解释器来大幅简化数学求解过程。 为了充分利用这两种方法的优点,研究团队创建了一个新的数学混合指令微调数据集MathInstruct,它广泛覆盖了不同的数学领域和复杂程度,并将CoT和PoT原理结合到一起。然后,他们使用这个数据集对模型进行训练,得到了一系列不同大小的阿贝尔模型。 研究者们使用了一系列的数据集来对阿贝尔模型进行评估,结果显示,相比于之前的方法,阿贝尔模型能更好地处理领域外的数据集,并能大幅提升开源LLM的数学推理能力。 阿贝尔模型的出现,无疑为我们解决数学问题提供了一种新的可能。无论你是在日常生活中遇到的购物预算问题,还是在工作中遇到的复杂金融投资问题,阿贝尔模型都能为你提供有效的解决方案。这个新的数学模型,不仅能够应对各种类型的数学问题,还能够在不同的数据集中都取得很好的效果,表现出了强大的泛化能力。这对于我们在日常生活中解决各种数学问题,甚至在更高层次的金融投资、科学研究等领域,都有着巨大的潜力和价值。 你可能会问,我能在哪里找到这个神奇的模型呢?别担心,阿贝尔模型的代码已经在GitHub上开源,研究团队也在Hugging Face发布了训练好的不同大小的模型,供大家免费使用。 参考链接:论文链接代码链接数据集与模型链接 [...]

一种新型数学问题解决模型——MAmmoTH一种新型数学问题解决模型——MAmmoTH

在我们的日常生活中,数学问题无处不在,从简单的购物预算,到复杂的金融投资计算,都需要我们运用数学来解决。然而,对于许多人来说,数学问题可能并不是那么容易解决。那么,有没有一种方式,可以让计算机帮助我们解决这些问题呢? 最近,来自滑铁卢大学和俄亥俄州立大学等机构的研究团队提出了一种名为MAmmoTH的大型语言模型(LLM),专门针对解决数学问题。这个新模型充分利用了两个先前的数学解决方法,即CoT(思维链)和PoT(思维程序)。 在CoT方法中,问题通过一步步的自然语言描述来解决,这个方法的优点是能覆盖大多数数学科目,但在计算精度和复杂的数学或算法推理过程方面存在困难。而PoT方法则是通过编程的方式来解决问题,利用Python解释器来简化数学求解过程,但PoT在处理更抽象的推理场景时可能会遇到困难。 为了充分利用这两种方法的优点,研究团队创建了一个新的数学混合指令微调数据集MathInstruct,它广泛覆盖了不同的数学领域和复杂程度,并将CoT和PoT原理结合到一起。 为了测试这个新的数学模型,研究者们使用了一系列的数据集,包括GSM8K、MATH、AQuA-RAT、NumGLUE等,对模型进行了评估。结果显示,相比于之前的方法,MAmmoTH模型能更好地处理领域外的数据集,并能大幅提升开源LLM的数学推理能力。 这个新的数学模型MAmmoTH,不仅能够应对各种类型的数学问题,还能够在不同的数据集中都取得很好的效果,表现出了强大的泛化能力。这对于我们在日常生活中解决各种数学问题,甚至在更高层次的金融投资、科学研究等领域,都有着巨大的潜力和价值。 这项研究的代码已经在GitHub上开源,研究团队也在Hugging Face发布了训练好的不同大小的模型,供大家免费使用。如果你对数学问题感到头疼,或者你是一个对AI有着极高热情的研究者,那么这个新的数学模型MAmmoTH可能正是你需要的工具。 参考资料:论文:https://arxiv.org/pdf/2309.05653.pdf代码:https://github.com/TIGER-AI-Lab/MAmmoTH数据集与模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct [...]

书生·浦语 大语言模型确实很牛!书生·浦语 大语言模型确实很牛!

书生·浦语 目前开源的 20B模型性能超过了同参数规模竞争者。 更好的一点是,书生·浦语开源了训练和部署工具链。 Demo:书生·浦语-对话-20B · 模型库 (modelscope.cn) 相比其它竞争者,这个模型的背景也更加有实力,可持续性会更好。 InternLM/README-zh-Hans.md at main · InternLM/InternLM (github.com) [...]

vLLM 加速LLM推理24倍vLLM 加速LLM推理24倍

UC伯克利开源了 vLLM 这个大语言模型推理和服务引擎。 主要亮点包括: 主要技术亮点在于PagedAttention算法。它通过在非连续内存空间中存储注意力键值,有效管理内存。 使用vLLM可以很容易完成离线推理和在线部署,提供类似OpenAI API的服务。项目对于降低LLM服务的成本和难度具有重要意义,有利于更多机构和团队部署自己的LLM服务。vLLM是一个值得关注的开源项目,解决了LLM服务效率和可伸缩性方面的重大挑战。 [...]

Ghost in the Minecraft:突破莫拉维克悖论,通用人工智能取得重要突破!Ghost in the Minecraft:突破莫拉维克悖论,通用人工智能取得重要突破!

近期,来自商汤、清华大学、上海人工智能实验室等机构的研究人员提出了一种全新的框架——Ghost in the Minecraft(GITM)。GITM可以将大语言模型与基于文本的知识和记忆整合在一起,在经典游戏《我的世界》中打造出通才AI智能体。这一研究为通用人工智能(AGI)的发展迈出了重要一步。 GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率,成功解锁了完整的科技树的262个物品。同时,GITM在最受关注的「获取钻石」任务上取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。GITM的训练效率也达到新高度,环境交互步数只需已有方法的万分之一,单一CPU节点训练2天即可完成。 GITM的成功突破有助于推动通用人工智能(AGI)的研究目标加速实现,发展出能够在开放世界环境中像人一样进行感知、理解和交互的智能体。这将为机器人和自动驾驶等产业带来巨大突破和进步,有效解决现实世界中复杂环境和各类长尾问题,推动AI技术更大规模的产业落地。 项目主页: https://github.com/OpenGVLab/GITM GITM能力和应用展望 GITM能够在《我的世界》中面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对。GITM还可以进一步应用在《我的世界》更加复杂的任务中,如建造避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。 这些任务展示了GITM强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。 商汤科技推进通用人工智能发展 作为全球人工智能领域的领军企业,商汤科技以「大模型+大算力」推进AGI(通用人工智能)发展的战略布局。商汤科技在多模态、多任务通用大模型领域快速发展,以「日日新SenseNova」大模型体系为核心,不断助力创新技术在智能汽车、智慧生活、智慧商业和智慧城市等领域的快速应用。 此外,商汤基于OpenDILab决策AI平台开发的AI模型DI-star在《星际争霸》中战胜了曾经的大中华区冠军,展示出强大的决策AI能力。GITM的成功将推动自动驾驶等应用处理复杂任务的能力更上一层楼,打破更高的技术天花板。 [...]