打开数学大门的神奇模型——阿贝尔

大家好,今天我想和大家分享一项最新的研究成果。这是由上海交通大学生成式人工智能研究组(GAIR)提出的一款名为“阿贝尔”的大型语言模型,专门用于解决数学问题。 首先,让我们来看看为什么我们需要这样的模型。在当前的大数据时代,人工智能已经成为了我们生活中不可或缺的一部分。然而,尽管人工智能在文本理解和知识理解等任务上表现出色,但在复杂数学推理计算、物理建模、科学发现等领域,人工智能的研究却远未达到我们的期望。这就是为什么GAIR团队决定研发阿贝尔模型,以帮助我们更好地理解和解决数学问题。 那么,阿贝尔模型是如何工作的呢?在阿贝尔模型中,研究者们结合了两种先前的数学解决方法,即CoT(思维链)和PoT(思维程序)。CoT方法通过一步步的自然语言描述来解决问题,但在处理复杂的数学或算法推理过程时,可能会遇到困难。而PoT方法则是通过编程的方式来解决问题,尽管这种方法在处理更抽象的推理场景时可能会遇到困难,但它利用Python解释器来大幅简化数学求解过程。 为了充分利用这两种方法的优点,研究团队创建了一个新的数学混合指令微调数据集MathInstruct,它广泛覆盖了不同的数学领域和复杂程度,并将CoT和PoT原理结合到一起。然后,他们使用这个数据集对模型进行训练,得到了一系列不同大小的阿贝尔模型。 研究者们使用了一系列的数据集来对阿贝尔模型进行评估,结果显示,相比于之前的方法,阿贝尔模型能更好地处理领域外的数据集,并能大幅提升开源LLM的数学推理能力。 阿贝尔模型的出现,无疑为我们解决数学问题提供了一种新的可能。无论你是在日常生活中遇到的购物预算问题,还是在工作中遇到的复杂金融投资问题,阿贝尔模型都能为你提供有效的解决方案。这个新的数学模型,不仅能够应对各种类型的数学问题,还能够在不同的数据集中都取得很好的效果,表现出了强大的泛化能力。这对于我们在日常生活中解决各种数学问题,甚至在更高层次的金融投资、科学研究等领域,都有着巨大的潜力和价值。 你可能会问,我能在哪里找到这个神奇的模型呢?别担心,阿贝尔模型的代码已经在GitHub上开源,研究团队也在Hugging Face发布了训练好的不同大小的模型,供大家免费使用。 参考链接:论文链接代码链接数据集与模型链接

一种新型数学问题解决模型——MAmmoTH

在我们的日常生活中,数学问题无处不在,从简单的购物预算,到复杂的金融投资计算,都需要我们运用数学来解决。然而,对于许多人来说,数学问题可能并不是那么容易解决。那么,有没有一种方式,可以让计算机帮助我们解决这些问题呢? 最近,来自滑铁卢大学和俄亥俄州立大学等机构的研究团队提出了一种名为MAmmoTH的大型语言模型(LLM),专门针对解决数学问题。这个新模型充分利用了两个先前的数学解决方法,即CoT(思维链)和PoT(思维程序)。 在CoT方法中,问题通过一步步的自然语言描述来解决,这个方法的优点是能覆盖大多数数学科目,但在计算精度和复杂的数学或算法推理过程方面存在困难。而PoT方法则是通过编程的方式来解决问题,利用Python解释器来简化数学求解过程,但PoT在处理更抽象的推理场景时可能会遇到困难。 为了充分利用这两种方法的优点,研究团队创建了一个新的数学混合指令微调数据集MathInstruct,它广泛覆盖了不同的数学领域和复杂程度,并将CoT和PoT原理结合到一起。 为了测试这个新的数学模型,研究者们使用了一系列的数据集,包括GSM8K、MATH、AQuA-RAT、NumGLUE等,对模型进行了评估。结果显示,相比于之前的方法,MAmmoTH模型能更好地处理领域外的数据集,并能大幅提升开源LLM的数学推理能力。 这个新的数学模型MAmmoTH,不仅能够应对各种类型的数学问题,还能够在不同的数据集中都取得很好的效果,表现出了强大的泛化能力。这对于我们在日常生活中解决各种数学问题,甚至在更高层次的金融投资、科学研究等领域,都有着巨大的潜力和价值。 这项研究的代码已经在GitHub上开源,研究团队也在Hugging Face发布了训练好的不同大小的模型,供大家免费使用。如果你对数学问题感到头疼,或者你是一个对AI有着极高热情的研究者,那么这个新的数学模型MAmmoTH可能正是你需要的工具。 参考资料:论文:https://arxiv.org/pdf/2309.05653.pdf代码:https://github.com/TIGER-AI-Lab/MAmmoTH数据集与模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct

书生·浦语 大语言模型确实很牛!

书生·浦语 目前开源的 20B模型性能超过了同参数规模竞争者。 更好的一点是,书生·浦语开源了训练和部署工具链。 Demo:书生·浦语-对话-20B · 模型库 (modelscope.cn) 相比其它竞争者,这个模型的背景也更加有实力,可持续性会更好。 InternLM/README-zh-Hans.md at main · InternLM/InternLM (github.com)

vLLM 加速LLM推理24倍

UC伯克利开源了 vLLM 这个大语言模型推理和服务引擎。 主要亮点包括: 主要技术亮点在于PagedAttention算法。它通过在非连续内存空间中存储注意力键值,有效管理内存。 使用vLLM可以很容易完成离线推理和在线部署,提供类似OpenAI API的服务。项目对于降低LLM服务的成本和难度具有重要意义,有利于更多机构和团队部署自己的LLM服务。vLLM是一个值得关注的开源项目,解决了LLM服务效率和可伸缩性方面的重大挑战。

Ghost in the Minecraft:突破莫拉维克悖论,通用人工智能取得重要突破!

近期,来自商汤、清华大学、上海人工智能实验室等机构的研究人员提出了一种全新的框架——Ghost in the Minecraft(GITM)。GITM可以将大语言模型与基于文本的知识和记忆整合在一起,在经典游戏《我的世界》中打造出通才AI智能体。这一研究为通用人工智能(AGI)的发展迈出了重要一步。 GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率,成功解锁了完整的科技树的262个物品。同时,GITM在最受关注的「获取钻石」任务上取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。GITM的训练效率也达到新高度,环境交互步数只需已有方法的万分之一,单一CPU节点训练2天即可完成。 GITM的成功突破有助于推动通用人工智能(AGI)的研究目标加速实现,发展出能够在开放世界环境中像人一样进行感知、理解和交互的智能体。这将为机器人和自动驾驶等产业带来巨大突破和进步,有效解决现实世界中复杂环境和各类长尾问题,推动AI技术更大规模的产业落地。 项目主页: https://github.com/OpenGVLab/GITM GITM能力和应用展望 GITM能够在《我的世界》中面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对。GITM还可以进一步应用在《我的世界》更加复杂的任务中,如建造避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。 这些任务展示了GITM强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。 商汤科技推进通用人工智能发展 作为全球人工智能领域的领军企业,商汤科技以「大模型+大算力」推进AGI(通用人工智能)发展的战略布局。商汤科技在多模态、多任务通用大模型领域快速发展,以「日日新SenseNova」大模型体系为核心,不断助力创新技术在智能汽车、智慧生活、智慧商业和智慧城市等领域的快速应用。 此外,商汤基于OpenDILab决策AI平台开发的AI模型DI-star在《星际争霸》中战胜了曾经的大中华区冠军,展示出强大的决策AI能力。GITM的成功将推动自动驾驶等应用处理复杂任务的能力更上一层楼,打破更高的技术天花板。

GPT的运用和训练

对GPT的运用和训练,这里给出以下几点总结: GPT已经非常强大了,但仍存在诸多局限。合理使用与人工相结合是目前应用的一个方向。提高模型本身和与模型交互的方式仍有很多可以改进的地方。 OpenAI联合创始人亲自上场科普GPT,让技术小白也能理解最强AI – 知乎 (zhihu.com)

斯坦福最新Sophia优化器比Adam快2倍

斯坦福大学最近发布了一篇研究论文,提出了一种名为Sophia的新型优化器,用于提高大型语言模型(LLM)的预训练效率。与目前广泛使用的Adam优化器相比,Sophia优化器在预训练GPT-2等模型时可以将训练时间减少约50%。这意味着在相同的预算下,Sophia优化器可以实现更好的预训练损失。该优化器利用轻量级二阶方法,通过对Hessian矩阵对角线的廉价随机估计来作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。 关键概念 实验结果 实验结果表明,Sophia优化器在预训练大型语言模型时表现优于Adam和Lion优化器。在相同的步数下,使用Sophia预训练的模型在多数任务上优于使用Adam和Lion预训练的模型。此外,使用Sophia预训练100K步的模型与使用Adam预训练200K步的模型具有相当的性能。这意味着Sophia优化器可以在更短的时间内实现相同或更好的预训练损失。

QLoRA: 高效Finetuning 量化 LLMs

Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。 QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存: (a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型; (b)双重量化,通过量化量化常数来减少平均内存占用; (c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。 结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。 artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)

VanillaNet: 极简主义的力量

最近,一篇名为《VanillaNet: the Power of Minimalism in Deep Learning》的论文引起了广泛关注。该论文提出了一种名为VanillaNet的极简神经网络模型,该模型以其简单的结构和高性能表现出色。VanillaNet使用类似于LeNet和AlexNet的结构来达到或超越现有的视觉骨干网络。 VanillaNet的核心工作是如何在没有复杂链接和注意力机制的情况下,让一个浅层网络尽可能地提升精度。为了实现这一目标,VanillaNet采用了两个优化策略:深度训练(Deep training)策略和基于级数启发的激活函数。 在ImageNet上的实验结果显示,6层的VanillaNet可以超过ResNet-34,而13层的VanillaNet在ImageNet上达到了83%的top1精度,超过了几百层网络的性能,同时展示了出色的硬件效率优势。在相同精度时,VanillaNet的速度比Swin-S快了1倍以上。 该论文的研究成果为浅层神经网络的发展打开了新的大门,让我们重新思考深度神经网络性能提升的关键因素:深度、感受野、注意力机制还是参数量?尽管VanillaNet已在实际业务中得到应用,但它仍有很多提升空间,如预训练、蒸馏、结构优化等。这一成果为未来新架构和新应用带来了无限可能。

知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型

2023年5月27日,知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术官李大海宣布,知乎和面壁智能共同研发的中文基座大模型CPM-Bee10b全面开源,并发布了智能大模型产品“露卡”和知乎大模型应用功能“搜索聚合卡”。李大海表示,知乎将携手面壁智能,让中国用户在大模型时代享受到最优质的服务。 知乎与面壁智能首度合作,推出开源大模型CPM-Bee10b 在“2023知乎发现大会”上,知乎发布了大语言模型“知海图AI”并内测首个站内大模型应用功能“热榜摘要”。此举令知乎成为国内首批具备大语言模型能力的公司,并且让更多人开始关注知乎的技术发展。时隔一个月之后,知乎在2023数博会上再度带来惊喜。 知乎联合面壁智能发布了首个开源中英文基座大模型CPM-Bee 10b。李大海介绍,该模型从零开始自主训练,基于Transformer架构,中英双语表现优秀,拥有百亿量级参数、超过3万亿高质量语料。经过ZeroCLUE的评测,CPM-Bee10b 以平均 79.8 分登顶中文基座模型,并且英文基座模型得到了68的平均分。“CPM-Bee10b 将全面开源,并允许商用。”李大海称,面壁智能一直坚持开源路线,未来也会持续拥抱开源,促进大模型领域技术和生态的繁荣。 智能大模型产品“露卡”亮相,展现全面性能 发布会上,知乎还带了最新的智能大模型产品“露卡”(Luca)。该产品在开源基础模型上又有进一步性能提升,可以进行智能交互并支持多轮对话。从评测结果来看,有65%的结果性能等于或优于ChatGPT。在发布会现场演示中,“露卡”既展示了写文案、藏头诗、解数学题等“全科”能力,也能完成例如“如何制作毛血旺”等回答。令人惊喜的是,“露卡”还拥有图片理解能力,甚至可以查找论文并生成摘要,这表明“露卡”拥有非常优秀的多模态理解能力。 知乎推出大模型应用功能“搜索聚合卡”,助力用户高效获取信息 除了基础能力,知乎也是国内率先在应用层面探索大模型产品的公司。继“热榜摘要”之后,知乎带来了又一款站内的大模型应用功能“搜索聚合”。该产品将大模型能力应用到了知乎搜索上,每当用户触发搜索时,系统就会从大量提问和回答中聚合观点,提高用户获取信息、形成决策的效率。发布会当天,“露卡”和“搜索聚合”都开启了正式内测。李大海表示,知乎将继续夯实大模型基础能力,迭代应用产品,为让中国用户享受到一流的大模型服务而努力奋斗。 未来展望:知乎致力于为用户提供一流的大模型服务 本次发布会标志着知乎在大模型领域的技术实力再次得到了充分展示,同时也展现出知乎在人工智能领域的技术积累和创新能力。在与面壁智能的合作中,双方共同推进了大模型的研发,为中国用户带来了更多优质的服务。 未来,知乎将继续加强与各方的合作,进一步拓展大模型在实际应用中的价值。通过不断优化和升级大模型技术,以及与实际场景相结合的应用产品,知乎将努力成为大模型领域的引领者,让更多用户在大模型时代享受到一流的服务。