Day: May 27, 2023

QLoRA: 高效Finetuning 量化 LLMsQLoRA: 高效Finetuning 量化 LLMs

Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。 QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存: (a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型; (b)双重量化,通过量化量化常数来减少平均内存占用; (c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。 结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。 artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com) [...]

VanillaNet: 极简主义的力量VanillaNet: 极简主义的力量

最近,一篇名为《VanillaNet: the Power of Minimalism in Deep Learning》的论文引起了广泛关注。该论文提出了一种名为VanillaNet的极简神经网络模型,该模型以其简单的结构和高性能表现出色。VanillaNet使用类似于LeNet和AlexNet的结构来达到或超越现有的视觉骨干网络。 VanillaNet的核心工作是如何在没有复杂链接和注意力机制的情况下,让一个浅层网络尽可能地提升精度。为了实现这一目标,VanillaNet采用了两个优化策略:深度训练(Deep training)策略和基于级数启发的激活函数。 在ImageNet上的实验结果显示,6层的VanillaNet可以超过ResNet-34,而13层的VanillaNet在ImageNet上达到了83%的top1精度,超过了几百层网络的性能,同时展示了出色的硬件效率优势。在相同精度时,VanillaNet的速度比Swin-S快了1倍以上。 该论文的研究成果为浅层神经网络的发展打开了新的大门,让我们重新思考深度神经网络性能提升的关键因素:深度、感受野、注意力机制还是参数量?尽管VanillaNet已在实际业务中得到应用,但它仍有很多提升空间,如预训练、蒸馏、结构优化等。这一成果为未来新架构和新应用带来了无限可能。 [...]

知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型

2023年5月27日,知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术官李大海宣布,知乎和面壁智能共同研发的中文基座大模型CPM-Bee10b全面开源,并发布了智能大模型产品“露卡”和知乎大模型应用功能“搜索聚合卡”。李大海表示,知乎将携手面壁智能,让中国用户在大模型时代享受到最优质的服务。 知乎与面壁智能首度合作,推出开源大模型CPM-Bee10b 在“2023知乎发现大会”上,知乎发布了大语言模型“知海图AI”并内测首个站内大模型应用功能“热榜摘要”。此举令知乎成为国内首批具备大语言模型能力的公司,并且让更多人开始关注知乎的技术发展。时隔一个月之后,知乎在2023数博会上再度带来惊喜。 知乎联合面壁智能发布了首个开源中英文基座大模型CPM-Bee 10b。李大海介绍,该模型从零开始自主训练,基于Transformer架构,中英双语表现优秀,拥有百亿量级参数、超过3万亿高质量语料。经过ZeroCLUE的评测,CPM-Bee10b 以平均 79.8 分登顶中文基座模型,并且英文基座模型得到了68的平均分。“CPM-Bee10b 将全面开源,并允许商用。”李大海称,面壁智能一直坚持开源路线,未来也会持续拥抱开源,促进大模型领域技术和生态的繁荣。 智能大模型产品“露卡”亮相,展现全面性能 发布会上,知乎还带了最新的智能大模型产品“露卡”(Luca)。该产品在开源基础模型上又有进一步性能提升,可以进行智能交互并支持多轮对话。从评测结果来看,有65%的结果性能等于或优于ChatGPT。在发布会现场演示中,“露卡”既展示了写文案、藏头诗、解数学题等“全科”能力,也能完成例如“如何制作毛血旺”等回答。令人惊喜的是,“露卡”还拥有图片理解能力,甚至可以查找论文并生成摘要,这表明“露卡”拥有非常优秀的多模态理解能力。 知乎推出大模型应用功能“搜索聚合卡”,助力用户高效获取信息 除了基础能力,知乎也是国内率先在应用层面探索大模型产品的公司。继“热榜摘要”之后,知乎带来了又一款站内的大模型应用功能“搜索聚合”。该产品将大模型能力应用到了知乎搜索上,每当用户触发搜索时,系统就会从大量提问和回答中聚合观点,提高用户获取信息、形成决策的效率。发布会当天,“露卡”和“搜索聚合”都开启了正式内测。李大海表示,知乎将继续夯实大模型基础能力,迭代应用产品,为让中国用户享受到一流的大模型服务而努力奋斗。 未来展望:知乎致力于为用户提供一流的大模型服务 本次发布会标志着知乎在大模型领域的技术实力再次得到了充分展示,同时也展现出知乎在人工智能领域的技术积累和创新能力。在与面壁智能的合作中,双方共同推进了大模型的研发,为中国用户带来了更多优质的服务。 未来,知乎将继续加强与各方的合作,进一步拓展大模型在实际应用中的价值。通过不断优化和升级大模型技术,以及与实际场景相结合的应用产品,知乎将努力成为大模型领域的引领者,让更多用户在大模型时代享受到一流的服务。 [...]

ConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNetsConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNets

由于改进的架构和更好的表示学习框架的推动,视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如,现代卷积神经网络(ConvNets),以 ConvNeXt 为代表,在各种场景中表现出强大的性能。尽管这些模型最初是为具有 ImageNet 标签的监督学习设计的,但它们也可能从自监督学习技术(如遮蔽自动编码器(MAE))中受益。然而,我们发现简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积遮蔽自动编码器框架和一个新的全局响应归一化(GRN)层,这个层可以添加到 ConvNeXt 架构中以增强通道间特征竞争。这种自监督学习技术和架构改进的共同设计产生了一个名为 ConvNeXt V2 的新模型族,它显著提高了纯粹的 ConvNets 在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割。我们还提供了各种尺寸的预训练 ConvNeXt V2 模型,从参数数量为 370 万的高效 Atto 模型(在 ImageNet 上的 top-1 准确率为 [...]