ConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNets

由于改进的架构和更好的表示学习框架的推动,视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如,现代卷积神经网络(ConvNets),以 ConvNeXt 为代表,在各种场景中表现出强大的性能。尽管这些模型最初是为具有 ImageNet 标签的监督学习设计的,但它们也可能从自监督学习技术(如遮蔽自动编码器(MAE))中受益。然而,我们发现简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积遮蔽自动编码器框架和一个新的全局响应归一化(GRN)层,这个层可以添加到 ConvNeXt 架构中以增强通道间特征竞争。这种自监督学习技术和架构改进的共同设计产生了一个名为 ConvNeXt V2 的新模型族,它显著提高了纯粹的 ConvNets 在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割。我们还提供了各种尺寸的预训练 ConvNeXt V2 模型,从参数数量为 370 万的高效 Atto 模型(在 ImageNet 上的 top-1 准确率为 76.7%),到使用公共训练数据达到最先进的 88.9% 准确率的 6.5 亿参数的 Huge 模型。 [2301.00808] ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (arxiv.org)

大模型能力的“涌现”机制被谷歌发现

大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研究来更好地理解这些现象。 谷歌的这篇论文提供了有关语言模型的ICL行为如何随着模型参数而改变的重要见解,以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明,不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是,大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务,而小型模型则更依赖于先验知识。 此外,研究者还发现,指令调优加强了语义先验知识的使用,而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为,同时也为未来的研究提供了方向,包括为什么这些现象会与模型参数规模相关等问题。 未来的研究可以探索不同类型的语言模型之间的差异,以及它们的涌现能力如何随着训练数据集的规模变化而改变。 此外,可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略,以提高语言模型的性能。 最终,我们希望通过深入研究语言模型的涌现能力,能够更好地理解它们如何执行复杂的自然语言处理任务,并为未来的人工智能发展提供更好的基础。 论文地址:https://arxiv.org/pdf/2303.03846.pdf

InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现,实现了SOTA,有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。 gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com) [2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (arxiv.org)

BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。 BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。 sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

RMT 突破LLM百万Tokens上下文长度

Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。 2304.11062.pdf (arxiv.org)

AGI将复活互联网精神

移动互联网的App时代,导致了信息的孤岛化。一个个超级App,想将自己打造成综合体,用户无论需要什么,都可以不用离开App。 App们通过阻止搜索引擎的爬虫进入自己的“花园”,将用户圈定在自己的领地,从根本上破坏了互联网的开放共享的精神。 不过,随着AGI时代的到来,用户和应用的交互方式发生了根本性的变革。应用对用户的意图的理解能力获得了突飞猛进的增强。这使得GUI交互不在重要,文本和语言交互即将重新成为主流。 虽然GUI重新被LUI(语言UI)替代,App的优势不再存在。更进一步的是HTML5的不断成熟,性能和交互能力方面App的优势也被削弱。而随着AGI和搜索的结合,新一代搜索(new Bing)将重新把用户的注意力拉回搜索引擎。App们辛苦建立的花园围墙即将倒塌。 自媒体行业将迎来一次巨大的变革,海量的新创作者将进入淘金,而其中的大部分人什么也赚不到。虽然是这样,但是却事实上丰富了内容的生产。可惜的是其中大部分都是无脑的洗稿。 免费用户将被抛弃。以前,免费用户的价值,除了带来广告主以外,还有一个就是支持App内的用户互动生态。但是随着AGI的普及,大部分用户可能更愿意和AGI交流,而不是和普通人类。免费用户的互动价值降低,会导致很多App去社区化,进而影响流量的广告价值。最终,很多App不得不选择将大量的免费用户驱赶到会员等付费用户池,或者直接关闭对免费用户的使用权。正如很多网站不登录就不能使用一样。 这一切也预示着互联网精神的复兴。在AGI的帮助下,搜索引擎将再次成为信息的核心入口,打破各种信息孤岛,让用户更便捷地获取所需信息。同时,AGI技术可以帮助用户筛选出高质量的原创内容。洗稿使得人类创作者生存困难,免费内容质量劣化,进入迫使用户购买付费的专业内容。这都将使互联网回归其开放、共享的初衷,促进知识的传播与创新。

RWKV模型

RWKV-LM 是一个开源的LLM,作者是PENG Bo 。 论文:RWKV: Reinventing RNNs for the Transformer Era chatRWKV 用RWKV做后端的类chatGPT项目。 RWKV cuda 支持AMD和CUDA平台的量化RWKV推理项目,无pytorch依赖。 rwkv.cpp 纯CPU部署RWKV高速量化推理。 RWKV Notebooks 一些相关的Jupyter Notebooks。

思维链 — 展现解题过程的重要性

最近的大模型训练进展表明,正如人们学习数学的时候,解题思路很重要一样,大模型也可以通过生成解体思路来教会小模型很多。 思维链(CoT)训练大幅提升模型性能 (jieyibu.net)

AIGC导致内容生产大爆发的后果

AIGC降低了内容生产的难度,很多人利用AIGC可以做到以前做不到的事情,例如一个不会画画的人,可以快速画出精美的照片级别的美图。 而对于国内的自媒体来说,洗稿变得特别容易。 AIGC的快速普及,将导致内容的生产者出现劣币驱逐良币的过程。 由于洗澡容易而图片又很难卖钱,大量的自媒体更加肆无忌惮的抄袭原创作者。结果就是谁写原创内容,谁就吃亏。 那么长此以往,除了少数纯非盈利的且不在乎被洗稿抄袭的作者以外,大部分都不再会认真创作有价值的内容。 从而完成AIGC驱动下的内容创作者的劣币驱逐良币。 由于内容质量的快速降低,且垃圾内容越来越多,最终传导到用户侧的结果就是,人们逐渐减少对垃圾内容的消费。 最终就是自媒体大批量的死亡。 在这个过程中,一批卖自媒体创作工具服务的可以赚到钱,广告平台可以赚到钱。但是以为有了AIGC加持,就可以赚到大钱的自媒体们,恐怕要失望了。 问题的本质是,自媒体的第一性原理是信息中介。而中介的作用在于把信息转化成受众容易理解和接受的模态,从而促进信息的传播。 但是AI的核心作用其实是促进信息的直达。 人人都可以有一个AI助手在身旁的时代,谁会漫无目的的看自媒体的二手三手四手的洗稿文呢?