大模型能力的“涌现”机制被谷歌发现

大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研究来更好地理解这些现象。 谷歌的这篇论文提供了有关语言模型的ICL行为如何随着模型参数而改变的重要见解,以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明,不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是,大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务,而小型模型则更依赖于先验知识。 此外,研究者还发现,指令调优加强了语义先验知识的使用,而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为,同时也为未来的研究提供了方向,包括为什么这些现象会与模型参数规模相关等问题。 未来的研究可以探索不同类型的语言模型之间的差异,以及它们的涌现能力如何随着训练数据集的规模变化而改变。 此外,可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略,以提高语言模型的性能。 最终,我们希望通过深入研究语言模型的涌现能力,能够更好地理解它们如何执行复杂的自然语言处理任务,并为未来的人工智能发展提供更好的基础。 论文地址:https://arxiv.org/pdf/2303.03846.pdf

InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现,实现了SOTA,有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。 gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com) [2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (arxiv.org)

BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。 BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。 sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

RMT 突破LLM百万Tokens上下文长度

Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。 2304.11062.pdf (arxiv.org)

AGI将复活互联网精神

移动互联网的App时代,导致了信息的孤岛化。一个个超级App,想将自己打造成综合体,用户无论需要什么,都可以不用离开App。 App们通过阻止搜索引擎的爬虫进入自己的“花园”,将用户圈定在自己的领地,从根本上破坏了互联网的开放共享的精神。 不过,随着AGI时代的到来,用户和应用的交互方式发生了根本性的变革。应用对用户的意图的理解能力获得了突飞猛进的增强。这使得GUI交互不在重要,文本和语言交互即将重新成为主流。 虽然GUI重新被LUI(语言UI)替代,App的优势不再存在。更进一步的是HTML5的不断成熟,性能和交互能力方面App的优势也被削弱。而随着AGI和搜索的结合,新一代搜索(new Bing)将重新把用户的注意力拉回搜索引擎。App们辛苦建立的花园围墙即将倒塌。 自媒体行业将迎来一次巨大的变革,海量的新创作者将进入淘金,而其中的大部分人什么也赚不到。虽然是这样,但是却事实上丰富了内容的生产。可惜的是其中大部分都是无脑的洗稿。 免费用户将被抛弃。以前,免费用户的价值,除了带来广告主以外,还有一个就是支持App内的用户互动生态。但是随着AGI的普及,大部分用户可能更愿意和AGI交流,而不是和普通人类。免费用户的互动价值降低,会导致很多App去社区化,进而影响流量的广告价值。最终,很多App不得不选择将大量的免费用户驱赶到会员等付费用户池,或者直接关闭对免费用户的使用权。正如很多网站不登录就不能使用一样。 这一切也预示着互联网精神的复兴。在AGI的帮助下,搜索引擎将再次成为信息的核心入口,打破各种信息孤岛,让用户更便捷地获取所需信息。同时,AGI技术可以帮助用户筛选出高质量的原创内容。洗稿使得人类创作者生存困难,免费内容质量劣化,进入迫使用户购买付费的专业内容。这都将使互联网回归其开放、共享的初衷,促进知识的传播与创新。

RWKV模型

RWKV-LM 是一个开源的LLM,作者是PENG Bo 。 论文:RWKV: Reinventing RNNs for the Transformer Era chatRWKV 用RWKV做后端的类chatGPT项目。 RWKV cuda 支持AMD和CUDA平台的量化RWKV推理项目,无pytorch依赖。 rwkv.cpp 纯CPU部署RWKV高速量化推理。 RWKV Notebooks 一些相关的Jupyter Notebooks。

AIGC导致内容生产大爆发的后果

AIGC降低了内容生产的难度,很多人利用AIGC可以做到以前做不到的事情,例如一个不会画画的人,可以快速画出精美的照片级别的美图。 而对于国内的自媒体来说,洗稿变得特别容易。 AIGC的快速普及,将导致内容的生产者出现劣币驱逐良币的过程。 由于洗澡容易而图片又很难卖钱,大量的自媒体更加肆无忌惮的抄袭原创作者。结果就是谁写原创内容,谁就吃亏。 那么长此以往,除了少数纯非盈利的且不在乎被洗稿抄袭的作者以外,大部分都不再会认真创作有价值的内容。 从而完成AIGC驱动下的内容创作者的劣币驱逐良币。 由于内容质量的快速降低,且垃圾内容越来越多,最终传导到用户侧的结果就是,人们逐渐减少对垃圾内容的消费。 最终就是自媒体大批量的死亡。 在这个过程中,一批卖自媒体创作工具服务的可以赚到钱,广告平台可以赚到钱。但是以为有了AIGC加持,就可以赚到大钱的自媒体们,恐怕要失望了。 问题的本质是,自媒体的第一性原理是信息中介。而中介的作用在于把信息转化成受众容易理解和接受的模态,从而促进信息的传播。 但是AI的核心作用其实是促进信息的直达。 人人都可以有一个AI助手在身旁的时代,谁会漫无目的的看自媒体的二手三手四手的洗稿文呢?

chatGPT对软件技术栈的冲击将逐渐显现

软件研发的技术栈是逐步迭代形成的,其第一性原理是:通过技术栈对系统的复杂性就行分层控制。 由此可知,如果系统复杂性由于chatGPT类AI的介入,导致原来控制不了的,现在非常好控制的话,那么一些原来看起来简单的技术栈又会复兴。 以网站前端研发为例子,从最早的纯HTML到jQuery在到react/vuejs等,逐步复杂,其学习成本和难度也逐渐增加,但是对于越来越复杂的网站来说这是必要的。因为重写一个页面的成本太高了。 以网站后端研发为例子,从最早的perl到PHP再到Java微服务,无不是为了控制复杂的逻辑,将复杂度逐层逐块分解,放在不同的系统里控制起来,以便促进系统的平稳演化。 但是,现在chatGPT来了,如果一个prompt就可以写好一个PHP页面的话,谁还在乎每隔几周让AI重写一遍? chatGPT等AI对软件研发的最大冲击根源是,复用的标的物从source code变成了prompt。这是很容易被忽略了,现在说似乎太早,但是,等到GPT-5/6发布的时候,一切就会非常明朗了!