大模型能力的「涌现」机制被谷歌发现

2023-05-22 作者 C3P00

大型语言模型的涌现能力是一个黑箱，难以解释。尽管目前的研究已经开始揭示其中的一些机制，但我们仍然需要更深入的研究来更好地理解这些现象。

谷歌的这篇论文提供了有关语言模型的 ICL 行为如何随着模型参数而改变的重要见解，以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明，不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是，大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务，而小型模型则更依赖于先验知识。

此外，研究者还发现，指令调优加强了语义先验知识的使用，而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为，同时也为未来的研究提供了方向，包括为什么这些现象会与模型参数规模相关等问题。

未来的研究可以探索不同类型的语言模型之间的差异，以及它们的涌现能力如何随着训练数据集的规模变化而改变。

此外，可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略，以提高语言模型的性能。

最终，我们希望通过深入研究语言模型的涌现能力，能够更好地理解它们如何执行复杂的自然语言处理任务，并为未来的人工智能发展提供更好的基础。

论文地址：https://arxiv.org/pdf/2303.03846.pdf

《大模型能力的「涌现」机制被谷歌发现》有 7 条评论

Halo Master

2023-05-22 13:11

这里有几个要点:

研究者通过调查两种设置 (翻转标签 ICL 和语义无关标签 ICL) 来研究语言模型在上下文学习过程中语义先验和输入-标签映射的相互作用。

翻转标签 ICL 设置翻转上下文示例的标签, 要求模型放弃语义先验来遵循上下文范例。在此设置中, 参数较大的模型表现出放弃先验知识的能力, 这是模型规模带来的涌现能力。

语义无关标签 ICL 设置用与任务无关的标签替换原有标签, 要求模型学习输入-标签映射以执行任务。在此设置中, 较小的模型表现出主要依赖语义先验的行为, 而大型模型表现出学习输入-标签映射的能力。

指令调优加强了模型对语义先验的依赖, 而不是学习输入-标签映射的能力。 Flan-PaLM 模型在语义无关标签 ICL 中的表现更好, 但在翻转标签 ICL 中表现较差, 无法覆盖先验知识。

研究结果表明, 语言模型的 ICL 行为随着其参数规模的增加而改变。较大的语言模型具有将任意输入映射到各种标签的涌现能力。

未来研究可以进一步探索这些现象为何与模型参数相关。
回复
C3P00

2023-05-22 13:11

这里有几个要点:

研究者通过调查两种设置 (翻转标签 ICL 和语义无关标签 ICL) 来研究语言模型在上下文学习过程中语义先验和输入-标签映射的相互作用。

翻转标签 ICL 设置翻转上下文示例的标签, 要求模型放弃语义先验来遵循上下文范例。在此设置中, 参数较大的模型表现出放弃先验知识的能力, 这是模型规模带来的涌现能力。

语义无关标签 ICL 设置用与任务无关的标签替换原有标签, 要求模型学习输入-标签映射以执行任务。在此设置中, 较小的模型表现出主要依赖语义先验的行为, 而大型模型表现出学习输入-标签映射的能力。

指令调优加强了模型对语义先验的依赖, 而不是学习输入-标签映射的能力。 Flan-PaLM 模型在语义无关标签 ICL 中的表现更好, 但在翻转标签 ICL 中表现较差, 无法覆盖先验知识。

研究结果表明, 语言模型的 ICL 行为随着其参数规模的增加而改变。较大的语言模型具有将任意输入映射到各种标签的涌现能力。

未来研究可以进一步探索这些现象为何与模型参数相关。
回复
Halo Master

2023-05-22 13:34

虽然指令调优提高了学习输入-标签映射的能力，但它更强化了语义先验知识的使用。
回复
C3P00

2023-05-22 13:34

虽然指令调优提高了学习输入-标签映射的能力，但它更强化了语义先验知识的使用。
回复
Halo Master

2023-05-22 13:44

语言模型的 ICL 行为随着参数增加而变强，更大的语言模型具有将输入映射到许多类型的标签的涌现能力。
回复
C3P00

2023-05-22 13:44

语言模型的 ICL 行为随着参数增加而变强，更大的语言模型具有将输入映射到许多类型的标签的涌现能力。
回复
Halo Master

2023-05-24 02:01

Intel 推出 Aurora genAI 大模型：1 万亿参数 https://go4fun.org/viewtopic.php?t=15&p=60#p60
回复
C3P00

2023-05-24 02:01

Intel 推出 Aurora genAI 大模型：1 万亿参数 https://go4fun.org/viewtopic.php?t=15&p=60#p60
回复
Halo Master

2023-05-24 10:35

LIMA: Less Is More for Alignment
http://export.arxiv.org/abs/2305.11206
作者认为, 大型语言模型的知识和能力主要来自于它们的预训练, 对齐阶段只需要学习如何以合适的方式表达自己已掌握的知识。

他们通过对 LLaMa 65B 模型仅用 1,000 个精心配置的示例进行微调, 就能实现同等或优于强化学习和大规模指导调整模型的效果, 来证实这个观点。

他们将这个模型 (称为 LIMA) 与最先进的模型进行比较, 包括 Bard 、 Claude 、 GPT-4 、 Alpaca 和 DaVinci003, 发现 LIMA 在相当大的比例中能生成同等或更好的回复。

分析 LIMA 的输出表明,50% 的回复被认为是优秀的,88% 的回复满足了提示的要求。

作者通过消融实验探究了训练数据多样性、质量和数量对结果的影响, 发现强调前两者效果更明显。

最后, 作者展示了仅通过加入 30 个多轮对话示例就能显著提升 LIMA 的多轮对话能力。

这项研究表明, 大型语言模型的知识和能力主要来自于预训练, 对齐阶段仅需要少量高质量的数据指引, 不必依赖大规模数据集。这对我们理解和改进语言模型对齐算法带来了启发。

我相信它能引起业界足够的重视, 因为这种更简单且高效的对齐方法潜在地会改变游戏规则。但同时, 这类方法也存在一些局限性, 比如需要构建高质量示例的数据集仍然具有挑战性。需要进一步的研究来探索这种方法的详细机制和局限性。
回复
C3P00

2023-05-24 10:35

LIMA: Less Is More for Alignment
http://export.arxiv.org/abs/2305.11206
作者认为, 大型语言模型的知识和能力主要来自于它们的预训练, 对齐阶段只需要学习如何以合适的方式表达自己已掌握的知识。

他们通过对 LLaMa 65B 模型仅用 1,000 个精心配置的示例进行微调, 就能实现同等或优于强化学习和大规模指导调整模型的效果, 来证实这个观点。

他们将这个模型 (称为 LIMA) 与最先进的模型进行比较, 包括 Bard 、 Claude 、 GPT-4 、 Alpaca 和 DaVinci003, 发现 LIMA 在相当大的比例中能生成同等或更好的回复。

分析 LIMA 的输出表明,50% 的回复被认为是优秀的,88% 的回复满足了提示的要求。

作者通过消融实验探究了训练数据多样性、质量和数量对结果的影响, 发现强调前两者效果更明显。

最后, 作者展示了仅通过加入 30 个多轮对话示例就能显著提升 LIMA 的多轮对话能力。

这项研究表明, 大型语言模型的知识和能力主要来自于预训练, 对齐阶段仅需要少量高质量的数据指引, 不必依赖大规模数据集。这对我们理解和改进语言模型对齐算法带来了启发。

我相信它能引起业界足够的重视, 因为这种更简单且高效的对齐方法潜在地会改变游戏规则。但同时, 这类方法也存在一些局限性, 比如需要构建高质量示例的数据集仍然具有挑战性。需要进一步的研究来探索这种方法的详细机制和局限性。
回复
Halo Master

2023-05-27 05:55

首个大规模使用工具的大模型来了：伯克利发布 Gorilla
https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247557289&idx=2&sn=9e9ab305c1e93c276f5d89ebd500b56c&chksm=ebb6d87ddcc1516bbde9365db4186e9b9b9e85b6aa0a755fc32b3c4ee72923565d96672ae0d0&mpshare=1&scene=23&srcid=0527DPUFnx9KXMWr55ABvNOl&sharer_sharetime=1685124710275&sharer_shareid=74ab859bf01d959a5cfbea54ecd83a11#rd
回复
C3P00

2023-05-27 05:55

首个大规模使用工具的大模型来了：伯克利发布 Gorilla
https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247557289&idx=2&sn=9e9ab305c1e93c276f5d89ebd500b56c&chksm=ebb6d87ddcc1516bbde9365db4186e9b9b9e85b6aa0a755fc32b3c4ee72923565d96672ae0d0&mpshare=1&scene=23&srcid=0527DPUFnx9KXMWr55ABvNOl&sharer_sharetime=1685124710275&sharer_shareid=74ab859bf01d959a5cfbea54ecd83a11#rd
回复
Halo Master

2023-05-27 10:18

首个大规模使用工具的大模型来了：伯克利发布 Gorilla https://zhuanlan.zhihu.com/p/632487687
回复
C3P00

2023-05-27 10:18

首个大规模使用工具的大模型来了：伯克利发布 Gorilla https://zhuanlan.zhihu.com/p/632487687
回复

《大模型能力的 「涌现」 机制被谷歌发现》 有 7 条评论

发表评论 取消回复

《大模型能力的「涌现」机制被谷歌发现》有 7 条评论

发表评论取消回复