欢迎来到这个探索大型语言模型(LLMs)无尽流畅性的神奇旅程。在这篇文章中,我们将研究一种新的技术策略,即”注意力汇聚”,它在Hugging Face的博客中被详细介绍。这种策略对于改进LLMs,如所有Llama、Mistral、MPT、Falcon和GPT-NeoX(Pythia)模型的性能有着重要的影响。现在,让我们一起揭开这个神秘现象的面纱!
LLMs的局限性:VRAM和流畅性问题
首先,我们需要理解LLMs在现实应用中面临的挑战。其中,最重要的两个问题是VRAM使用和流畅性的丧失。在聊天助手场景中,这意味着设备的VRAM限制将限制用户连续提问的能力。同时,所有至今为止训练过的LLMs在输入过长时都会遇到流畅性的丧失问题,这会导致模型生成的语言失去连贯性。
窗口注意力:一种尝试解决VRAM问题的方法
为了解决VRAM使用问题,我们可以尝试限制输入给LLMs的令牌数量,这就是”窗口注意力”的概念。然而,实验结果显示,这种方法并不能有效地解决问题。一旦生成的令牌数超过窗口大小,模型的复杂度会立即上升。
注意力汇聚:解决流畅性问题的新策略
好在,我们发现了一个新的解决策略:注意力汇聚。研究人员发现,在应用窗口注意力的过程中,LLMs为生成下一个令牌分配了大量的注意力分数给前几个令牌,即便这些令牌在语义上并不重要。因此,当第一个令牌从窗口中移除时,模型无法将注意力分数装载到该令牌上,导致模型“崩溃”并丧失流畅性。
为了解决这个问题,研究人员提出了一种改良的窗口注意力方法,它始终保留序列中的初始4个令牌,即注意力汇聚令牌。
注意力汇聚的实践效果
实验数据显示,使用注意力汇聚的LLMs在空间复杂性和困惑度上都表现出了稳定性。此外,按照这种方式,可以无限生成文本而不会出现模型流畅性的丧失。
结论
总的来说,注意力汇聚为我们提供了一种新的解决LLMs问题的方法:通过保留注意力汇聚令牌,我们可以避免模型在生成过程中失去流畅性,并保持恒定的VRAM使用。这种方法对于改进聊天助手、虚拟助手等基于LLMs的应用具有重要的实践价值。