自我进化:语言模型如何学会思考后再开口自我进化:语言模型如何学会思考后再开口
在人类的交流中,思考和表达往往是紧密相连的过程。我们经常会在说话或写作前稍作停顿,整理思路,然后才组织语言。这种”先思考,后表达”的能力对于高质量的交流至关重要。那么,人工智能语言模型能否也学会这种能力呢?最新的研究表明,答案是肯定的。 从STaR到Quiet-STaR:语言模型的自我进化之路 斯坦福大学和谷歌大脑的研究人员最近提出了两种创新技术:STaR(Self-Taught Reasoner,自学推理器)和Quiet-STaR(安静版STaR)。这两项技术标志着语言模型在自我进化方面取得了重大突破,让模型能够在没有大量人工标注数据的情况下,自主学习”思考”的能力。 STaR:从少量样本中引导推理能力 STaR技术的核心思想是让语言模型通过反复练习和自我纠错来提升推理能力。具体来说,STaR采用了以下步骤: 这个过程就像是模型在不断地”自我练习”和”自我纠错”。通过这种方式,模型可以从最初的少量样本出发,逐步掌握更复杂的推理能力。 研究表明,经过STaR训练的模型在多个数据集上的表现显著优于直接预测答案的模型。特别是在CommonsenseQA(常识问答)任务中,STaR训练的模型甚至能够与参数量大30倍的最先进模型相媲美。 Quiet-STaR:将”思考”能力泛化到更广泛的场景 在STaR的基础上,研究人员进一步提出了Quiet-STaR技术。这一技术的目标是让语言模型学会在任意文本中推断隐含的推理过程,而不仅仅局限于问答任务。 Quiet-STaR面临的主要挑战包括: 为了解决这些问题,研究人员提出了以下创新方法: 经过Quiet-STaR训练后,模型在多个任务上都表现出了显著的零样本(zero-shot)性能提升。例如,在GSM8K数学推理任务中,准确率从5.9%提升到了10.9%;在CommonsenseQA任务中,准确率从36.3%提升到了47.2%。更重要的是,这些改进是在没有针对特定任务进行微调的情况下实现的。 “思考”的价值:为什么它对语言模型如此重要? 那么,为什么”思考”能力对语言模型如此重要呢?这里有几个关键原因: 技术细节:Quiet-STaR如何工作? Quiet-STaR的工作原理涉及一些精巧的技术细节。以下是该方法的核心组成部分: 1. 逐词并行采样 为了解决生成连续文本时的高计算成本问题,Quiet-STaR采用了一种新颖的逐词并行采样算法。这种算法允许模型同时生成多个词,大大提高了推理效率。 2. 可学习的思考标记 Quiet-STaR引入了特殊的可学习标记,用来标识内部思考的开始和结束。这些标记帮助模型学会如何生成和使用内部思考,形成了一种”元认知”能力。 3. 扩展的教师强制技术 为了帮助模型学习长期依赖关系,研究人员开发了一种扩展的教师强制技术。这种技术不仅考虑下一个词的预测,还关注更长序列的生成,从而提高模型的连贯性和一致性。 4. 迭代优化 Quiet-STaR采用迭代优化的方法,不断改进模型的推理能力。在每次迭代中,模型都会生成大量的内部思考,然后基于这些思考的质量进行自我评估和优化。 实验结果:Quiet-STaR的惊人表现 [...]