Day: December 1, 2023

用链式知识提示增强语言模型的推理能力用链式知识提示增强语言模型的推理能力

摘要: 最近,基于思想链(CoT)的提示在复杂推理任务中取得了成功,其目标是设计一个简单的提示,如“让我们逐步思考”或多个具有精心设计的理由的上下文示例,以引导大型语言模型(LLM)生成中间推理步骤。然而,生成的理由通常会伴随着错误,导致不真实和不诚实的推理链。为了减轻这种脆弱性,我们提出了一种新颖的基于知识的链式提示(CoK),目标是引导 LLM 生成形式为结构三元组的明确知识证据。这受到了我们人类行为的影响,即在回答复杂问题之前,我们可以在脑海中绘制思维导图或知识图作为推理证据。得益于 CoK,我们进一步引入了一种 F^2 验证方法,以估计推理链在事实性和忠实性方面的可靠性。对于不可靠的回答,可以指出错误的证据以引导 LLM 重新思考。大量实验证明,我们的方法可以进一步提高常识、事实、符号和算术推理任务的性能。 正文: 1. 介绍 2. 相关工作 3. 方法 4. 实验设置 5. 结论 [...]

JiuZhang 2.0:面向多任务数学问题求解的统一中文预训练语言模型JiuZhang 2.0:面向多任务数学问题求解的统一中文预训练语言模型

摘要: 尽管预训练语言模型 (PLM) 近期推动了数学推理研究的进展,但它们并非专门设计为有能力的多任务求解器,在实际应用中存在多任务部署成本高(例如,为一项任务复制一个模型)和复杂数学问题的性能较差的问题。为了解决这些问题,我们在本文中提出了 JiuZhang 2.0,这是一个专门针对多任务数学问题求解的统一中文 PLM。我们的想法是保持一个中等规模的模型,并采用“跨任务知识共享”来提高模型在多任务设置中的能力。特别地,我们构建了一个混合专家 (MoE) 架构来建模数学文本,以便捕获跨任务的通用数学知识。为了优化 MoE 架构,我们设计了多任务持续预训练和多任务微调策略,以进行多任务适配。这些训练策略能够有效地分解来自任务数据中的知识,并通过专家网络建立跨任务共享。为了进一步提高解决不同复杂任务的泛化能力,我们利用大型语言模型 (LLM) 作为互补模型,通过上下文学习,迭代地优化我们 PLM 生成的解决方案。大量的实验已经证明了我们模型的有效性。 关键词:预训练语言模型,数学推理,多任务学习,混合专家,持续预训练,微调,大型语言模型,上下文学习 正文: 1. 介绍 数学推理是人工智能的一个重要领域,具有广泛的应用,如自然语言处理、机器翻译、信息检索等。近年来,随着预训练语言模型 (PLM) 的发展,数学推理取得了显著的进展。PLM 在大规模数学语料库上进行预训练,能够在一定程度上理解数学公式和逻辑,在各种数学相关任务上取得更好的性能。 然而,基于 PLM 的方法仍然存在两个主要局限性:任务性能有限和维护成本高。一方面,由于 PLM 的容量有限,在复杂数学问题上,其性能往往不佳。另一方面,由于 PLM 需要为每个任务单独训练,这导致了维护成本高的问题。 [...]

逐步思考,洞悉世界——语言模型推理的奥秘逐步思考,洞悉世界——语言模型推理的奥秘

大家好,我是资深人工智能专家Halo Master。今天,我将带大家一起探索语言模型推理的奇妙世界。我们将从一篇arxiv论文《Why think step by step? Reasoning emerges from the locality of experience》开始,逐步解析语言模型中推理的本质。 语言模型的推理能力 语言模型,作为人工智能领域冉冉升起的新星,在文本生成、语言翻译、问答系统等领域展现了强大的能力。然而,当我们要求语言模型进行复杂的推理任务时,比如数学问题求解、故事理解等,它们往往会遇到困难。 推理的本质:局部结构与链式推理 那么,为什么推理对语言模型如此重要呢?推理的本质是什么? 在本文中,作者提出了一个假设:推理之所以有用,是因为训练数据具有局部结构。 语言模型的训练数据通常是自然语言文本,而自然语言文本通常是关于几个密切相关的主题的。当概念在经验或训练数据中经常共现时,直接用简单的统计估计量来估计它们之间的影响是很容易的。然而,当我们需要推断一个信息对另一个信息的影响,但却没有将它们一起遇到时,我们就必须进行一系列的推理,在概念对之间跳跃,将我们所知道的与我们想要推断的联系起来。 作者认为,当训练数据具有局部结构时,链式推理就变得非常有用。局部结构是指观察往往发生在相关的概念的局部重叠邻域中。 理论分析:推理如何降低偏差 为了证明这一假设,作者给出了一个理论分析。他们考虑了一个简化的任务,在这个任务中,语言模型在一个链式结构的贝叶斯网络上训练。他们证明,当训练数据具有局部结构时,通过中间变量进行推理可以降低偏差。 实证研究:局部结构与推理的有效性 为了验证这一假设,作者进行了一个实证研究。他们训练了一个语言模型,并在具有不同结构的合成数据上对其进行评估。结果表明,当训练数据具有局部结构时,生成中间变量可以帮助语言模型更准确地估计条件概率。 结论:推理是语言模型的必备能力 综上所述,推理是语言模型的一项必备能力。当训练数据具有局部结构时,推理可以通过减少偏差来提高语言模型的性能。 展望:未来研究方向 在未来的研究中,我们可以从以下几个方面继续探索语言模型的推理能力: 我相信,随着人工智能技术的不断发展,语言模型的推理能力也将越来越强大,并将在越来越多的领域发挥重要作用。 参考文献 [...]