大模型的可控生成:CoDI-Eval 基准测试

近年来,大型语言模型(LLM)在理解和执行自然语言指令方面展现出惊人的能力,为自然语言处理领域带来了革命性的变革。然而,LLM 并不总是能准确地响应包含特定约束的指令。例如,要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件,它们可能无法满足这些要求。因此,评估 LLM 对包含特定约束指令的响应能力至关重要。

可控文本生成:传统方法的局限性

可控文本生成(CTG)是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上,例如控制文本长度或包含特定关键词。然而,这种方法并不适用于新的指令遵循范式,因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。

此外,在现实场景中,指令中的约束条件通常以自由形式的自然语言表达,例如“写一篇关于人工智能的简短文章”。因此,LLM 需要能够理解各种表达方式的约束条件,并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力,以及与实际用户期望的匹配程度。

CoDI-Eval:一个新的基准测试

为了填补这一空白,并推动 LLM 与人类期望更好地对齐的研究,我们提出了 CoDI-Eval(Controllable Generation under Diversified Instructions),一个新的基准测试,用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务,并使用多样化的自然语言指令来表达约束条件,从而更准确地衡量 LLM 对包含特定约束指令的响应能力。

CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面,我们选择了五个典型的 CTG 任务,涵盖了情感、主题、长度、关键词和避免毒性等方面。此外,我们还包含了一个多方面控制的任务,同时包含两个方面的约束条件,以测试 LLM 在更具挑战性的复杂场景下的表现。

在泛化能力方面,我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”,使用一个强大的 LLM 生成更多指令,从而构建指令池。第二步是“多样化”,通过对指令进行文本重写,以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步,直到达到预期的指令规模。这两个步骤都由 LLM 自动完成,无需人工干预。

CoDI-Eval 的评估方法

为了评估 CoDI-Eval,我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务,我们借助现有的开源专用模型或外部 API,并证明这些替代方法与人工评估结果一致。每个 CTG 任务的评估指标是准确率,我们使用所有 CTG 任务的平均准确率来衡量不同 LLM 的可控生成能力。

实验结果

我们对主流 LLM(例如 ChatGPT、LLaMA2-chat、Vicuna)进行了广泛的评估,结果表明,顶级商业 LLM 在所有 CTG 任务上都取得了最高得分,而我们测试的开源 LLM 在准确率上存在超过 10% 的差距。此外,经过微调的 LLM 表现优于基础语言模型,而那些在更大规模数据上进行微调的模型(例如 LLaMA2-chat、ChatGLM)也比仅经过指令微调的同参数量 LLM(例如 Vicuna、Alpaca)表现更好。

在不同任务上的表现方面,LLM 在情感和主题控制任务上表现相对较好。然而,当这两个属性组合在一起时,任务难度会增加,所有 LLM 的准确率都未达到 80%。我们以 GPT-3.5-turbo 为例,分析了 LLM 在多方面可控生成任务上出现错误的原因。

在避免毒性任务中,只有经过对齐微调的 LLM(例如 RLHF)才能在这项任务上表现良好,特别是经过更精细对齐训练的 GPT-4 和 GPT-3.5-turbo。

在硬约束方面,LLM 在关键词任务上的准确率接近平均准确率。我们分析了 LLM 在复杂关键词 CTG 任务上出现错误的原因。然而,在看似简单的长度 CTG 任务中,即使是 GPT-3.5-turbo 的准确率也只有 55%,这表明大多数 LLM 对长度的感知能力不足。然而,GPT-4 在这项任务上表现出更强的能力。我们计算了 GPT-3.5-turbo 在长度控制生成每个子任务上的准确率,发现准确率与目标长度范围大致呈正相关。

结论

本文介绍了 CoDI-Eval,一个用于评估 LLM 可控文本生成能力的新基准测试。我们的基准测试包含一组评估指令,涉及多个 CTG 任务,并使用各种自然语言表达方式来表达约束条件。我们的结果表明,经过指令微调的 LLM 能够执行某些 CTG 任务,但生成文本的准确率还有待提高,特别是对于某些特定的约束条件。我们还观察到开源 LLM 与闭源商业 LLM 之间的性能差距,这为未来的研究指明了方向。

参考文献

  • Chen, Yihan, et al. “Benchmarking Large Language Models on Controllable Generation under Diversified Instructions.” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 17808-17816.

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是:大型语言模型(LLMs)在遵循自然语言指令方面表现出色,但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应,论文提出了一个新的基准测试(Benchmark),名为CoDI-Eval(Controllable Generation under Diversified Instructions),用于系统和全面地评估LLMs对具有各种约束的指令的响应。

具体来说,论文的主要贡献包括:

  1. 提出了一个新的基准测试CoDI-Eval,它通过纳入自然语言格式的多样化指令来评估LLMs的可控文本生成(CTG)能力,超越了传统的评估方法。
  2. 伴随着基准测试,提供了自动化且易于使用的评估方法,以促进进一步的发展。
  3. 对一系列已创建的LLMs进行了零样本(zero-shot)和少样本(few-shot)评估,首次系统地验证并比较了它们在CTG任务上的性能。

论文通过构建一个大型的、具有约束属性的指令集合作为测试套件,专注于泛化和覆盖范围,并通过指令多样化过程来合成不同形式的约束表达,同时仔细考虑了候选任务分类,以更细粒度的子类别进行划分。最后,论文自动化了整个评估过程,以促进未来的研究发展。

Q: 有哪些相关研究?

A: 论文中提到的相关研究主要包括以下几个方面:

  1. 大型语言模型(LLMs):研究者们开发了各种方法来增强或利用LLMs的能力,包括指令调整(instruction tuning)和上下文学习(in-context learning,ICL)。
  2. 数据生成:利用LLMs生成数据的趋势,例如Self-Instruct和Unnatural Instructions,这些方法依赖于LLMs提供指令和响应,以克服手动编写数据的局限性。
  3. 可控文本生成(Controllable Text Generation, CTG):当前的CTG任务主要集中在硬约束和软约束两类上。硬约束限制文本的词汇和语法,如控制文本长度和确保生成的文本包含某些关键词。软约束旨在限制文本的语义,如情感和主题。
  4. CTG的评估:之前没有统一的CTG领域基准,但一些研究尝试了不同的评估方法。例如,PPLM设计了几种短前缀作为CTG模型的输入,DExperts采用了与RealToxicPrompt类似的方法,通过构建多个提示来评估模型在不同输入提示下控制情感的能力。
  5. 指令遵循:研究者们也关注了LLMs遵循指令的能力,例如通过使用分类任务中的指令来评估LLMs是否能够遵守指令中的要求。
  6. 模型性能比较:论文中还提到了对不同LLMs在CoDI-Eval基准测试上的性能进行了比较,揭示了它们在遵循具有特定约束的指令方面的局限性。

这些相关研究为论文提出的CoDI-Eval基准测试提供了理论和技术背景,并且展示了LLMs在可控文本生成方面的潜力和挑战。论文通过这些研究的对比,强调了其在指令多样化和评估自动化方面的创新点。

Q: 论文如何解决这个问题?

A: 论文通过以下几个步骤解决大型语言模型(LLMs)在遵循带有特定约束的指令方面评估的问题:

  1. 提出CoDI-Eval基准测试:CoDI-Eval(Controllable Generation under Diversified Instructions)是一个新提出的基准测试,旨在系统和全面地评估LLMs对带有各种约束的指令的响应能力。
  2. 构建测试套件:作者构建了一个大型的、具有约束属性的指令集合作为测试套件,这些指令专注于泛化和覆盖范围,以确保能够全面评估LLMs的性能。
  3. 指令多样化:通过一个两步过程来最大化指令的多样性。首先,从一个小型的、人工策划的种子指令集开始,然后通过扩展过程增加指令数量,构建指令池。其次,从池中随机抽取指令,并通过文本重写的方式进一步多样化这些指令。
  4. 自动化评估过程:为了促进进一步的研究发展,作者自动化了整个评估过程,包括指令的生成、多样化以及评估方法的自动化。
  5. 评估方法:对于每个可控文本生成任务,作者收集或构建了自动化、易于使用且可靠的评估方法。对于不能直接评估的任务,作者使用了开源的、专门的模型或外部API,并证明了这些替代方法与人类评估具有合格的一致性。
  6. 实验验证:作者对一系列主流的LLMs(例如ChatGPT、LLaMA-13B-chat、Vicuna-13B等)进行了广泛的评估,以验证CoDI-Eval的性能,并揭示了LLMs在遵循具有特定约束的指令方面的局限性。
  7. 性能比较:通过比较不同LLMs在CoDI-Eval上的性能,作者揭示了开源LLMs与商业闭源LLMs之间的性能差距,并指出了未来研究的潜在方向。

通过这些步骤,论文不仅提出了一个新的基准测试来评估LLMs的可控文本生成能力,而且还通过实验验证了该基准测试的有效性,并为未来的研究提供了一个有用的工具。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来验证CoDI-Eval基准测试的有效性和评估不同大型语言模型(LLMs)的性能:

  1. 模型性能评估:作者对一系列主流的LLMs进行了评估,包括商业模型(如GPT-4和ChatGPT)和开源模型(如LLaMA-13B-chat、Vicuna-13B等)。评估的目的是验证这些模型在遵循带有特定约束的指令方面的能力。
  2. 零样本(Zero-shot)和少样本(Few-shot)设置:作者使用了零样本和少样本的提示来测试LLMs对指令中约束的响应能力。零样本设置没有使用任何示例,而少样本设置则在提示中添加了5个指令-响应对作为示例。
  3. 不同任务的性能比较:作者比较了LLMs在不同可控文本生成(CTG)任务上的性能,包括情感、主题、多方面、长度、关键词和毒性避免任务。
  4. 错误分析:对于多方面可控生成任务和复杂关键词CTG任务,作者分析了GPT-3.5-turbo(ChatGPT)响应错误的原因。
  5. 长度可控文本生成任务的子任务分析:作者计算了GPT-3.5-turbo在长度可控文本生成任务的各个子任务上的准确率,并发现准确率与目标长度的范围大致正相关。
  6. 指令多样性分析:作者通过构建仅使用指令扩展步骤的指令集,并与CoDI-Eval中的最终指令集进行比较,来验证“指令多样化”步骤的有效性。
  7. 评估方法的质量验证:作者通过人工判断来验证自动化评估方法的可靠性,特别是对于情感、主题和多方面控制任务。
  8. 进一步讨论:作者讨论了LLMs在特定长度约束下生成文本的表现不佳的原因,并提出了可能的改进方向。

这些实验不仅展示了CoDI-Eval基准测试的评估能力,而且还揭示了当前LLMs在可控文本生成方面的局限性,特别是在处理特定约束时。实验结果为未来的研究方向提供了有价值的见解。

Q: 有什么可以进一步探索的点?

A: 根据论文内容,以下是一些可以进一步探索的点:

  1. 改进长度感知能力:LLMs在处理长度约束方面表现不佳,需要研究如何提高模型对文本长度的感知和控制能力。
  2. 增强指令理解:探索新的方法来提高LLMs对多样化指令的理解,特别是对于复杂或不常见的指令表达。
  3. 优化少样本学习:研究如何通过少样本学习更有效地提高LLMs的可控文本生成能力,考虑到当前的简单示例可能不足以捕捉指令的多样性。
  4. 指令多样化的自动化:尽管论文中提出了指令多样化的方法,但这个过程仍然可以进一步自动化和优化,以减少人工干预并提高效率。
  5. 跨语言评估:探索CoDI-Eval基准测试在不同语言上的适用性,以及如何调整评估方法以适应不同的语言特性。
  6. 模型架构改进:研究不同的模型架构和训练策略,以更好地处理带有约束的文本生成任务。
  7. 实时性能评估:开发实时评估工具,以便在模型生成文本时即时评估其性能,这可能有助于提高交互式应用的用户体验。
  8. 可解释性和透明度:提高LLMs在可控文本生成任务中的可解释性,帮助用户理解模型的决策过程。
  9. 伦理和公平性:确保LLMs在生成文本时遵循伦理准则,避免产生有害或偏见的内容。
  10. 多任务学习:研究LLMs在同时处理多个不同类型的可控文本生成任务时的性能,以及如何优化模型以提高多任务处理能力。
  11. 数据集和基准测试的扩展:扩充CoDI-Eval数据集,添加更多的指令和任务类型,以更全面地评估LLMs的能力。
  12. 用户研究:进行用户研究,以了解用户对LLMs生成的文本的满意度,以及他们对可控文本生成的具体需求。

这些探索点可以帮助研究者们更好地理解和改进LLMs在可控文本生成方面的表现,同时也为LLMs的实际应用提供指导。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题定义:论文探讨了大型语言模型(LLMs)在遵循带有特定约束的自然语言指令方面的能力,并指出了现有评估方法的不足。
  2. CoDI-Eval基准测试:提出了一个新的基准测试CoDI-Eval,用于系统和全面地评估LLMs对带有各种约束的指令的响应能力。
  3. 测试套件构建:构建了一个大型的、具有约束属性的指令集合作为测试套件,这些指令覆盖了情感、主题、长度、关键词和毒性避免等多个方面。
  4. 指令多样化:通过一个两步过程(扩展和多样化)来增加指令的多样性,使用LLMs自动生成指令并进行文本重写。
  5. 自动化评估:开发了自动化的评估方法,使用开源模型和API来评估LLMs在各个CTG任务上的性能。
  6. 实验验证:对多个主流LLMs进行了广泛的评估,包括商业模型和开源模型,揭示了它们在遵循特定约束指令方面的局限性。
  7. 性能比较:比较了不同LLMs在CoDI-Eval上的性能,发现商业闭源模型通常优于开源模型。
  8. 错误分析:对LLMs在多方面可控生成任务和复杂关键词CTG任务上的错误进行了分析。
  9. 进一步讨论:讨论了LLMs在长度可控文本生成任务中的挑战,并提出了可能的改进方向。
  10. 结论:论文得出结论,CoDI-Eval基准测试能够有效评估LLMs的可控文本生成能力,并指出了未来研究的潜在方向。

整体而言,这篇论文通过提出新的基准测试和评估方法,为理解和改进LLMs在可控文本生成方面的能力提供了重要的工具和见解。

Leave a Comment