InfoGaps | 信息差

博客

超越单一评分：RichHF-18K数据集和RAHF模型如何用“丰富反馈”提升AI图像生成？
近年来，Stable Diffusion、Imagen等文生图（T2I）模型在生成高分辨率图像方面取得了显著进步，但生成的图像仍存在不少问题，如图像失真、与文本描述不符、美观度不足等。为了解决这些问题，谷歌和多所高校的研究人员共同创建了包含“丰富反馈”的RichHF-18K数据集，并提出了一种名为RAHF的多模态Transformer模型，旨在更全面、精准地评估和提升AI图像生成质量。

RichHF-18K：不止于评分的“丰富反馈”

现有的图像生成评估方法大多依赖单一评分或排序，缺乏细粒度的反馈信息。而RichHF-18K数据集则包含了更为丰富的反馈维度，具体包括：
- 细粒度评分： 从图像逼真度、文本图像一致性、美观度和整体质量四个方面对图像进行评分。
- 失真/不一致区域标注： 通过点标注的方式，标记出图像中存在失真/不合理或与文本描述不符的区域。
- 不一致关键词标注： 标记出文本描述中哪些关键词在生成图像中未被体现或被错误地呈现。
RAHF模型：学习“丰富反馈”，预测图像质量

RAHF模型的架构基于ViT和T5X模型，并结合了自注意力机制，能够有效融合图像和文本信息。该模型可以预测图像的失真/不一致区域、不一致关键词以及四个细粒度评分，从而更全面地评估图像生成质量。

RAHF模型的应用：提升AI图像生成质量

RAHF模型预测的“丰富反馈”信息可以用于提升AI图像生成质量，例如：
- 区域修复: 利用预测的失真/不一致区域热力图创建掩码，对问题区域进行修复，生成更逼真的图像。
- 模型微调: 利用预测的评分筛选高质量训练数据，或将评分作为奖励信号，对图像生成模型进行微调，提升模型的生成效果。
总结与展望：迈向更智能的AI图像生成

RichHF-18K数据集和RAHF模型的提出，为AI图像生成领域带来了全新的思路和方法。通过引入“丰富反馈”机制，可以更有效地评估和提升AI图像生成质量，推动AI图像生成技术走向更高的智能化水平。

当然，这项研究也存在一些局限性，例如：
- 对不一致区域的标注存在一定的主观性，影响模型预测的准确性。
- 数据集的规模还有待进一步扩大，以提高模型的泛化能力。
未来，研究人员将继续探索如何利用“丰富反馈”机制，开发更先进的AI图像生成技术，为用户带来更优质的图像生成体验。

参考文献：
- Liang, Youwei, et al. “Rich Human Feedback for Text-to-Image Generation.” arXiv preprint arXiv:2312.10240 (2023).
CVPR最佳论文解读：RAHF模型如何利用“丰富人类反馈”提升AI图像生成？

这篇来自加州大学圣地亚哥分校、谷歌研究院等机构的CVPR最佳论文《Rich Human Feedback for Text-to-Image Generation》聚焦于如何利用更丰富的用户反馈来提升AI图像生成技术的质量。

直击痛点：现有评估方法存在不足

论文指出，现有的AI图像生成评估方法大多依赖单一评分或排序，缺乏细粒度的反馈信息，难以有效指导模型改进。例如，仅仅告诉模型一张图片“好”或“不好”，并不能让模型真正理解问题所在，更无法针对性地进行优化。

RAHF模型：捕捉“丰富人类反馈”

为了解决这一问题，研究团队提出了一种名为RAHF（Rich Automatic Human Feedback）的多模态Transformer模型。该模型能够捕捉更丰富的人类反馈信息，包括：
- 细粒度评分： 不再局限于单一评分，而是从图像逼真度、文本图像一致性、美观度和整体质量四个方面对图像进行评分。
- 失真/不一致区域标注： 用户可以通过点标注的方式，直观地告诉模型图像中哪些区域存在失真/不合理或与文本描述不符的问题。
- 不一致关键词标注： 用户可以标记出文本描述中哪些关键词在生成图像中未被体现或被错误地呈现。
实验结果：RAHF模型提升图像生成质量

实验结果表明，RAHF模型能够有效预测用户的“丰富反馈”，并将其用于提升AI图像生成质量。例如：
- 区域修复： 利用预测的失真/不一致区域热力图，可以对问题区域进行针对性的修复，生成更逼真的图像。
- 模型微调： 利用预测的评分可以筛选高质量训练数据，或将评分作为奖励信号，对图像生成模型进行微调，提升模型的生成效果。
总结：迈向更智能的AI图像生成

RAHF模型的提出，为AI图像生成领域带来了全新的思路和方法。通过捕捉更丰富的用户反馈信息，可以更有效地评估和提升AI图像生成质量，推动AI图像生成技术走向更高的智能化水平。

未来展望

研究团队计划公开RichHF-18K数据集，以促进学术界和工业界对“丰富人类反馈”在AI图像生成领域应用的进一步研究。相信在未来，RAHF模型将会在更广泛的领域发挥重要作用，为用户带来更优质的图像生成体验。
2024-06-21
IPv4地址的“隐藏宝藏”：E类空间能否拯救互联网？
自从IPv4地址枯竭以来，获取或租赁IPv4地址块的成本一路飙升。对于许多网络公司来说，这无疑是一场灾难，曾经为每个用户分配一个甚至多个IPv4地址的模式已难以为继。然而，鲜为人知的是，IPv4地址空间中还隐藏着一块巨大的“宝藏”——E类空间，它能否成为解决IPv4地址短缺的“救星”呢？

被遗忘的角落：E类空间的由来

E类空间位于IPv4地址空间的末尾（240.0.0.0~255.255.255.254），早在1989年就被定义，但一直被忽视。实际上，除了E类空间，IPv4地址空间中还存在着其他一些“浪费”的地址块，例如0.0.0.0/8和127.0.0.0/8。这些地址块当初的分配标准如今看来过于宽泛，如果能够重新利用，将能极大缓解IPv4地址短缺的现状。

现实与理想的博弈：E类空间的局限性

尽管E类空间拥有巨大的潜力，但将其重新用于单播空间面临着诸多挑战。首先，现有的设备和终端软件对E类地址的兼容性问题难以解决，全球范围内的升级行动几乎不可能实现。其次，E类空间的启用需要IANA和IETF制定新的政策，这将是一场旷日持久的斗争。

柳暗花明：E类空间的另类用途

尽管E类空间难以成为全球可路由的地址空间，但它在本地网络和网络基础设施中却能发挥重要作用。例如，AWS、一些家庭和中小型企业以及Canonical的“扇”网络都在使用E类空间。此外，Cloudflare还提供了一种将IPv6地址散列到E类地址中的选项，为不支持IPv6地址的系统提供了一种访问IPv6的方式。

供应商的支持：E类空间应用的关键

E类空间的应用离不开设备的支持。目前，Linux、Android、MacOS/OSX等操作系统已经支持E类地址，但Windows、NetBSD/FreeBSD等系统尚未提供支持。网络设备方面，一些路由器供应商支持直接设置E类地址，而另一些则需要特殊配置，还有一些则完全不支持。

路由协议的挑战：OSPF的意外情况

在使用E类地址时，动态路由协议的兼容性也是一个需要关注的问题。例如，在使用OSPF协议时，如果路径中的某些设备不支持E类地址，可能会导致流量丢失。

真实测试：E类空间的接受程度

为了测试E类空间在真实环境中的可行性，Quantcom公司进行了一次E类空间的网络扫描实验。结果显示，只有大约50%的RIPE Atlas探针能够访问E类地址，这表明E类空间的接受程度还很低。

结论：E类空间的未来

总的来说，E类空间虽然拥有巨大的潜力，但由于兼容性、政策、部署等方面的挑战，它难以成为解决IPv4地址短缺的最终方案。然而，在本地网络和网络基础设施中，E类空间可以作为一种有效的地址补充方案。

参考文献：
- RFC1112 – Internet Protocol Address Format
- RFC1918 – Address Allocation for Private Internets
- BGP.tools – https://bgp.tools/
- RIPE Atlas – https://atlas.ripe.net/
2024-06-21
哄AI像哄小孩？一句“咒语”让GPT-3准确率暴涨61%！
最近，机器学习界出现了一项令人震惊的研究成果：仅仅对GPT-3说一句“让我们一步一步地思考”，就能让它解开之前无法解答的难题，准确率瞬间提高61%！这感觉就像幼儿园阿姨哄小朋友一样神奇，难道哄AI也要像哄小孩？

“一步一步思考”：神奇咒语背后的秘密

这项由谷歌大脑和东京大学合作的研究发现，简单的提示词可以显著提高GPT-3在零样本学习场景下的推理能力。研究人员将这种方法称为“思维链路提示”（CoT），其核心是通过引导语言模型逐步思考，最终得出正确答案。例如，面对“16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？”这个问题，直接询问GPT-3会得到错误答案“8”。但如果在提问时加上“让我们一步一步地思考”，GPT-3就会先列出解题步骤，最终给出正确答案“4”。

CoT并非万能药：效果受模型版本、问题类型影响

研究人员对CoT的效果进行了广泛的测试，结果表明，CoT在大多数情况下都能显著提高GPT-3的准确率，尤其是在数学和常识推理方面。然而，CoT并非万能药，其效果会受到GPT-3版本、问题类型等因素的影响。例如，CoT对GPT-3最新版本Text-davinci-002的效果最佳，对旧版本的提升效果则相对有限。

从“特征工程”到“提示工程”：AI研究的新方向？

CoT的成功引发了人们对“提示工程”的关注。一些学者认为，“提示工程”正在取代传统的“特征工程”，成为AI研究的新方向。通过设计巧妙的提示词，可以引导AI更好地理解人类意图，从而提高其性能。未来，”提示词猎人”会不会成为NLP研究者的新头衔？

结语：哄AI，更需理解AI

尽管“哄AI像哄小孩”的说法很有趣，但我们不能忽视对AI本身的理解。CoT的成功表明，通过引导AI模拟人类的思维方式，可以有效提高其推理能力。未来，如何设计更有效的提示词，如何将CoT应用于更广泛的领域，将是AI研究的重要课题。

参考文献：
- Wei, Jason, et al. “Chain of thought prompting elicits reasoning in large language models.” arXiv preprint arXiv:2205.11916 (2022).
2024-06-21
基于 Agent 的大型语言模型：AI 智能体的新时代
近年来，大型语言模型（LLM）取得了令人瞩目的进展，展现出强大的语言理解和生成能力，被誉为通用人工智能（AGI）的潜在火花。与此同时，AI Agent 的概念也逐渐兴起，成为实现 AGI 的关键步骤。AI Agent 是指能够感知环境、做出决策并采取行动的人工实体。将 LLM 与 Agent 结合，赋予 LLM 更广阔的感知空间和行动空间，将有望构建出更加智能、更加通用的 AI Agent。

AI Agent 的起源与发展

从哲学到 AI

“Agent” 的概念起源于哲学，可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和采取行动能力的实体。这个概念后来被引入计算机科学领域，用于描述能够感知环境、做出决策并采取行动的计算实体。

AI Agent 研究的技术趋势

AI Agent 的研究经历了多个阶段，从早期的符号 Agent，到反应型 Agent，再到基于强化学习的 Agent，以及具有迁移学习和元学习能力的 Agent。近年来，随着 LLM 的兴起，基于 LLM 的 Agent 逐渐成为研究热点。

LLM 成为 Agent 大脑的优势

LLM 非常适合作为 AI Agent 的大脑或控制器的主要组成部分，因为它具备以下关键属性：
- 自主性：LLM 可以根据环境输入动态调整输出，展现出一定的自适应自主性。
- 反应性：研究人员已经证明了使用多模态融合技术扩展 LLM 感知空间的潜力，使其能够快速处理来自环境的视觉和听觉信息。
- 主动性：LLM 具有很强的广义推理和规划能力，可以主动采取行动以实现特定目标或适应环境变化。
- 社交能力：LLM 强大的自然语言交互能力使其能够以可解释的方式与其他模型或人类进行交互，从而具备社交能力。
基于 LLM 的 Agent 构建

大脑：智能体的核心

大脑是 AI Agent 的核心，主要由 LLM 组成，负责存储知识和记忆，并承担信息处理和决策等不可或缺的功能。它需要具备以下能力：
- 自然语言交互：理解和生成自然语言，进行多轮对话，并理解隐含的含义。
- 知识：获取、存储和利用语言知识、常识知识和专业领域知识。
- 记忆：存储 Agent 过去的观察、想法和行动的序列，并能够有效地检索和利用这些记忆。
- 推理与规划：进行逻辑推理和规划，将复杂任务分解成更易于管理的子任务。
- 可迁移性和通用性：适应不熟悉的场景，并能够泛化到未见过的任务。
感知：拓展感知空间

感知模块的作用类似于人类的感觉器官，负责将 Agent 的感知空间从仅限文本扩展到多模态空间，包括文本、声音、视觉、触觉、嗅觉等多种感官模态。

行动：与环境交互

行动模块负责扩展 Agent 的动作空间，使其能够拥有文本输出，采取具身行动，并使用工具，以便更好地响应环境变化并提供反馈，甚至改变和塑造环境。

基于 LLM 的 Agent 应用

单 Agent 的一般能力
- 面向任务的部署：协助用户解决日常任务，例如在基于文本的游戏场景中执行任务，在 Web 场景中进行 Web 导航，以及在生活场景中完成家务任务。
- 创新型部署：在科学领域进行自主探索，例如在计算机科学、化学和材料科学等领域进行研究。
- 面向生命周期的部署：在开放世界环境中持续探索、学习和利用新技能，例如在 Minecraft 等模拟生存环境中进行生存任务。
多 Agent 的协调潜力
- 合作交互：多个 Agent 通过合作来实现共同的目标，例如在软件开发任务中进行协作。
- 对抗性交互：多个 Agent 通过竞争来提高各自的表现，例如在辩论任务中进行对抗。
人类与 Agent 之间的交互参与
- 指令者-执行者范式：人类提供指令或反馈，而 Agent 充当执行者，例如在教育、医疗保健等领域担任人类助手。
- 平等伙伴关系范式：Agent 与人类平等参与互动，例如在游戏领域与人类进行合作或谈判。
Agent 社会：从个性到社会性

Agent 行为与人格
- 社会行为：Agent 可以表现出各种社会行为，例如合作、竞争、模仿、旁观等。
- 人格：Agent 可以发展出认知能力、情商和性格特征，从而塑造其行为反应。
Agent 的社会环境
- 基于文本的环境：Agent 在由自然语言描述的环境中进行操作。
- 虚拟沙箱环境：Agent 在可视化和可扩展的模拟环境中进行操作。
- 物理环境：Agent 在真实的物理环境中进行操作。
社会模拟与 LLM 为基础的 Agent

通过构建模拟社会，研究人员可以观察 Agent 社会中涌现的社会现象，例如合作、传播、伦理决策等，并从中获得对人类社会的洞察。

讨论

LLM 研究和 Agent 研究之间的互惠互利

LLM 研究和 Agent 研究可以相互促进，LLM 为 Agent 研究提供了强大的基础模型，而 Agent 研究则为 LLM 研究提出了新的挑战和机遇。

基于 LLM 的 Agent 评估

评估基于 LLM 的 Agent 的效用、社交性、价值观和持续发展的能力，对于确保其安全、可信和有效至关重要。

基于 LLM 的 Agent 的安全性、可信度及其他潜在风险

需要解决基于 LLM 的 Agent 的对抗性鲁棒性、可信度、滥用、失业率和对人类福祉的威胁等潜在风险。

扩大 Agent 的数量

扩大 Agent 的数量可以提高任务效率，增强社会模拟的真实性和可信性，但也面临着计算负担、通信挑战和协调难度等挑战。

开放问题
- 基于 LLM 的 Agent 是否代表了通往 AGI 的潜在途径？
- 如何将 Agent 从虚拟仿真环境迁移到物理环境？
- 如何在 AI Agent 中实现集体智慧？
- 如何将 Agent 作为服务提供？
结论

基于 LLM 的 Agent 是一个充满希望的研究方向，它将 LLM 的强大能力与 Agent 的行动能力相结合，有望构建出更加智能、更加通用的 AI 系统。然而，这个领域也面临着许多挑战和风险，需要研究人员和从业者共同努力，以确保其安全、可信和有效地发展。

参考文献

[1] Russell, S. J. Artificial intelligence a modern approach. Pearson Education, Inc., 2010.

[2] Diderot, D. Diderot’s early philosophical works. 4. Open Court, 1911.

[3] Turing, A. M. Computing machinery and intelligence. Springer, 2009.

[4] Wooldridge, M. J., N. R. Jennings. Intelligent agents: theory and practice. Knowl. Eng. Rev.,10(2):115–152, 1995.

…

[675] Sun, T., Y. Shao, H. Qian, et al. Black-box tuning for language-model-as-a-service. In K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvári, G. Niu, S. Sabato, eds., International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA, vol. 162 of Proceedings of Machine Learning Research, pages 20841–20855. PMLR, 2022.
2024-06-21
大型语言模型的“灾难性遗忘”：指令向量揭示真相，引导训练化解危机
大型语言模型（LLM）在自然语言处理领域取得了巨大成功，但它们在微调过程中容易出现“灾难性遗忘”问题，即模型在学习新任务时会忘记之前学到的知识。这无疑限制了 LLM 的应用范围，也引发了人们对 LLM 可靠性和可解释性的担忧。本文将深入探讨 LLM 的遗忘机制，并提出一种基于指令向量（IV）的训练方法，有效缓解遗忘问题。

遗忘的真相：指令理解能力的下降，而非知识遗失

传统的遗忘研究主要关注模型在不同任务上的性能变化，但对于遗忘的内在机制却知之甚少。本文提出了一种新的视角，将 LLM 的能力分为两类：知识理解能力和指令理解能力。
- 知识理解能力是指模型对世界知识的掌握，例如“日本的首都是东京”。这种能力主要体现在模型对文本的理解和生成能力，例如问答、摘要等任务。
- 指令理解能力是指模型对特定指令的理解和执行能力，例如“从A、B、C、D中选择最佳答案”。这种能力体现在模型对用户意图的理解和执行能力，例如对话、代码生成等任务。
通过对持续指令微调框架下的实验观察，我们发现：指令理解能力的下降是导致模型遗忘的主要原因，而非知识遗失。

实验设计： 研究者使用持续指令微调框架，对 LLM 进行了一系列的指令学习任务。每个任务都对应一个特定的指令，例如“翻译成西班牙语”、“生成一段代码”。研究者观察了模型在学习新任务后，其在知识理解和指令理解方面的表现。

实验结果： 实验结果表明，模型在学习新任务后，其指令理解能力普遍下降，而知识理解能力则相对稳定，甚至有所提升。这说明模型的遗忘主要体现在对新指令的适应能力下降，而非对已学知识的遗忘。

指令向量：揭示遗忘背后的秘密，洞悉模型内部变化

为了深入理解遗忘机制，我们提出了指令向量（IV）框架。IV 代表与特定指令相关的模型表征，它可以帮助我们理解模型内部的变化，从而揭示遗忘的内在原因。

IV 假设： 研究者假设每个指令都对应一个潜在的指令向量 θc，它控制着模型对该指令的理解和执行能力。模型的输出 yc 可以通过一个包含 x、c 和 θc 的计算图来表示：fM(x, c, θc) → yc。

IV 提取： 研究者使用因果中介分析识别出对模型输出有显著因果影响的注意力头，并将其表征聚合起来，得到相应的 IV。具体而言，研究者首先收集了模型在处理特定指令时，每个注意力头的激活状态。然后，他们通过因果中介分析，识别出对模型输出有显著因果影响的注意力头。最后，他们将这些注意力头的表征聚合起来，得到相应的 IV。

IV 分析： 研究者通过分析 IV 在训练前后变化，发现了一些重要的现象：
- IV 的一致性与任务性能相关： 模型在学习新任务时，其隐藏状态与 IV 的相似度越高，任务性能越好。这说明 IV 的激活状态与模型对特定指令的理解能力密切相关。
- IV 的变化并非遗忘的主要原因： 即使 IV 保持稳定，模型仍然会发生遗忘。这说明模型的遗忘并非源于对 IV 的遗忘，而是源于其他因素。
- 遗忘源于新学习的推理模式对旧技能的抑制： 微调过程会引入新的推理模式，这些模式可能会压制旧的技能，导致遗忘。研究者通过因果中介分析发现，模型在学习新任务后，其注意力头的激活模式发生了显著变化，这说明模型学习了新的推理模式，而这些新的模式可能会压制旧的技能，导致遗忘。
指令向量引导训练：缓解遗忘的利器，维护模型原有能力

基于 IV 分析，研究者提出了一种指令向量引导训练方法，旨在通过维护 IV 相关的计算图来缓解遗忘问题。

方法：
1. 渐进式 IV 干预训练： 在训练初期，将 IV 显式地引入模型，并随着训练的进行逐渐降低其影响。这可以帮助模型在学习新任务时，保持对旧指令的理解能力。
2. IV 基于 KL 散度损失函数： 通过最小化 IV 干预模型与原始模型的输出分布之间的 KL 散度，确保模型的行为与原始计算结构保持一致。这可以帮助模型在学习新任务时，避免过度偏离原有的计算模式。
实验结果：
- 指令向量引导训练显著减少了模型对一般能力和推理能力的遗忘。这表明指令向量引导训练可以有效地维护模型的原有能力，防止模型在学习新任务时忘记之前学到的知识。
- 指令向量引导训练没有损害模型学习新任务的能力。这表明指令向量引导训练可以帮助模型在学习新任务的同时，保持对旧任务的理解能力，不会影响模型的学习能力。
- 任务复杂度越高，遗忘的可能性越大。这表明指令向量引导训练在处理复杂任务时，其效果更加显著。
未来展望

我们的研究为理解 LLM 遗忘机制提供了新的视角，并提出了一种有效的缓解遗忘问题的方法。未来，我们将进一步研究：
- IV 的可适应性和泛化性： 如何使 IV 能够更好地适应新的知识和任务。
- IV 的提取方法： 如何利用更先进的优化方法提取更准确和泛化的 IV。
- 不同模型的遗忘现象： 在更多 LLM 上验证我们的遗忘假设。
总结

本文的研究揭示了 LLM 遗忘的内在机制，并提出了一种基于指令向量引导训练的方法，有效缓解遗忘问题。这项研究为理解 LLM 的行为提供了新的视角，也为 LLM 的应用提供了新的思路。
2024-06-21
大模型的可控生成：CoDI-Eval 基准测试
近年来，大型语言模型（LLM）在理解和执行自然语言指令方面展现出惊人的能力，为自然语言处理领域带来了革命性的变革。然而，LLM 并不总是能准确地响应包含特定约束的指令。例如，要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件，它们可能无法满足这些要求。因此，评估 LLM 对包含特定约束指令的响应能力至关重要。

可控文本生成：传统方法的局限性

可控文本生成（CTG）是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上，例如控制文本长度或包含特定关键词。然而，这种方法并不适用于新的指令遵循范式，因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。

此外，在现实场景中，指令中的约束条件通常以自由形式的自然语言表达，例如“写一篇关于人工智能的简短文章”。因此，LLM 需要能够理解各种表达方式的约束条件，并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力，以及与实际用户期望的匹配程度。

CoDI-Eval：一个新的基准测试

为了填补这一空白，并推动 LLM 与人类期望更好地对齐的研究，我们提出了 CoDI-Eval（Controllable Generation under Diversified Instructions），一个新的基准测试，用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务，并使用多样化的自然语言指令来表达约束条件，从而更准确地衡量 LLM 对包含特定约束指令的响应能力。

CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面，我们选择了五个典型的 CTG 任务，涵盖了情感、主题、长度、关键词和避免毒性等方面。此外，我们还包含了一个多方面控制的任务，同时包含两个方面的约束条件，以测试 LLM 在更具挑战性的复杂场景下的表现。

在泛化能力方面，我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”，使用一个强大的 LLM 生成更多指令，从而构建指令池。第二步是“多样化”，通过对指令进行文本重写，以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步，直到达到预期的指令规模。这两个步骤都由 LLM 自动完成，无需人工干预。

CoDI-Eval 的评估方法

为了评估 CoDI-Eval，我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务，我们借助现有的开源专用模型或外部 API，并证明这些替代方法与人工评估结果一致。每个 CTG 任务的评估指标是准确率，我们使用所有 CTG 任务的平均准确率来衡量不同 LLM 的可控生成能力。

实验结果

我们对主流 LLM（例如 ChatGPT、LLaMA2-chat、Vicuna）进行了广泛的评估，结果表明，顶级商业 LLM 在所有 CTG 任务上都取得了最高得分，而我们测试的开源 LLM 在准确率上存在超过 10% 的差距。此外，经过微调的 LLM 表现优于基础语言模型，而那些在更大规模数据上进行微调的模型（例如 LLaMA2-chat、ChatGLM）也比仅经过指令微调的同参数量 LLM（例如 Vicuna、Alpaca）表现更好。

在不同任务上的表现方面，LLM 在情感和主题控制任务上表现相对较好。然而，当这两个属性组合在一起时，任务难度会增加，所有 LLM 的准确率都未达到 80%。我们以 GPT-3.5-turbo 为例，分析了 LLM 在多方面可控生成任务上出现错误的原因。

在避免毒性任务中，只有经过对齐微调的 LLM（例如 RLHF）才能在这项任务上表现良好，特别是经过更精细对齐训练的 GPT-4 和 GPT-3.5-turbo。

在硬约束方面，LLM 在关键词任务上的准确率接近平均准确率。我们分析了 LLM 在复杂关键词 CTG 任务上出现错误的原因。然而，在看似简单的长度 CTG 任务中，即使是 GPT-3.5-turbo 的准确率也只有 55%，这表明大多数 LLM 对长度的感知能力不足。然而，GPT-4 在这项任务上表现出更强的能力。我们计算了 GPT-3.5-turbo 在长度控制生成每个子任务上的准确率，发现准确率与目标长度范围大致呈正相关。

结论

本文介绍了 CoDI-Eval，一个用于评估 LLM 可控文本生成能力的新基准测试。我们的基准测试包含一组评估指令，涉及多个 CTG 任务，并使用各种自然语言表达方式来表达约束条件。我们的结果表明，经过指令微调的 LLM 能够执行某些 CTG 任务，但生成文本的准确率还有待提高，特别是对于某些特定的约束条件。我们还观察到开源 LLM 与闭源商业 LLM 之间的性能差距，这为未来的研究指明了方向。

参考文献
- Chen, Yihan, et al. “Benchmarking Large Language Models on Controllable Generation under Diversified Instructions.” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 17808-17816.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：大型语言模型（LLMs）在遵循自然语言指令方面表现出色，但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应，论文提出了一个新的基准测试（Benchmark），名为CoDI-Eval（Controllable Generation under Diversified Instructions），用于系统和全面地评估LLMs对具有各种约束的指令的响应。

具体来说，论文的主要贡献包括：
1. 提出了一个新的基准测试CoDI-Eval，它通过纳入自然语言格式的多样化指令来评估LLMs的可控文本生成（CTG）能力，超越了传统的评估方法。
2. 伴随着基准测试，提供了自动化且易于使用的评估方法，以促进进一步的发展。
3. 对一系列已创建的LLMs进行了零样本（zero-shot）和少样本（few-shot）评估，首次系统地验证并比较了它们在CTG任务上的性能。
论文通过构建一个大型的、具有约束属性的指令集合作为测试套件，专注于泛化和覆盖范围，并通过指令多样化过程来合成不同形式的约束表达，同时仔细考虑了候选任务分类，以更细粒度的子类别进行划分。最后，论文自动化了整个评估过程，以促进未来的研究发展。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要包括以下几个方面：
1. 大型语言模型（LLMs）：研究者们开发了各种方法来增强或利用LLMs的能力，包括指令调整（instruction tuning）和上下文学习（in-context learning，ICL）。
2. 数据生成：利用LLMs生成数据的趋势，例如Self-Instruct和Unnatural Instructions，这些方法依赖于LLMs提供指令和响应，以克服手动编写数据的局限性。
3. 可控文本生成（Controllable Text Generation, CTG）：当前的CTG任务主要集中在硬约束和软约束两类上。硬约束限制文本的词汇和语法，如控制文本长度和确保生成的文本包含某些关键词。软约束旨在限制文本的语义，如情感和主题。
4. CTG的评估：之前没有统一的CTG领域基准，但一些研究尝试了不同的评估方法。例如，PPLM设计了几种短前缀作为CTG模型的输入，DExperts采用了与RealToxicPrompt类似的方法，通过构建多个提示来评估模型在不同输入提示下控制情感的能力。
5. 指令遵循：研究者们也关注了LLMs遵循指令的能力，例如通过使用分类任务中的指令来评估LLMs是否能够遵守指令中的要求。
6. 模型性能比较：论文中还提到了对不同LLMs在CoDI-Eval基准测试上的性能进行了比较，揭示了它们在遵循具有特定约束的指令方面的局限性。
这些相关研究为论文提出的CoDI-Eval基准测试提供了理论和技术背景，并且展示了LLMs在可控文本生成方面的潜力和挑战。论文通过这些研究的对比，强调了其在指令多样化和评估自动化方面的创新点。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决大型语言模型（LLMs）在遵循带有特定约束的指令方面评估的问题：
1. 提出CoDI-Eval基准测试：CoDI-Eval（Controllable Generation under Diversified Instructions）是一个新提出的基准测试，旨在系统和全面地评估LLMs对带有各种约束的指令的响应能力。
2. 构建测试套件：作者构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令专注于泛化和覆盖范围，以确保能够全面评估LLMs的性能。
3. 指令多样化：通过一个两步过程来最大化指令的多样性。首先，从一个小型的、人工策划的种子指令集开始，然后通过扩展过程增加指令数量，构建指令池。其次，从池中随机抽取指令，并通过文本重写的方式进一步多样化这些指令。
4. 自动化评估过程：为了促进进一步的研究发展，作者自动化了整个评估过程，包括指令的生成、多样化以及评估方法的自动化。
5. 评估方法：对于每个可控文本生成任务，作者收集或构建了自动化、易于使用且可靠的评估方法。对于不能直接评估的任务，作者使用了开源的、专门的模型或外部API，并证明了这些替代方法与人类评估具有合格的一致性。
6. 实验验证：作者对一系列主流的LLMs（例如ChatGPT、LLaMA-13B-chat、Vicuna-13B等）进行了广泛的评估，以验证CoDI-Eval的性能，并揭示了LLMs在遵循具有特定约束的指令方面的局限性。
7. 性能比较：通过比较不同LLMs在CoDI-Eval上的性能，作者揭示了开源LLMs与商业闭源LLMs之间的性能差距，并指出了未来研究的潜在方向。
通过这些步骤，论文不仅提出了一个新的基准测试来评估LLMs的可控文本生成能力，而且还通过实验验证了该基准测试的有效性，并为未来的研究提供了一个有用的工具。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证CoDI-Eval基准测试的有效性和评估不同大型语言模型（LLMs）的性能：
1. 模型性能评估：作者对一系列主流的LLMs进行了评估，包括商业模型（如GPT-4和ChatGPT）和开源模型（如LLaMA-13B-chat、Vicuna-13B等）。评估的目的是验证这些模型在遵循带有特定约束的指令方面的能力。
2. 零样本（Zero-shot）和少样本（Few-shot）设置：作者使用了零样本和少样本的提示来测试LLMs对指令中约束的响应能力。零样本设置没有使用任何示例，而少样本设置则在提示中添加了5个指令-响应对作为示例。
3. 不同任务的性能比较：作者比较了LLMs在不同可控文本生成（CTG）任务上的性能，包括情感、主题、多方面、长度、关键词和毒性避免任务。
4. 错误分析：对于多方面可控生成任务和复杂关键词CTG任务，作者分析了GPT-3.5-turbo（ChatGPT）响应错误的原因。
5. 长度可控文本生成任务的子任务分析：作者计算了GPT-3.5-turbo在长度可控文本生成任务的各个子任务上的准确率，并发现准确率与目标长度的范围大致正相关。
6. 指令多样性分析：作者通过构建仅使用指令扩展步骤的指令集，并与CoDI-Eval中的最终指令集进行比较，来验证“指令多样化”步骤的有效性。
7. 评估方法的质量验证：作者通过人工判断来验证自动化评估方法的可靠性，特别是对于情感、主题和多方面控制任务。
8. 进一步讨论：作者讨论了LLMs在特定长度约束下生成文本的表现不佳的原因，并提出了可能的改进方向。
这些实验不仅展示了CoDI-Eval基准测试的评估能力，而且还揭示了当前LLMs在可控文本生成方面的局限性，特别是在处理特定约束时。实验结果为未来的研究方向提供了有价值的见解。

Q: 有什么可以进一步探索的点？

A: 根据论文内容，以下是一些可以进一步探索的点：
1. 改进长度感知能力：LLMs在处理长度约束方面表现不佳，需要研究如何提高模型对文本长度的感知和控制能力。
2. 增强指令理解：探索新的方法来提高LLMs对多样化指令的理解，特别是对于复杂或不常见的指令表达。
3. 优化少样本学习：研究如何通过少样本学习更有效地提高LLMs的可控文本生成能力，考虑到当前的简单示例可能不足以捕捉指令的多样性。
4. 指令多样化的自动化：尽管论文中提出了指令多样化的方法，但这个过程仍然可以进一步自动化和优化，以减少人工干预并提高效率。
5. 跨语言评估：探索CoDI-Eval基准测试在不同语言上的适用性，以及如何调整评估方法以适应不同的语言特性。
6. 模型架构改进：研究不同的模型架构和训练策略，以更好地处理带有约束的文本生成任务。
7. 实时性能评估：开发实时评估工具，以便在模型生成文本时即时评估其性能，这可能有助于提高交互式应用的用户体验。
8. 可解释性和透明度：提高LLMs在可控文本生成任务中的可解释性，帮助用户理解模型的决策过程。
9. 伦理和公平性：确保LLMs在生成文本时遵循伦理准则，避免产生有害或偏见的内容。
10. 多任务学习：研究LLMs在同时处理多个不同类型的可控文本生成任务时的性能，以及如何优化模型以提高多任务处理能力。
11. 数据集和基准测试的扩展：扩充CoDI-Eval数据集，添加更多的指令和任务类型，以更全面地评估LLMs的能力。
12. 用户研究：进行用户研究，以了解用户对LLMs生成的文本的满意度，以及他们对可控文本生成的具体需求。
这些探索点可以帮助研究者们更好地理解和改进LLMs在可控文本生成方面的表现，同时也为LLMs的实际应用提供指导。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题定义：论文探讨了大型语言模型（LLMs）在遵循带有特定约束的自然语言指令方面的能力，并指出了现有评估方法的不足。
2. CoDI-Eval基准测试：提出了一个新的基准测试CoDI-Eval，用于系统和全面地评估LLMs对带有各种约束的指令的响应能力。
3. 测试套件构建：构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令覆盖了情感、主题、长度、关键词和毒性避免等多个方面。
4. 指令多样化：通过一个两步过程（扩展和多样化）来增加指令的多样性，使用LLMs自动生成指令并进行文本重写。
5. 自动化评估：开发了自动化的评估方法，使用开源模型和API来评估LLMs在各个CTG任务上的性能。
6. 实验验证：对多个主流LLMs进行了广泛的评估，包括商业模型和开源模型，揭示了它们在遵循特定约束指令方面的局限性。
7. 性能比较：比较了不同LLMs在CoDI-Eval上的性能，发现商业闭源模型通常优于开源模型。
8. 错误分析：对LLMs在多方面可控生成任务和复杂关键词CTG任务上的错误进行了分析。
9. 进一步讨论：讨论了LLMs在长度可控文本生成任务中的挑战，并提出了可能的改进方向。
10. 结论：论文得出结论，CoDI-Eval基准测试能够有效评估LLMs的可控文本生成能力，并指出了未来研究的潜在方向。
整体而言，这篇论文通过提出新的基准测试和评估方法，为理解和改进LLMs在可控文本生成方面的能力提供了重要的工具和见解。
2024-06-21
为新闻推荐系统预训练词向量和实体向量
新闻推荐系统近年来发展迅速，其中一个重要的技术突破是深度知识感知网络 (DKN) 的出现。DKN 能够利用知识图谱 (KG) 中的实体信息来增强新闻推荐的准确性。为了训练 DKN 模型，我们需要预先训练词向量和实体向量，本文将介绍如何使用 Word2Vec 和 TransE 模型来完成这一任务。

用 Word2Vec 训练词向量

Word2Vec 是一种常用的词向量训练模型，它能够将词语映射到一个高维向量空间中，并学习到词语之间的语义关系。在 DKN 中，我们需要将新闻标题和文本中的词语转换为向量表示，以便模型能够理解文本内容。

我们可以使用 Gensim 库中的 Word2Vec 模型来训练词向量。Gensim 提供了简单易用的接口，可以方便地加载文本数据并训练模型。
```
from gensim.test.utils import common_texts, get_tmpfile
from gensim.models import Word2Vec
import time
from utils.general import *
import numpy as np
import pickle
from utils.task_helper import *
```
首先，我们定义一个类 MySentenceCollection 来读取新闻文本数据。该类实现了迭代器接口，可以逐行读取文本文件并将其转换为词语列表。
```
class MySentenceCollection:
    def __init__(self, filename):
        self.filename = filename
        self.rd = None

    def __iter__(self):
        self.rd = open(self.filename, 'r', encoding='utf-8', newline='\\r\\n')
        return self

    def __next__(self):
        line = self.rd.readline()
        if line:
            return list(line.strip('\\r\\n').split(' '))
        else:
            self.rd.close()
            raise StopIteration
```
接下来，我们定义一个函数 train_word2vec 来训练 Word2Vec 模型。该函数接受新闻文本文件路径和输出目录作为参数，并保存训练好的模型文件。
```
def train_word2vec(Path_sentences, OutFile_dir):
    OutFile_word2vec = os.path.join(OutFile_dir, r'word2vec.model')
    OutFile_word2vec_txt = os.path.join(OutFile_dir, r'word2vec.txt')
    create_dir(OutFile_dir)

    print('start to train word embedding...', end=' ')
    my_sentences = MySentenceCollection(Path_sentences)
    model = Word2Vec(my_sentences, size=32, window=5, min_count=1, workers=8, iter=10) # user more epochs for better accuracy

    model.save(OutFile_word2vec)
    model.wv.save_word2vec_format(OutFile_word2vec_txt, binary=False)
    print('\\tdone . ')

Path_sentences = os.path.join(InFile_dir, 'sentence.txt')

t0 = time.time()
train_word2vec(Path_sentences, OutFile_dir)
t1 = time.time()
print('time elapses: {0:.1f}s'.format(t1 - t0))
```
用 TransE 训练实体向量

知识图谱 (KG) 由实体和关系组成，可以用来表示世界上的各种知识。在 DKN 中，我们可以利用 KG 中的实体信息来增强新闻推荐的准确性。为了将 KG 中的实体信息融入到 DKN 模型中，我们需要将实体映射到向量空间中，即训练实体向量。

TransE 是一种常用的知识图谱嵌入模型，它能够将实体和关系映射到同一个向量空间中，并学习到实体和关系之间的语义关系。我们可以使用开源的 Fast-TransX 库来训练 TransE 模型。
```
!bash ./run_transE.sh
```
构建上下文向量

DKN 模型不仅需要考虑实体本身的向量表示，还需要考虑实体的上下文信息。例如，同一个实体在不同的新闻中可能具有不同的含义。为了捕捉这种上下文信息，我们需要构建上下文向量。

我们可以利用 KG 中的实体关系来构建上下文向量。例如，对于一个实体，我们可以将所有与它相关的实体的向量加权平均，得到该实体的上下文向量。
```
##### build context embedding
EMBEDDING_LENGTH = 32
entity_file = os.path.join(OutFile_dir_KG, 'entity2vec.vec')
context_file = os.path.join(OutFile_dir_KG, 'context2vec.vec')
kg_file = os.path.join(OutFile_dir_KG, 'train2id.txt')
gen_context_embedding(entity_file, context_file, kg_file, dim=EMBEDDING_LENGTH)
```
加载预训练向量

最后，我们需要将训练好的词向量和实体向量加载到 DKN 模型中。
```
load_np_from_txt(
        os.path.join(OutFile_dir_KG, 'entity2vec.vec'),
        os.path.join(OutFile_dir_DKN, 'entity_embedding.npy'),
    )
load_np_from_txt(
        os.path.join(OutFile_dir_KG, 'context2vec.vec'),
        os.path.join(OutFile_dir_DKN, 'context_embedding.npy'),
    )
format_word_embeddings(
    os.path.join(OutFile_dir, 'word2vec.txt'),
    os.path.join(InFile_dir, 'word2idx.pkl'),
    os.path.join(OutFile_dir_DKN, 'word_embedding.npy')
)
```
参考文献
1. Wang, Hongwei, et al. “DKN: Deep Knowledge-Aware Network for News Recommendation.” Proceedings of the 2018 World Wide Web Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2018.
2. Knowledge Graph Embeddings including TransE, TransH, TransR and PTransE. https://github.com/thunlp/KB2E
3. GloVe: Global Vectors for Word Representation. https://nlp.stanford.edu/projects/glove/
4. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems – Volume 2 (NIPS’13). Curran Associates Inc., Red Hook, NY, USA, 3111–3119.
5. Gensim Word2vec embeddings : https://radimrehurek.com/gensim/models/word2vec.html
2024-06-18
沙特阿拉伯加入mBridge项目
沙特阿拉伯加入mBridge项目，这是一个由国际清算银行（BIS）和中国牵头成立的央行数字货币（CBDC）跨境试验项目，旨在促进即时跨境支付。这一举动显示出沙特阿拉伯的战略灵活性，使其能够接受人民币等其他货币，同时不冒犯美国。沙特央行加入mBridge项目可能对石油美元体系构成威胁，因为沙特及其他石油生产国正逐渐减少在能源贸易中使用美元。

以下是关于沙特加入mBridge项目和石油美元体系的一些重要信息：
1. 沙特加入mBridge项目：沙特阿拉伯的央行已宣布加入mBridge项目，成为该项目的全面参与者[1]。mBridge项目是一个多边央行数字货币桥项目，旨在通过分布式账本技术实现即时跨境支付。这一举措可能是全球石油贸易朝着减少美元结算迈出的重要一步。
2. 石油美元体系的挑战：自1973年以来，石油美元体系与美元紧密关联，但近年来面临着重大挑战。俄罗斯、伊朗、中国等国家越来越多地在石油交易中使用本币，逐渐减少对美元的依赖。据估计，全球多达52%的石油贸易可能很快将使用非美元货币进行[2]。这一转变可能导致美元价值缩水，并削弱美国金融体系。
3. mBridge项目的影响：沙特加入mBridge项目进一步推动了去美元化的趋势。随着全球对美元的信任度下降，加上美国国债激增和利息支出飙升，石油生产国寻求减少对美元的依赖。mBridge项目的推进将促使更多的石油贸易使用非美元货币进行结算，从而加速石油美元体系的转移。
4. 全球金融格局的重塑：这一转变不仅反映了经济现实，也是战略性地缘政治操作的结果。石油生产国减少对美元的依赖，正在重塑全球金融格局。这可能对美国金融体系产生影响，并引发全球货币体系的调整。
综上所述，沙特阿拉伯加入mBridge项目显示出其战略灵活性，使其能够接受其他货币，同时减少对美元的依赖。这一举措可能对石油美元体系构成威胁，并加速全球石油贸易的去美元化趋势。

Learn more:
2024-06-15
赋予对话系统“大脑”：从神经科学到虚拟接待员
随着聊天机器人、语言模型和语音技术的快速发展，人们越来越渴望创造能够通过自然语言或直接语音与人类无缝交互的系统。本文将探讨如何将对话系统研究置于具身智能的更广阔背景下，借鉴神经生物学和神经心理学中的概念，定义一种能够融合手工设计和人工神经网络的行为架构，为未来模仿学习或指令学习等新学习方法打开大门。

传统对话系统的局限性

传统的语音助手通常采用一种简单的线性信息流架构，从语音识别到自然语言理解，再到对话管理和自然语言生成，最终输出文本或语音。这种架构虽然在处理简单任务方面表现出色，但面临着一些挑战：
- 数据依赖性强： 机器学习方法需要大量对话数据进行训练，这在一些领域难以获得。
- 奖励函数定义困难： 强化学习方法需要定义合适的奖励函数，这在复杂对话场景中非常困难。
- 可控性/可解释性有限： 基于统计的深度神经网络方法的可控性和可解释性较差。
另一方面，手工设计的对话系统虽然易于开发，可控性高，但扩展性存在局限，难以应对复杂多变的对话场景。

借鉴神经科学：Miron系统

本文提出了一种名为“Miron”的系统，其灵感来源于神经科学中的镜像神经元理论。镜像神经元在动物执行特定动作时以及观察其他个体执行相同动作时都会被激活，这表明动作理解和动作生成可能共享相同的表征。

Miron系统将这一概念应用于自然语言理解 (NLU) 和自然语言生成 (NLG) 模块，将一个特定的意图 (intent) 与一组用于识别和生成该意图的模板句子联系起来。每个Miron还包含一个可选的数据结构，用于描述模板句子中使用的命名实体 (named entities)，例如日期、地点、人物等。

Miron系统的优势：
- 统一识别和生成： Miron系统使用相同的模板句子进行识别和生成，简化了设计过程。
- 可扩展性： Miron模板可以生成大量句子，为统计 NLU 模型提供训练数据。
- 模仿学习的潜力： Miron系统为通过观察和模仿学习对话行为提供了可能性。
具身智能和多模态交互

除了文本对话，具身智能系统还可以通过虚拟化身或物理机器人与人类进行多模态交互，例如眼神、表情、手势等。Miron系统可以通过文本形式表示多模态信息，实现多模态交互。

对话/行为引擎：基于递归神经网络的架构

为了处理异步感知事件 (例如语音、传感器信号) 并生成相应的反应，本文提出了一种基于递归神经网络 (RNN) 的对话/行为引擎。该引擎将状态定义为规则，每个规则对应一个状态，当其条件满足时，就会执行一组关联的动作。

行为引擎的架构：
- 条件层： 包含识别到的 Miron 意图、动作完成反馈事件、命名实体状态和工作记忆状态。
- AND 层： 通过权重矩阵和当前激活的规则，确定哪些规则可以被激活。
- 预选层： 在多个规则可以被激活的情况下，随机选择一个规则。
- OR 层： 考虑所有激活的规则，最终确定下一个激活的规则。
- 动作层： 生成相应的动作，包括内部 Miron 意图、内部动作、工作记忆状态变化等。
内部语言：模拟人类的思考过程

人类可以通过“内部语言”进行思考，例如回忆记忆或想象场景。本文借鉴这一概念，允许对话系统通过内部 Miron 意图触发行为，就像外部用户发出指令一样。

模型驱动开发：图形化 DSL

为了简化对话/行为的设计过程，本文提出了一种图形化领域特定语言 (DSL)，允许开发者通过图形化方式创建对话/行为模型。DSL 包含 Miron 元素和规则元素，分别用于定义语言相关方面 (例如意图、命名实体、模板) 和行为逻辑 (例如条件、动作)。

对话设计：模块化和参数化

对话可以看作是机器和用户之间一系列言语行为的交替。为了简化对话设计，本文提出了一种基于回合制 (turn-taking) 的架构，将对话流程分解成多个模块，例如用户模型、响应模型、错误模型、情景分析模块、行为参数化模块和参数化行为模块。

虚拟接待员：应用案例

本文使用上述方法开发了一个虚拟接待员系统，该系统运行在一个展台上，由一个虚拟化身代表，用于迎接访客、收集信息、验证访客预约信息并联系相关人员迎接访客。

系统架构：
- 化身框架： 提供了用于创建虚拟化身的工具和接口。
- 语音技术： 集成了文本转语音 (TTS) 和语音识别 (ASR) 模块。
- 电话/邮件通信： 支持电话和邮件通信功能。
- 人脸识别和距离检测： 支持人脸识别和距离检测功能。
对话设计：
- 模块化： 将对话流程分解成多个模块，例如访客模型、情景分析模块、信息参数化模块和错误处理模块。
- 冗余设计： 通过提供多种信息和处理错误的方式，提高对话的可靠性。
- 非语言行为： 使用表情、动作等非语言行为，增强用户体验。
用户研究：

用户研究表明，虚拟接待员系统获得了较高的用户满意度，用户认为该系统易用、吸引人且能有效地完成任务。

总结和未来展望

本文展示了如何将神经科学中的概念应用于手工设计的对话管理系统，并提出了一种基于模型驱动开发和图形化 DSL 的设计方法。未来，学习方法将是实现可扩展对话系统的关键，而模仿学习、指令学习和课程学习将发挥重要作用。

参考文献:
- Alderson-Day, B., & Fernyhough, C. (2015). Inner Speech: Development, Cognitive Functions,
  Phenomenology, and Neurobiology. Psychol Bull., 141(5), 931-965.
- Bohus, D., & Horvitz, E. (2009). Dialog in the open world: platform and applications. In Proceedings of the 2009 international conference on Multimodal interfaces (pp. 31-38).
- Rizzolatti, G., & Craighero, L. (2004), The Mirror-Neuron System, Annu. Rev. Neurosci., 27, 169–92.
- Weinschenk, S. (2011). 100 things every designer needs to know about people. Pearson Education.
**[请保持角色] **
2024-06-15
MMLU：我们真的完成了它吗？

大型语言模型（LLM）的出现，标志着自然语言处理领域取得了重大进展，使我们能够通过自然语言与计算机进行交互。然而，这些模型的评估需要可靠的基准测试，而现有的基准测试却存在着不少问题。

MMLU：一个广受欢迎但存在问题的基准测试

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）基准测试，因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而，我们发现，尽管MMLU很受欢迎，但它存在着大量错误，这些错误会误导模型评估和比较。

MMLU中的错误：一个需要解决的问题

研究人员发现，MMLU中存在着各种各样的错误，从简单的解析和抓取错误，到更复杂的上下文、解释和数据集质量问题。例如，在病毒学子集中，57% 的问题都存在错误，其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。

MMLU-Redux：一个更可靠的基准测试

为了解决MMLU中存在的错误问题，研究人员手动分析了MMLU数据集，并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题，涵盖了MMLU的30个子集。研究人员发现，MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异，这表明MMLU中存在的错误对模型评估结果产生了重大影响。

MMLU-Redux：一个更可靠的基准测试

MMLU-Redux 的创建，为我们提供了重新评估LLM性能的工具。研究人员发现，在MMLU-Redux 上，一些LLM的性能表现与原始MMLU评估结果存在显著差异，这表明MMLU中的错误会影响模型的排名。

自动修复MMLU：一个挑战

研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法，包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而，即使是最先进的模型，在自动错误检测方面的表现仍然有限。

结论：MMLU需要改进

MMLU是一个重要的基准测试，但它存在着不少问题。MMLU-Redux 的出现，为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力，改进MMLU，使其成为评估下一代LLM的可靠工具。

参考文献

[1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[2] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[3] Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

[4] Radford, Alec, et al. “Language models are unsupervised multitask learners.” OpenAI blog (2019).

[5] Raffel, Colin, et al. “Exploring the limits of transfer learning with a unified text-to-text transformer.” Journal of Machine Learning Research 21.140 (2020): 1-67.

[6] Dai, Hanxiao, et al. “Finetuned language models are zero-shot learners.” arXiv preprint arXiv:2005.14165 (2020).

[7] Zhang, Sheng, et al. “Learning to prompt for continual pre-training.” Advances in Neural Information Processing Systems 35 (2022): 20398-20410.

[8] Touvron, Hugo, et al. “Llama: Open and efficient large language models.” arXiv preprint arXiv:2302.09439 (2023).

[9] Gardner, Matt, et al. “Evaluating large language models trained on code.” arXiv preprint arXiv:2107.03374 (2021).

[10] Bommasani, Rishi, et al. “On the opportunities and risks of foundation models.” arXiv preprint arXiv:2108.07258 (2021).

[11] Hendrycks, Dan, et al. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.11692 (2020).

[12] Wei, Jason, et al. “Finetuned language models are zero-shot learners.” arXiv preprint arXiv:2005.14165 (2020).

[13] Wei, Jason, et al. “Chain of thought prompting elicits reasoning in large language models.” arXiv preprint arXiv:2201.11903 (2022).

[14] Guu, Kelvin, et al. “Retrieval-augmented generation for knowledge-intensive tasks.” arXiv preprint arXiv:2005.11401 (2020).

[15] Lin, Jimmy, et al. “Pyserini: A python toolkit for reproducible information retrieval research.” Proceedings of the 45th International ACM SIGIR Conference on Research & Development in Information Retrieval. 2022.

[16] Beyer, Ludwig, et al. “Are we done with imagenet?” arXiv preprint arXiv:2007.02133 (2020).

[17] Deng, Jia, et al. “Imagenet: A large-scale hierarchical image database.” 2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009.

[18] Nallapati, Ramesh, et al. “Summarization evaluation: From human judgments to metrics.” Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016.

[19] Fabbri, Alessandro, et al. “Semeval-2015 task 11: Automatic short answer grading.” Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). 2015.

[20] Williams, Adina, et al. “A broad-coverage challenge corpus for sentence understanding through inference.” Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.

[21] Bowman, Samuel R., et al. “A large annotated corpus for learning natural language inference.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

[22] Glockner, Max, et al. “Fine-tuning language models for natural language inference.” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.

[23] Nie, Yixin, et al. “Adversarial examples for natural language inference.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[24] Bender, Emily M., et al. “On the dangers of stochastic parrots: Can language models be too big?” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.

[25] Belinkov, Yonatan, et al. “Evaluating adversarial robustness of natural language processing systems.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[26] Zhou, Peng, et al. “Towards robust and reliable natural language inference.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

[27] Zhang, Sheng, et al. “Learning to prompt for continual pre-training.” Advances in Neural Information Processing Systems 35 (2022): 20398-20410.

[28] Gururangan, Suchin, et al. “Don’t stop pretraining: Adapt language models to domains and tasks.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

[29] Snow, Rion, et al. “Cheap and fast—but is it good?: Evaluating non-expert annotations for natural language tasks.” Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2008.

[30] Diao, Qun, et al. “Human errors in annotation: A case study of natural language inference.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[31] Ratner, Alexander, et al. “Data programming: Creating large training sets via synthetic data.” Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.

[32] Sheng, Victor, et al. “Weak supervision for natural language processing.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[33] Sap, M., et al. “The influence of annotator bias on natural language inference data.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[34] Pratapa, Adithya, et al. “Annotator bias in natural language inference: A case study of the snli corpus.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

[35] Rajpurkar, Pranav, et al. “Medqa: A dataset for medical question answering.” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.

[36] Hendrycks,

2024-06-08