在人工智能飞速发展的今天, 大语言模型 (LLM) 已经成为各大科技公司竞相追逐的焦点。然而, 即便是最先进的 LLM, 在回答问题时仍然存在"幻觉"问题 - 即生成缺乏事实依据或与事实不符的答案。为了解决这个棘手的问题, 检索增强生成 (Retrieval-Augmented Generation, 简称 RAG) 技术应运而生, 并迅速成为学术界和产业界关注的热点。
近日, 社交媒体巨头 Meta 宣布推出"Meta 全面 RAG 基准测试:KDD Cup 2024"挑战赛, 旨在为 RAG 系统提供一个全面而严格的评估平台。这项备受瞩目的比赛不仅吸引了全球 AI 研究人员和工程师的目光, 更被视为推动 RAG 技术创新和进步的重要里程碑。让我们一起深入了解这场 AI 界的"世界杯"赛事。
RAG 技术: 为 LLM 插上"知识之翼"
在介绍比赛详情之前, 我们有必要先了解一下 RAG 技术的核心原理。顾名思义,RAG 是一种将信息检索与文本生成相结合的方法。当用户提出问题时,RAG 系统首先会从外部资源 (如网页、知识图谱等) 中检索相关信息, 然后利用这些信息作为上下文, 指导 LLM 生成更加准确、可靠的答案。
这种方法就像是为 LLM 插上了一对"知识之翼", 使其能够获取最新、最相关的信息, 从而大大降低"幻觉"的风险。比如, 当我们询问"谁是现任美国总统?"时, 传统 LLM 可能会根据训练数据给出过时或错误的答案。而 RAG 系统则会先检索最新的新闻报道或官方网站, 确保回答的准确性和时效性。
CRAG: 全面评估 RAG 系统的新基准
Meta 此次推出的挑战赛围绕着一个全新的基准测试 - 全面 RAG 基准 (Comprehensive RAG Benchmark, 简称 CRAG) 展开。 CRAG 的设计理念可以用四个关键词概括: 真实性、丰富性、可靠性和可访问性。
- 真实性:CRAG 的问题设计充分考虑了智能助手的实际使用场景, 涵盖了从简单事实查询到复杂推理任务的各种类型。同时, 评分标准也根据问题复杂度和实体热度进行加权, 以更好地反映用户真实需求的满足程度。
- 丰富性:CRAG 横跨金融、体育、音乐、电影和百科全书五大领域, 包含了不同时效性 (从实时到稳定) 和热度 (从热门到冷门) 的事实。此外, 它还设计了 8 种不同复杂度的问题类型, 从简单的单一事实查询到需要多步推理的复杂问题, 全面考验 RAG 系统的各项能力。
- 可靠性:CRAG 提供了经过人工验证的标准答案, 并精心设计了评分机制, 能够清晰区分正确、错误和缺失答案。同时, 它还提供了自动评估机制, 并确保样本数量足以得出统计显著的结果。
- 可访问性: 除了问题集和标准答案,CRAG 还提供了模拟的检索数据源, 确保所有参赛者都能在公平的环境下进行比较。
挑战赛任务: 层层递进的三大挑战
CRAG 挑战赛共设置了三个任务, 难度逐步提升, 旨在全方位评估参赛者开发的 RAG 系统。
- 基于网页的检索总结: 参赛者将收到每个问题对应的 5 个网页, 需要从中识别并提炼出相关信息, 生成准确的答案。这个任务主要考察系统对半结构化文本的理解和总结能力。
- 知识图谱和网页增强: 在第一个任务的基础上, 引入了模拟 API 来访问底层的模拟知识图谱 (KG) 。参赛者需要根据问题构造合适的查询参数, 从结构化数据中检索信息, 并将其与网页信息结合, 生成全面的答案。这个任务考验系统对结构化和非结构化数据的综合利用能力。
- 端到端 RAG: 作为最后也是最具挑战性的任务, 每个问题将提供 50 个网页和模拟 API 访问。这不仅增加了信息量, 也引入了更多噪声, 模拟真实世界中的复杂场景。参赛者需要开发能够从海量信息中快速筛选、整合关键数据的端到端 RAG 系统。
这三个任务的设计体现了 Meta 对 RAG 技术发展的深刻洞察。从单一数据源到多源异构数据, 从小规模信息到大规模噪声环境, 参赛者需要不断优化和改进他们的解决方案, 以应对日益复杂的挑战。这种层层递进的任务设置, 不仅能全面评估 RAG 系统的各项能力, 还能激发参赛者在实际应用场景中的创新思考。
评估标准: 严格而全面
为了确保评估的公平性和有效性,CRAG 采用了一套严格而全面的评分机制。答案质量被分为四个等级:
- 完美 (1 分): 正确回答用户问题, 且不包含任何幻觉内容。
- 可接受 (0.5 分): 提供了有用的答案, 但可能包含不影响整体有用性的小错误。
- 缺失 (0 分): 未能提供所需信息, 如"我不知道"等。
- 错误 (-1 分): 提供了错误或不相关的信息。
最终得分采用宏观平均法, 根据问题类型和实体热度进行加权 (具体权重未公开) 。这种评分方式不仅考虑了答案的准确性, 还重视系统在处理不同类型和难度问题时的表现, 从而更全面地反映 RAG 系统的整体性能。
值得注意的是,CRAG 采用了自动评估 (auto-eval) 和人工评估 (human-eval) 相结合的方式。自动评估用于初步筛选出前十名队伍, 而人工评估则决定各任务的前三名。这种双重评估机制既保证了效率, 又确保了最终结果的准确性和公正性。
参赛规则: 鼓励创新, 确保公平
为了鼓励参赛者充分发挥创意, 同时确保比赛的公平性,CRAG 制定了一系列细致的参赛规则:
- 模型限制: 参赛者必须使用 Meta 提供的 Llama 2 或 Llama 3 模型构建 RAG 解决方案。这包括了从 7B 到 70B 等不同规模的模型, 既为参赛者提供了选择空间, 又保证了基础模型的一致性。
- 硬件配置: 所有提交的解决方案将在配备 4 块 NVIDIA T4 GPU(每块 16GB 显存) 的 AWS G4dn.12xlarge 实例上运行。这一规定确保了所有参赛者在相同的硬件条件下进行公平竞争。
- 外部资源使用: 参赛者可以利用公开可用的数据集和模型, 但不允许使用大公司的专有数据集或模型。这一规定既鼓励了对公共资源的创新利用, 又防止了资源优势对比赛结果的不当影响。
- 提交限制: 在第一阶段, 每个团队每周可以为所有 3 个任务提交最多 6 次。第二阶段, 每个参赛团队在整个挑战赛期间可以为所有 3 个任务总共提交 6 次。这些限制旨在平衡参赛者优化方案的需求和评估系统的负载。
- 答案生成要求: 为了鼓励简洁有力的回答, 自动评估阶段会将答案截断至 75 个 BPE 词元。人工评估阶段则会检查前 75 个词元以寻找有效答案, 同时审查整个回答以判断是否存在幻觉。
这些规则不仅为参赛者提供了明确的指导, 也体现了组织者对公平竞争和技术创新的重视。通过这些规定,CRAG 挑战赛为所有参赛者创造了一个公平、开放 yet 受控的竞争环境, 有利于激发真正有价值的技术突破。
奖项设置: 丰厚奖金激励创新
为了激励参赛者全力以赴,CRAG 挑战赛设置了总额高达 31,500 美元的奖金池。每个任务的奖金分配如下:
- 🥇 第一名: 4,000 美元
- 🥈 第二名: 2,000 美元
- 🥉 第三名: 1,000 美元
- 💐 7 种复杂问题类型各自的第一名: 每类 500 美元
这种奖金设置不仅奖励了整体表现最优秀的团队, 还特别鼓励了在处理特定类型复杂问题上有突出表现的参赛者。这样的奖励机制有助于推动 RAG 技术在不同应用场景中的全面进步。
比赛时间线: 紧凑而充实
CRAG 挑战赛分为两个阶段进行, 时间安排紧凑而充实:
- 第一阶段 (开放竞赛): 2024 年 4 月 1 日至 5 月 27 日
- 第二阶段 (顶级团队竞争): 2024 年 5 月 28 日至 6 月 20 日
- 获奖者公布: 2024 年 8 月 26 日 (在 KDD Cup 获奖者活动上)
这样的时间安排既给了参赛者充分的开发和优化时间, 又保持了比赛的紧张感和吸引力。特别是第二阶段的设置, 为表现优异的团队提供了更多展示和提升的机会。
结语:RAG 技术的里程碑式挑战
Meta 推出的 CRAG 挑战赛无疑是 RAG 技术发展史上的一个重要里程碑。它不仅为研究人员和工程师提供了一个全面评估 RAG 系统的标准平台, 更重要的是, 它勾勒出了 RAG 技术未来发展的方向。
通过精心设计的任务和评估标准,CRAG 挑战赛强调了 RAG 系统在处理复杂、多样化信息源时的关键能力。它鼓励参赛者开发能够准确理解问题、高效检索信息、智能整合知识并生成可靠答案的系统。这些能力正是未来 AI 助手和知识系统所必需的。
此外,CRAG 的开放性和公平性也为整个 AI 社区树立了榜样。通过提供统一的基础模型和评估环境, 它确保了竞争的公平性, 同时也为不同方法和思路的比较提供了可靠的基础。这种开放、公平的竞争机制, 必将激发更多创新思想和突破性技术的涌现。
随着 CRAG 挑战赛的进行, 我们有理由期待看到一批优秀的 RAG 解决方案脱颖而出。这些方案不仅将推动 RAG 技术的进步, 更有望为解决 LLM"幻觉"问题提供新的思路和方法。在不远的将来, 基于这些技术的 AI 系统将能够更加准确、可靠地回答我们的问题, 为人类知识的获取和应用开辟新的篇章。
CRAG 挑战赛的意义, 远不止于一场技术竞赛。它代表了 AI 领域对更可靠、更透明、更有用的智能系统的追求。通过这样的高水平竞赛, 我们正在见证和参与塑造 AI 技术的未来。让我们共同期待 CRAG 挑战赛带来的精彩成果, 以及它对 RAG 技术和整个 AI 领域产生的深远影响。
参考文献:
[1] Vu, T. et al. (2023). FreshLLMs: Refreshing Large Language Models with search engine augmentation. arXiv preprint arXiv:2310.03214.✅
[2] Sun, K. et al. (2024). Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?. NAACL 2024.✅
[3] Usbeck, R. et al. (2023). QALD-10–The 10th challenge on question answering over linked data. Semantic Web Preprint, 1–15.✅
[4] Bajaj, P. et al. (2016). Ms marco: A human-generated machine reading comprehension dataset. arXiv preprint arXiv:1611.09268.✅
[5] Kwiatkowski, T. et al. (2019). Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7, 453–466.✅
shizueyy / crag-new · GitLab (aicrowd.com)
电子羊的崛起:探索 CRAG 新项目的奥秘
引子
在人工智能的浪潮中,创新不断涌现。 Meta 公司推出的 CRAG(Comprehensive RAG Benchmark) 项目,旨在推动检索增强生成 (RAG) 技术的发展。作为这一项目的一部分,GitLab 上的 「crag-new」 项目由团队 ElectricSheep 负责,其解决方案为 2024 KDD 杯的挑战提供了新的视角与思路。今天,我们将深入探讨这个项目,了解其背后的技术细节及其在 AI 领域的潜在影响。
项目概述
「crag-new」 项目是为了响应 Meta CRAG KDD Cup 2024 的挑战而设计的。该项目的创建时间为 2024 年 5 月 25 日,旨在利用 RAG 技术评估和提升问答系统的能力。项目的核心在于通过外部信息的检索,增强模型生成答案的准确性和可靠性。
项目特性
该项目包含 185 次提交、 4 个分支和 72 个标签,显示出团队在开发过程中的活跃程度和持续改进的决心。项目采用 Apache License 2.0,确保了其代码的开放性与可共享性,这对于推动社区合作与技术交流具有重要意义。
技术实现与框架
在 「crag-new」 项目中,团队 ElectricSheep 基于 RAG 框架构建了其解决方案。 RAG 技术的优势在于能够从外部数据源中检索信息,结合模型的生成能力,提供更为全面和准确的回答。以下是该项目的一些关键技术点:
- 数据检索:项目实现了高效的外部数据检索机制,能够快速从多个来源中获取相关信息。这种能力对于处理复杂问题及动态信息尤为重要。
- 信息融合:在检索到的信息中,如何选取最相关的内容并进行有效融合,是项目成功的关键。团队通过精心设计的算法,确保生成的答案不仅准确,还能覆盖用户的需求。
- 模型集成:该项目支持多种大型语言模型的集成,参与者可以根据需要选择不同的模型进行实验。这种灵活性为团队提供了更多的创新空间,能够在不同场景下优化性能。
项目的挑战与机遇
尽管 「crag-new」 项目在技术上取得了一定的进展,但仍面临着诸多挑战。例如,如何在保持快速响应的同时,确保答案的准确性和完整性,是团队亟需解决的问题。此外,信息的多样性和复杂性也要求团队不断调整和优化其算法。
然而,这些挑战同时也是推动创新的动力。通过不断的实验与迭代,团队有机会发现新的技术路径,提升 RAG 系统的能力,进而推动整个领域的发展。
未来展望
随着 「crag-new」 项目的不断推进,我们可以期待 RAG 技术在问答系统中的应用将会更加广泛。未来,AI 系统将能够更好地理解和处理复杂的信息,为用户提供更加智能化的服务。
总的来说,ElectricSheep 团队在 「crag-new」 项目中的努力,不仅展示了他们在 RAG 技术上的创新能力,也为 AI 的未来发展开辟了新的方向。
参考文献
- shizueyy / crag-new. GitLab. Available at: GitLab CRAG
- Meta Comprehensive RAG Benchmark Documentation.
- Relevant research papers on Retrieval-Augmented Generation technology.
- KDD Cup 2024 official announcements and guidelines.