MindSearch: 模仿人脑思维的AI搜索引擎,开启深度知识探索新纪元MindSearch: 模仿人脑思维的AI搜索引擎,开启深度知识探索新纪元
在当今信息爆炸的时代,如何从海量数据中快速、准确地获取所需信息已成为一个巨大挑战。传统搜索引擎虽然功能强大,但往往难以理解用户的复杂意图,无法提供深入的知识探索。而随着大型语言模型(Large Language Models, LLMs)的飞速发展,一种全新的AI搜索引擎应运而生,它不仅能够理解用户的问题,还能模仿人类思维进行深度推理和探索。这就是由中国科学家团队开发的开源AI搜索引擎框架——MindSearch(中文名:思·索)。 突破性技术:模仿人脑的多步骤信息检索 MindSearch的核心理念是模仿人类大脑的思维方式。当我们遇到一个复杂问题时,往往会将其分解为多个子问题,然后逐一解决。MindSearch正是采用了这种方法,它通过一个名为WebPlanner的组件,将用户的查询动态地分解为一系列子问题节点,构建成一个复杂的知识图谱。 “MindSearch的独特之处在于它能够像人脑一样,不断扩展和深化对问题的理解,”项目负责人陈泽辉博士解释道,”它会根据Web搜索的结果,不断地在知识图谱中添加新的节点和连接,从而逐步构建出一个全面而深入的解决方案。” 论文中详细介绍了MindSearch的两个核心组件:WebPlanner和WebSearcher。WebPlanner扮演着高层次规划者的角色,负责编排推理步骤并协调多个WebSearcher。而WebSearcher则负责执行具体的网络搜索任务,并为WebPlanner提供有价值的信息摘要。 WebPlanner:通过图构建实现智能规划 WebPlanner的工作原理可以概括为”通过编码进行规划”(Planning via Graph Construction)。具体来说,WebPlanner将问题解决过程建模为一个有向无环图(DAG)的构建过程。给定一个用户问题Q,解决方案轨迹被表示为G(Q) = ,其中V是一组节点v,每个节点代表一个独立的网络搜索,包括一个辅助的START节点(初始问题)和一个END节点(最终答案)。E代表节点之间的有向边,表示推理的拓扑关系。 为了让语言模型更好地理解和操作这个图结构,研究团队采用了一种巧妙的方法:通过代码生成来实现图的构建和操作。他们预定义了一系列原子代码函数,用于向图中添加节点或边。在每一轮交互中,语言模型首先阅读整个对话历史,包括之前生成的代码和网络搜索结果,然后输出思考过程和新的代码,用于在思维图上进行推理。这些代码随后由Python解释器执行。 “这种’代码即规划’的过程充分利用了语言模型在代码生成方面的优势,”论文作者解释道,”它不仅提高了长上下文场景下的控制和数据流管理能力,还能更好地解决复杂问题。” WebSearcher:分层检索策略 WebSearcher作为一个具有互联网访问能力的复杂RAG(检索增强生成)代理,负责根据搜索结果总结有价值的响应。面对网络上海量的内容,WebSearcher采用了一种巧妙的粗到细的选择策略,以解决语言模型在有限上下文长度(如8K tokens)内处理大量相关页面的挑战。 具体来说,WebSearcher的工作流程包括以下几个步骤: “这种分层检索方法显著降低了导航海量网页的难度,”论文指出,”它能够高效地提取高度相关的信息,同时保持深入的细节。” 长上下文管理:多代理框架的优势 MindSearch采用的多代理框架不仅提供了一个简单而有效的解决方案,还自然而然地实现了长上下文的管理。这种方法极大地提高了框架的整体效率,特别是在需要模型快速阅读大量网页的情况下。 由于WebPlanner将搜索任务分配给单独的搜索代理,并且只依赖于WebSearcher返回的搜索结果,因此WebPlanner可以专注于问题的分解和分析,而不会被过长的网络搜索结果分散注意力。同时,每个WebSearcher只需要搜索其被分配的子查询的内容,不会受到其他内容的干扰。 “这种显式的角色分配大大减少了整个过程中的上下文计算,”研究团队强调,”为语言模型处理长上下文任务提供了一个高效的解决方案。” 最终,MindSearch能够在不到3分钟的时间内收集和整合来自300多个页面的相关信息,这对人类专家来说可能需要约3小时才能完成类似的认知工作量。 实验结果:卓越性能的证明 为了评估MindSearch的性能,研究团队进行了全面的实验,包括开放集问答和封闭集问答两类任务。 在开放集问答任务中,研究人员精心设计了100个涵盖各个领域的现实问题,并邀请5位专家对ChatGPT-Web、Perplexity.ai(Pro版本)和MindSearch三种AI搜索引擎的表现进行评分。评估标准包括回答的深度、广度以及事实准确性。 [...]