近年来,AI 应用如雨后春笋般涌现,推动着相关技术的蓬勃发展,其中向量数据库尤为引人注目。作为 AI 应用技术栈中的关键一环,向量数据库为 AI 应用,特别是大型语言模型 (LLM) 应用,提供了强大的知识存储和检索能力。本文将深入浅出地探讨向量数据库的原理和实现,涵盖其基本概念、相似性搜索算法、相似性测量算法、过滤算法以及选型等方面,并结合实际应用案例,展现向量数据库如何为 AI 插上知识的翅膀。
GPT 的瓶颈:有限的上下文窗口
GPT-3.5/4 的问世,无疑是 AI 发展史上的里程碑事件,其强大的文本生成能力令人惊叹。然而,GPT 模型并非完美无缺,其有限的上下文窗口大小成为制约其性能的一大瓶颈。以 GPT-3.5-turbo 为例,其最大上下文窗口大小仅为 4K tokens(约 3000 字),这意味着模型最多只能处理 3000 字以内的文本信息。
虽然 ChatGPT 等应用提供了对话记忆功能,但这并非 GPT 模型本身具备记忆能力,而是开发者通过外部存储机制实现的。当用户输入超过上下文窗口限制的内容时,GPT 模型将无法记住之前的对话内容,从而影响其对后续问题的理解和回答。
尽管 GPT-4 将上下文窗口大小提升至 32K tokens,Claude 模型更是高达 100K tokens,但处理如此庞大的文本信息需要消耗大量的计算资源和时间,成本也随之水涨船高。
向量数据库:突破 GPT 上下文限制的利器
面对 GPT 模型的上下文窗口限制,开发者们积极探索解决方案,而向量数据库应运而生。其核心思想是将文本信息转化为向量,并存储在数据库中,当用户输入问题时,系统将问题转化为向量,并在数据库中搜索最相似的向量及其对应的文本信息,最终将相关内容返回给用户。
以客服培训资料为例,我们可以将其转化为向量并存储在向量数据库中。当用户提出相关问题时,系统将问题转化为向量,并在数据库中快速检索最相似的向量及其对应的文本片段,最终将这些片段返回给 GPT 模型进行处理,从而绕过 GPT 模型的上下文窗口限制,提高响应速度并降低成本。
从特征到向量:理解相似性搜索的基石
在现实生活中,我们通过识别不同事物之间的特征来区分它们。例如,我们可以根据体型大小、毛发长度、鼻子长短等特征来区分不同品种的狗。如果将这些特征量化,并映射到多维坐标系中,每个事物都可以用一个多维坐标点来表示。
向量是具有大小和方向的数学结构,可以用来表示事物的多维特征。通过计算向量之间的距离,可以判断它们在特征空间中的相似程度,这就是相似性搜索的基本原理。
高效的相似性搜索算法:兼顾速度与质量
在海量数据中进行相似性搜索,如果采用暴力搜索的方式,计算量巨大,效率低下。为此,向量数据库采用了一系列高效的相似性搜索算法,其主要思想是通过降维、聚类、构建树或图等方式,减少向量大小或缩小搜索范围,从而提高搜索效率。
1. 聚类搜索:K-Means 与 Faiss
聚类算法将数据点分组到不同的簇中,使同一簇内的点彼此相似,不同簇之间的点彼此不同。K-Means 算法是一种常用的聚类算法,它将数据分成 k 个类别,其中 k 是预先指定的。
Faiss 算法是 Facebook AI Research 推出的一种高效的相似性搜索库,它采用了一种基于 Voronoi 图的聚类方法,将向量空间划分为多个单元格,每个单元格由一个质心代表。在搜索时,首先找到查询向量所属的单元格,然后只在该单元格内进行搜索,从而大大缩小了搜索范围。
2. 量化压缩:Product Quantization (PQ)
为了降低内存占用,向量数据库通常采用量化压缩技术。Product Quantization (PQ) 是一种常用的向量量化方法,它将高维向量分解成多个低维子向量,并对每个子向量独立进行量化。
3. 图搜索:Hierarchical Navigable Small Worlds (HNSW)
HNSW 算法是一种基于图的相似性搜索算法,它将向量空间表示为一个多层图,每层都是一个小世界,图中的节点表示向量,边表示向量之间的相似性。
4. 局部敏感哈希:Locality Sensitive Hashing (LSH)
LSH 算法将相似的向量映射到相同的哈希桶中,从而在搜索时只需比较同一哈希桶内的向量,提高了搜索效率。
相似性测量:欧几里德距离、余弦相似度与点积相似度
在相似性搜索中,需要计算向量之间的距离来衡量它们的相似度。常用的向量相似度算法包括:
- 欧几里德距离:计算两个向量在空间中的直线距离。
- 余弦相似度:计算两个向量夹角的余弦值,值越大表示越相似。
- 点积相似度:计算两个向量的点积,值越大表示越相似。
过滤:缩小搜索范围,提高查询效率
在实际应用中,我们通常需要根据业务需求对搜索结果进行过滤。例如,在电商搜索中,用户可能希望根据价格、品牌等条件筛选商品。
向量数据库通常支持元数据过滤功能,用户可以根据预定义的元数据字段对搜索结果进行筛选,从而缩小搜索范围,提高查询效率。
向量数据库选型:综合考虑性能、功能、成本等因素
在选择向量数据库时,需要综合考虑以下因素:
- 性能: 查询速度、吞吐量、内存占用、存储容量等。
- 功能: 相似性搜索算法、相似性测量算法、过滤功能、分布式部署、高可用性、容错性、访问控制、数据备份等。
- 易用性: API & SDK 设计、文档、社区活跃度等。
- 成本: 部署成本、维护成本、使用成本等。
目前,市面上比较流行的向量数据库包括:
- Chroma
- Milvus
- Pinecone
- Qdrant
- Typesense
- Weaviate
此外,一些传统的数据库也提供了向量搜索扩展功能,例如:
- Redis: RediSearch 模块
- PostgreSQL: pgvector 扩展
总结:向量数据库,释放 AI 知识的力量
向量数据库作为 AI 应用技术栈中的关键一环,为 AI 应用,特别是大型语言模型 (LLM) 应用,提供了强大的知识存储和检索能力。其高效的相似性搜索算法、灵活的相似性测量算法、强大的过滤功能以及不断完善的生态系统,使其成为构建知识型 AI 应用的理想选择。
随着 AI 技术的不断发展,向量数据库将在更多领域发挥重要作用,为 AI 应用插上知识的翅膀,释放 AI 知识的力量。
参考文献:
[1] 向量数据库: https://zhuanlan.zhihu.com/p/628859137
[2] Claude 模型: https://www.anthropic.com/index/100k-context-windows
[3] LangChainJs: https://js.langchain.com/docs/modules/indexes/vector_stores/integrations/qdrant
[4] VectorHub: https://github.com/vectorhub-io/vectorhub
[5] ChatFiles: https://github.com/mckaywrigley/chatbot-ui
[6] 视频: https://www.youtube.com/watch?v=PqbB07PgZ0Y
[7] Faiss 算法: https://faiss.ai/
[8] 视频: https://www.youtube.com/watch?v=7zN8jI6YTEY
[9] 博客: https://towardsdatascience.com/understanding-locality-sensitive-hashing-497c1f9701c9
[10] 博客: https://www.pinecone.io/learn/locality-sensitive-hashing/
[11] RediSearch: https://redis.io/modules/redisearch/
[12] pgvector: https://github.com/pgvector/pgvector