vLLM 加速 LLM 推理 24 倍

UC 伯克利开源了 vLLM 这个大语言模型推理和服务引擎。

主要亮点包括:

  1. 使用新的 PagedAttention 注意力算法, 可以有效管理注意力键值缓存, 节省内存开销。
  2. 性能明显优于 HuggingFace Transformers, 吞吐量提升 24 倍。
  3. 能够在 GPU 资源有限的情况下提供 LLM 服务。
  4. 能支持各种 LLM 模型架构, 如 GPT 系列、 LLaMA 等。
  5. vLLM 已经被用于 Chatbot Arena 和 Vicuna LM 模型的服务后端, 提升吞吐量 30 倍。

主要技术亮点在于 PagedAttention 算法。它通过在非连续内存空间中存储注意力键值, 有效管理内存。

使用 vLLM 可以很容易完成离线推理和在线部署, 提供类似 OpenAI API 的服务。项目对于降低 LLM 服务的成本和难度具有重要意义, 有利于更多机构和团队部署自己的 LLM 服务。 vLLM 是一个值得关注的开源项目, 解决了 LLM 服务效率和可伸缩性方面的重大挑战。

《 vLLM 加速 LLM 推理 24 倍》 有 1 条评论

发表评论