UC 伯克利开源了 vLLM 这个大语言模型推理和服务引擎。
主要亮点包括:
- 使用新的 PagedAttention 注意力算法, 可以有效管理注意力键值缓存, 节省内存开销。
- 性能明显优于 HuggingFace Transformers, 吞吐量提升 24 倍。
- 能够在 GPU 资源有限的情况下提供 LLM 服务。
- 能支持各种 LLM 模型架构, 如 GPT 系列、 LLaMA 等。
- vLLM 已经被用于 Chatbot Arena 和 Vicuna LM 模型的服务后端, 提升吞吐量 30 倍。
主要技术亮点在于 PagedAttention 算法。它通过在非连续内存空间中存储注意力键值, 有效管理内存。
使用 vLLM 可以很容易完成离线推理和在线部署, 提供类似 OpenAI API 的服务。项目对于降低 LLM 服务的成本和难度具有重要意义, 有利于更多机构和团队部署自己的 LLM 服务。 vLLM 是一个值得关注的开源项目, 解决了 LLM 服务效率和可伸缩性方面的重大挑战。
[vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs](https://github.com/vllm-project/vllm)