vLLM Joins PyTorch Ecosystem: Easy, Fast, and Cheap LLM Serving for Everyone

由 vLLM 团队开发

vllm logo

我们非常高兴地宣布，vLLM 项目已成为 PyTorch 生态系统项目，并加入了 PyTorch 生态系统大家庭！

想了解更多关于成为 PyTorch 生态系统项目的意义，请参阅 PyTorch 生态系统工具页面。

运行大型语言模型（LLMs）既资源密集又复杂，尤其是当这些模型扩展到数百亿参数时。这就是 vLLM 发挥作用的地方——一个为LLMs设计的高吞吐量、内存高效的推理和托管引擎。

原本基于创新的 PagedAttention 算法构建，vLLM 已发展成为一个全面、最先进的推理引擎。一个充满活力的社区也在不断为 vLLM 添加新功能和优化，包括管道并行、分块预填充、推测性解码和分解服务。

自发布以来，vLLM 受到了广泛关注，GitHub 上获得了超过 31,000 个星标——这是其受欢迎和充满活力的社区的证明。这一里程碑标志着 vLLM 的一个令人兴奋的新篇章，我们将继续为开发者和研究人员提供高效的、可扩展的 AI 部署的尖端工具。欢迎来到LLM推理的下一个时代！

vLLM 始终与 PyTorch 项目保持着紧密的联系。它深度集成到 PyTorch 中，利用它作为统一的接口来支持广泛的硬件后端。这些包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。这种与 PyTorch 的紧密耦合确保了跨各种硬件平台的无缝兼容性和性能优化。

你知道吗，你可以在手机上体验 vLLM 的强大功能吗？在今年亚马逊 Prime Day 期间，vLLM 在为数百万人提供闪电般的响应中发挥了关键作用。在三个地区，超过 80,000 个 Trainium 和 Inferentia 芯片每分钟处理平均 300 万个 token，同时保持 P99 延迟低于 1 秒，这意味着当客户打开亚马逊应用并与 Rufus 聊天时，他们可以无缝地与正在运行的 vLLM 互动！

vLLM 也与领先的模型供应商紧密合作，确保对流行模型的支持。这包括与 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型等许多其他模型的紧密集成。一个特别值得纪念的里程碑是 LLAMA 3.1（405B）的发布。作为首发合作伙伴，vLLM 是第一个启用运行这个非常大的模型的公司，展示了 vLLM 处理最复杂和资源密集型语言模型的能力。

要安装 vLLM，只需运行：

pip install vllm

vLLM 旨在为研究人员和生产级服务提供支持。

要将 vLLM 作为与 OpenAI API 兼容的服务器运行，只需使用 Hugging Face 模型 ID：

vllm serve meta-llama/Llama-3.1-8B

要将 vLLM 作为一个简单的函数运行：

from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
   "Hello, my name is",
   "The president of the United States is",
   "The capital of France is",
   "The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

开源创新是 vLLM 的 DNA 的一部分。它起源于加州大学伯克利分校的一个学术项目，继承了 BSD 等开创性开源项目的传统，这些项目在 20 世纪 80 年代彻底改变了操作系统。该组织其他创新包括 Apache Spark 和 Ray，现在是大数据和 AI 系统的标准。在通用人工智能时代，vLLM 作为一个致力于民主化 AI 推理的平台。

vLLM 团队始终如一地致力于将项目保持为“由社区、为社区、属于社区”的项目。协作和包容性是我们所做一切的核心。

如果您有合作请求或疑问，请随时通过 vllm-questions@lists.berkeley.edu 联系。要加入活跃且不断发展的 vLLM 社区，请访问我们的 GitHub 仓库或在 vLLM Slack 上联系我们。我们一起可以推动 AI 创新的边界，使其对所有人均可访问。

vLLM 加入 PyTorch 生态系统：简单、快速、低成本LLM服务全民

文档

教程

资源