vLLM 推理

在 DGX Spark 上安装和使用 vLLM

基本思路

vLLM 是一种推理引擎,旨在高效运行大型语言模型。关键思想是在为 LLM 提供服务时最大化吞吐量并最小化内存浪费

  • 它使用名为 PagedAttention 的内存高效注意力算法来处理长序列,而不会耗尽 GPU 内存。
  • 可以通过连续批处理将新请求添加到已处理的批次中,以保持 GPU 得到充分利用。
  • 它具有 OpenAI 兼容 API,因此为 OpenAI API 构建的应用程序可以切换到 vLLM 后端,只需很少的修改或无需修改。

你将完成什么

您将使用 Blackwell 架构在 DGX Spark 上设置 vLLM 高吞吐量 LLM 服务,
使用预构建的 Docker 容器或使用自定义 LLVM/Triton 从源代码构建
支持ARM64。

开始之前需要了解什么

  • 体验使用 Docker 构建和配置容器
  • 熟悉CUDA工具包安装和版本管理
  • 了解Python虚拟环境和包管理
  • 了解使用 CMake 和 Ninja 从源代码构建软件
  • 有 Git 版本控制和补丁管理经验

先决条件

  • 具有 ARM64 处理器和 Blackwell GPU 架构的 DGX Spark 设备
  • 安装的 CUDA 13.0 工具包:nvcc --version 显示 CUDA 工具包版本。
  • Docker 安装并配置:docker --version 成功
  • 已安装 NVIDIA 容器工具包
  • Python 3.12 可用:python3.12 --version 成功
  • Git 安装:git --version 成功
  • 网络访问下载包和容器镜像

模型支持矩阵

Spark 上的 vLLM 支持以下模型。所有列出的模型均可供使用:

模型量化支持状态模型标识
Nemotron-3-Nano-Omni-30B-A3B-ReasoningBF16nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
Nemotron-3-Nano-Omni-30B-A3B-ReasoningFP8nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
Nemotron-3-Nano-Omni-30B-A3B-ReasoningNVFP4nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
Gemma 4 31B ITBF16google/gemma-4-31B-it
Gemma 4 31B ITNVFP4nvidia/Gemma-4-31B-IT-NVFP4
Gemma 4 26B A4B ITBF16google/gemma-4-26B-A4B-it
Gemma 4 E4B ITBF16google/gemma-4-E4B-it
Gemma 4 E2B ITBF16google/gemma-4-E2B-it
Nemotron-3-Super-120BNVFP4nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
GPT-OSS-20BMXFP4openai/gpt-oss-20b
GPT-OSS-120BMXFP4openai/gpt-oss-120b
Llama-3.1-8B-InstructFP8nvidia/Llama-3.1-8B-Instruct-FP8
Llama-3.1-8B-InstructNVFP4nvidia/Llama-3.1-8B-Instruct-NVFP4
Llama-3.3-70B-InstructNVFP4nvidia/Llama-3.3-70B-Instruct-NVFP4
Qwen3-8BFP8nvidia/Qwen3-8B-FP8
Qwen3-8BNVFP4nvidia/Qwen3-8B-NVFP4
Qwen3-14BFP8nvidia/Qwen3-14B-FP8
Qwen3-14BNVFP4nvidia/Qwen3-14B-NVFP4
Qwen3-32BNVFP4nvidia/Qwen3-32B-NVFP4
Qwen2.5-VL-7B-InstructNVFP4nvidia/Qwen2.5-VL-7B-Instruct-NVFP4
Qwen3-VL-Reranker-2BBF16Qwen/Qwen3-VL-Reranker-2B
Qwen3-VL-Reranker-8BBF16Qwen/Qwen3-VL-Reranker-8B
Qwen3-VL-Embedding-2BBF16Qwen/Qwen3-VL-Embedding-2B
Phi-4-multimodal-instructFP8nvidia/Phi-4-multimodal-instruct-FP8
Phi-4-multimodal-instructNVFP4nvidia/Phi-4-multimodal-instruct-NVFP4
Phi-4-reasoning-plusFP8nvidia/Phi-4-reasoning-plus-FP8
Phi-4-reasoning-plusNVFP4nvidia/Phi-4-reasoning-plus-NVFP4
Nemotron-3-NanoBF16nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16
Nemotron-3-NanoFP8nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

NOTE

Phi-4-multimodal-instruct 模型在启动 vLLM 时需要 --trust-remote-code

NOTE

您可以使用 NVFP4 量化文档为您喜欢的模型生成您自己的 NVFP4 量化检查点。这使您能够利用 NVFP4 量化的性能和内存优势,即使对于 NVIDIA 尚未发布的模型也是如此。

提醒:并非所有模型架构都支持 NVFP4 量化。

时间与风险

  • 持续时间: Docker 方法需要 30 分钟
  • 风险: 容器注册表访问需要内部凭据
  • **回滚:**容器方法是非破坏性的。
  • 最后更新: 2026 年 4 月 28 日
    • 添加对 Nemotron-3-Nano-Omni reasoning BF16、FP8、NVFP4 的支持