用于推理的 SGLang

在 DGX Spark 上安装和使用 SGLang

基本思路

SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架,使得
通过共同设计后端运行时,您与模型的交互更快、更可控
前端语言。此设置在单个 NVIDIA 上使用优化的 NVIDIA SGLang NGC 容器
采用 Blackwell 架构的 Spark 设备,提供具有所有依赖项的 GPU 加速推理
预安装。

你将完成什么

您将在 NVIDIA Spark 设备上以服务器和离线推理模式部署 SGLang,
通过支持文本生成、聊天完成和
使用 DeepSeek-V2-Lite 等模型执行视觉语言任务。

开始之前需要了解什么

  • 在 Linux 系统的终端环境中工作
  • 对 Docker 容器和容器管理有基本了解
  • 熟悉 NVIDIA GPU 驱动程序和 CUDA 工具包概念
  • 拥有 HTTP API 端点和 JSON 请求/响应处理的经验

先决条件

  • 采用 Blackwell 架构的 NVIDIA Spark 设备
  • Docker 引擎已安装并正在运行:docker --version
  • 安装的 NVIDIA GPU 驱动程序:nvidia-smi
  • 配置的 NVIDIA 容器工具包:docker run --rm --gpus all nvcr.io/nvidia/sglang:26.02-py3 nvidia-smi
  • 足够的磁盘空间(>20GB可用):df -h
  • 用于拉取 NGC 容器的网络连接:ping nvcr.io

附属文件

  • 离线推理 Python 脚本GitHub

模型支持矩阵

Spark 上的 SGLang 支持以下模型。所有列出的模型均可供使用:

模型量化支持状态模型标识
Nemotron-3-Nano-Omni-30B-A3B-ReasoningBF16nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
GPT-OSS-20BMXFP4openai/gpt-oss-20b
GPT-OSS-120BMXFP4openai/gpt-oss-120b
Llama-3.1-8B-InstructFP8nvidia/Llama-3.1-8B-Instruct-FP8
Llama-3.1-8B-InstructNVFP4nvidia/Llama-3.1-8B-Instruct-FP4
Llama-3.3-70B-InstructNVFP4nvidia/Llama-3.3-70B-Instruct-FP4
Qwen3-8BFP8nvidia/Qwen3-8B-FP8
Qwen3-8BNVFP4nvidia/Qwen3-8B-FP4
Qwen3-14BFP8nvidia/Qwen3-14B-FP8
Qwen3-14BNVFP4nvidia/Qwen3-14B-FP4
Qwen3-32BNVFP4nvidia/Qwen3-32B-FP4
Phi-4-multimodal-instructFP8nvidia/Phi-4-multimodal-instruct-FP8
Phi-4-multimodal-instructNVFP4nvidia/Phi-4-multimodal-instruct-FP4
Phi-4-reasoning+FP8nvidia/Phi-4-reasoning-plus-FP8
Phi-4-reasoning+NVFP4nvidia/Phi-4-reasoning-plus-FP4

注意:对于 NVFP4 模型,请添加 --quantization modelopt_fp4 标志。

时间与风险

  • 预计时间: 初始设置和验证需要 30 分钟
  • 风险级别: 低 - 使用预构建、经过验证的 SGLang 容器,配置最少
  • 回滚: 使用 docker stopdocker rm 命令停止并删除容器
  • 最后更新: 2026 年 4 月 28 日
    • 引入对 Nemotron-3-Nano-Omni reasoning FP8 的支持