使用 TensorRT-LLM 进行推理

在 DGX Spark 上安装和使用 TensorRT-LLM

基本思路

NVIDIA TensorRT-LLM (TRT-LLM) 是一个开源库,用于优化和加速 NVIDIA GPU 上的大语言模型 (LLM) 推理。

它提供高效的内核、内存管理和并行策略(例如张量、管道和序列并行),因此开发人员可以以更低的延迟和更高的吞吐量为 LLM 提供服务。

TRT-LLM 与 Hugging Face 和 PyTorch 等框架集成,使得大规模部署最先进的模型变得更加容易。

你将完成什么

您将设置 TensorRT-LLM 以在 DGX Spark 上优化和部署大型语言模型,从而实现比标准 PyTorch 显着更高的吞吐量和更低的延迟
通过内核级优化、高效内存布局和高级量化进行推理。

开始之前需要了解什么

  • 对 PyTorch 或类似 ML 框架的 Python 熟练程度和经验
  • 运行 CLI 工具和 Docker 容器的命令行舒适性
  • 对 GPU 概念的基本了解,包括 VRAM、批处理和量化 (FP16/INT8)
  • 熟悉 NVIDIA 软件堆栈(CUDA 工具包、驱动程序)
  • 具有推理服务器和容器化环境的经验

先决条件

  • DGX Spark 设备
  • 与 CUDA 12.x 兼容的 NVIDIA 驱动程序:nvidia-smi
  • 安装了 Docker 并配置了 GPU 支持:docker run --rm --gpus all nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc13 nvidia-smi
  • 使用 Hugging Face 模型访问令牌:echo $HF_TOKEN
  • 足够的 GPU VRAM(70B 模型建议使用 40GB+)
  • 用于下载模型和容器镜像的互联网连接
  • 网络:在主机上打开 TCP 端口 8355 (LLM) 和 8356 (VLM),用于 OpenAI 兼容服务

附属文件

所有必需的资产都可以在 GitHub 中找到

模型支持矩阵

Spark 上的 TensorRT-LLM 支持以下模型。所有列出的模型均可供使用:

模型量化支持状态模型标识
Nemotron-3-Nano-Omni-30B-A3B-ReasoningBF16nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
Nemotron-3-Nano-Omni-30B-A3B-ReasoningFP8nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
Nemotron-3-Nano-Omni-30B-A3B-ReasoningNVFP4nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
Nemotron-3-Super-120BNVFP4nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
GPT-OSS-20BMXFP4openai/gpt-oss-20b
GPT-OSS-120BMXFP4openai/gpt-oss-120b
Llama-3.1-8B-InstructFP8nvidia/Llama-3.1-8B-Instruct-FP8
Llama-3.1-8B-InstructNVFP4nvidia/Llama-3.1-8B-Instruct-FP4
Llama-3.3-70B-InstructNVFP4nvidia/Llama-3.3-70B-Instruct-FP4
Qwen3-8BFP8nvidia/Qwen3-8B-FP8
Qwen3-8BNVFP4nvidia/Qwen3-8B-FP4
Qwen3-14BFP8nvidia/Qwen3-14B-FP8
Qwen3-14BNVFP4nvidia/Qwen3-14B-FP4
Qwen3-32BNVFP4nvidia/Qwen3-32B-FP4
Phi-4-multimodal-instructFP8nvidia/Phi-4-multimodal-instruct-FP8
Phi-4-multimodal-instructNVFP4nvidia/Phi-4-multimodal-instruct-FP4
Phi-4-reasoning+FP8nvidia/Phi-4-reasoning-plus-FP8
Phi-4-reasoning+NVFP4nvidia/Phi-4-reasoning-plus-FP4
Qwen3-30B-A3BNVFP4nvidia/Qwen3-30B-A3B-FP4
Llama-4-Scout-17B-16E-指示NVFP4nvidia/Llama-4-Scout-17B-16E-Instruct-FP4
Qwen3-235B-A22B(仅两个 Spark)NVFP4nvidia/Qwen3-235B-A22B-FP4

NOTE

您可以使用 NVFP4 量化文档为您喜欢的模型生成您自己的 NVFP4 量化检查点。这使您能够利用 NVFP4 量化的性能和内存优势,即使对于 NVIDIA 尚未发布的模型也是如此。

提醒:并非所有模型架构都支持 NVFP4 量化。

时间与风险

  • 预计时间:设置和 API 服务器部署需要 45-60 分钟
  • 风险级别:中 - 容器拉取和模型下载可能会因网络问题而失败
  • 回滚:停止推理服务器并删除下载的模型以释放资源。
  • 最后更新: 2026 年 4 月 28 日
    • Docker 镜像升级到 1.3.0rc13;模型矩阵新增 Nemotron Omni reasoning BF16、FP8、NVFP4