在 DGX Spark 上使用 llama.cpp 运行模型

使用 CUDA 构建 llama.cpp 并通过 OpenAI 兼容的 API 提供模型(以 Nemotron 3 Nano Omni 为例)

基本思路

llama.cpp 是用于大型语言模型的轻量级 C/C++ 推理堆栈。您可以使用 CUDA 构建它,以便张量工作在 DGX Spark GB10 GPU 上运行,然后加载 GGUF 权重并通过 llama-server 的 OpenAI 兼容 HTTP API 公开聊天。

本剧本以 Nemotron 3 Nano Omni(NVIDIA 的 MoE 系列,能在 Spark 上以量化 GGUF 良好运行)作为实战示例,从头到尾地遍历该堆栈。所有受支持模型的检查点选择和路径都汇总在下面的矩阵中;命令位于操作步骤中。

你将完成什么

您将使用 GB10 的 CUDA 构建 llama.cpp,下载 Nemotron 3 Nano Omni 示例检查点,并使用 GPU 卸载运行 llama-server。你得到:

  • 通过 llama.cpp 进行本地推理(无需单独的 Python 推理框架)
  • 用于工具和应用程序的 OpenAI 兼容 /v1/chat/completions 端点
  • Nemotron 3 Nano Omni 示例在 DGX Spark 的该堆栈上运行的具体验证

开始之前需要了解什么

  • 基本熟悉 Linux 命令行和终端命令
  • 了解 git 并使用 CMake 从源代码构建
  • 用于测试的 REST API 和 cURL 的基本知识
  • 熟悉使用 Hugging Face Hub 下载 GGUF 文件

先决条件

硬件要求

  • 配备 GB10 GPU 的 NVIDIA DGX Spark
  • 为示例 Q8_0 检查点提供足够的统一内存(权重约为 ~35GB,加上 KV 缓存和运行时开销——如选择更大的量化或更长上下文则需扩容)
  • 至少 ~40GB 可用磁盘用于示例下载和构建工件(如果保留多个 GGUF 则需要更多)

软件要求

  • NVIDIA DGX 操作系统
  • git:git --version
  • CMake(3.14+):cmake --version
  • CUDA 工具包:nvcc --version
  • 网络访问 GitHub 和 Hugging Face

模型支持矩阵

Spark 上的 llama.cpp 支持以下模型。说明默认使用 Nemotron 3 Nano Omni 示例行。

模型支持状态模型标识
Nemotron 3 Nano Omni(示例演练)ggml-org/NVIDIA-Nemotron-3-Nano-Omni
Qwen3.6-35B-A3Bunsloth/Qwen3.6-35B-A3B-GGUF
Qwen3.6-27Bunsloth/Qwen3.6-27B-GGUF
Gemma 4 31B ITggml-org/gemma-4-31B-it-GGUF
Gemma 4 26B A4B ITggml-org/gemma-4-26B-A4B-it-GGUF
Gemma 4 E4B ITggml-org/gemma-4-E4B-it-GGUF
Gemma 4 E2B ITggml-org/gemma-4-E2B-it-GGUF
Nemotron-3-Nanounsloth/Nemotron-3-Nano-30B-A3B-GGUF

时间与风险

  • 预计时间: 大约 30 分钟,加上下载示例 GGUF(默认量化约 ~35GB 量级)
  • 风险级别: 低 — 构建是您的克隆本地的;以下步骤无需进行系统范围内的安装
  • **回滚:**删除llama.cpp克隆以及~/models/下的模型目录以回收磁盘空间
  • 最后更新: 2026 年 4 月 28 日
    • 演练改用 Nemotron Omni;其他模型行仍可用