Nemotron-3-Nano 与 llama.cpp

在 DGX Spark 上使用 llama.cpp 运行 Nemotron-3-Nano-30B 模型

基本思路

Nemotron-3-Nano-30B-A3B 是 NVIDIA 强大的语言模型,具有 300 亿个参数的专家混合 (MoE) 架构,且仅有 30 亿个活动参数。这种高效的设计能够以较低的计算要求实现高质量的推理,使其成为 DGX Spark 的 GB10 GPU 的理想选择。

本手册演示了如何使用 llama.cpp 运行 Nemotron-3-Nano,它会在构建时专门针对您的 GPU 架构编译 CUDA 内核。该模型包括内置推理(思维模式)和通过聊天模板调用工具的支持。

你将完成什么

您将拥有在 DGX Spark 上运行的功能齐全的 Nemotron-3-Nano-30B-A3B 推理服务器,可通过 OpenAI 兼容的 API 进行访问。此设置可以:

  • 本地 LLM 推理
  • 兼容 OpenAI 的 API 端点,可轻松与现有工具集成
  • 内置推理和工具调用功能

开始之前需要了解什么

  • 基本熟悉 Linux 命令行和终端命令
  • 了解 git 并使用分支
  • 使用 CMake 从源代码构建软件的经验
  • 用于测试的 REST API 和 cURL 的基本知识
  • 熟悉 Hugging Face Hub 进行模型下载

先决条件

硬件要求:

  • 配备 GB10 GPU 的 NVIDIA DGX Spark
  • 至少 40GB 可用 GPU 内存(模型使用 ~38GB VRAM)
  • 至少 50GB 可用存储空间用于模型下载和构建工件

软件要求:

  • NVIDIA DGX 操作系统
  • git:git --version
  • CMake(3.14+):cmake --version
  • CUDA 工具包:nvcc --version
  • 网络访问 GitHub 和 Hugging Face

时间与风险

  • 预计时间: 30 分钟(包括约 38GB 的​​模型下载)
  • **风险级别:**低
    • 构建过程从源代码编译但不修改系统文件
    • 如果模型下载中断,可以恢复
  • **回滚:**删除克隆的llama.cpp目录和下载的模型文件以完全删除安装
  • 最后更新: 2025 年 12 月 17 日
    • 首次出版