Spark 上的 NIM

在 Spark 上部署 NIM

基本思路

NVIDIA NIM 是容器化软件,可在 NVIDIA GPU 上提供快速、可靠的 AI 模型服务和推理。本手册演示了如何在 DGX Spark 设备上为 LLM 运行 NIM 微服务,通过简单的 Docker 工作流程实现本地 GPU 推理。您将使用 NVIDIA 的注册表进行身份验证,启动 NIM 推理微服务,并执行基本推理测试以验证功能。

你将完成什么

您将在 DGX Spark 设备上启动 NIM 容器,以公开用于文本完成的 GPU 加速的 HTTP 端点。虽然这些指令适用于 Llama 3.1 8B NIM,但包括 Qwen3-32 NIM 在内的其他 NIM 可用于 DGX Spark(请参阅 这里)。

开始之前需要了解什么

  • 在终端环境中工作
  • 使用 Docker 命令和支持 GPU 的容器
  • 基本熟悉 REST API 和curl 命令
  • 了解 NVIDIA GPU 环境和 CUDA

先决条件

  • 安装了 NVIDIA 驱动程序的 DGX Spark 设备
    Bash
    nvidia-smi
    
  • 配置了 NVIDIA Container Toolkit 的 Docker,指令 这里
    Bash
    docker run -it --gpus=all nvcr.io/nvidia/cuda:13.0.1-devel-ubuntu24.04 nvidia-smi
    
  • 具有来自 这里 的 API 密钥的 NGC 账户
    Bash
    echo $NGC_API_KEY | grep -E '^[a-zA-Z0-9]{86}=='
    
  • 足够的磁盘空间用于模型缓存(因模型而异,通常为 10-50GB)
    Bash
    df -h ~
    

时间与风险

  • 预计时间: 15-30 分钟用于设置和验证
  • 风险:
    • 大型模型下载可能需要大量时间,具体取决于网络速度
    • GPU 内存要求因模型大小而异
    • 容器启动时间取决于模型加载
  • 回滚: 使用 docker stop <CONTAINER_NAME> && docker rm <CONTAINER_NAME> 停止并删除容器。如果需要恢复磁盘空间,请从 ~/.cache/nim 中删除缓存的模型。
  • 最后更新: 2025 年 12 月 22 日
    • 将 docker 容器版本更新为 cuda:13.0.1-devel-ubuntu24.04
    • 添加docker容器权限设置说明