NGC

NVIDIA GPU Cloud(NGC)是一个面向 GPU 优化容器、预训练模型和 AI/ML 软件的综合注册中心,帮助用户快速开发和部署 AI 应用。本页介绍 DGX Spark 用户如何注册账号、获取 API Key、拉取容器,以及常见的使用流程与故障排查方法。

概览

NGC 专为 Grace Blackwell 架构优化,为 DGX Spark 用户提供以下核心价值:

  • 优化容器:预配置的环境,包含针对 Grace Blackwell GPU 优化的最新 AI/ML 框架、CUDA 及相关库
  • 预训练模型:涵盖多种 AI 任务的前沿模型与模型集合
  • 快速开发:跳过复杂的环境搭建,专注于 AI/ML 项目本身
  • 前沿软件:访问最新的 NVIDIA 软件栈和实验性功能

NGC 对 DGX Spark 用户尤为重要,它提供了该平台最新、最优化的软件栈,确保用户始终能获得最新的性能优化与功能特性。

快速入门

创建 NGC 账号

  1. 访问 NGC 官网
  2. 点击 Sign Up,创建免费账号
  3. 验证您的电子邮件地址
  4. 完善个人资料信息

生成 API Key

  1. 登录您的 NGC 账号
  2. 依次导航至 Setup -> API Key
  3. 点击 Generate API Key
  4. 复制并妥善保存您的 API Key

NOTE

API Key 是拉取容器和访问 NGC 资源的必要凭证。请妥善保管,切勿公开分享。

安装 NGC CLI(可选)

NGC CLI 提供便捷的命令行方式访问 NGC 资源。DGX Spark 系统需要使用 ARM64 版本的 NGC CLI,可在 https://org.ngc.nvidia.com/setup/installers/cli 页面的 ARM64 Linux 标签下获取。

更多安装和使用说明,请参阅 NGC CLI Documentation

配置 Docker 认证

配置 Docker 以访问 NGC 镜像仓库:

Bash
# 使用 Docker 登录 NGC
docker login nvcr.io
# Username: $oauthtoken
# Password: <your-api-key>

基本用法

拉取并运行容器

从常用的 AI/ML 框架容器开始:

Bash
# 拉取针对 Grace Blackwell 优化的 PyTorch 容器
docker pull nvcr.io/nvidia/pytorch:24.08-py3

# 使用 GPU 访问运行容器
docker run -it --gpus=all nvcr.io/nvidia/pytorch:24.08-py3

浏览可用资源

通过 Web 界面浏览 NGC 资源:

  • Containers:AI/ML 框架、开发环境及专用工具
  • Models:计算机视觉、自然语言处理等任务的预训练模型
  • Helm Charts:Kubernetes 部署配置
  • Jupyter Notebooks:交互式教程与示例

常见工作流程

开发环境

使用 NGC 容器作为开发环境:

Bash
# 运行带持久化存储的开发容器
docker run -it --gpus=all \
  -v /path/to/your/project:/workspace \
  nvcr.io/nvidia/pytorch:24.08-py3

模型推理与训练

访问预训练模型和训练脚本:

Bash
# 从 NGC 下载模型
ngc registry model download-version "nvidia/nemo/bertbaseuncased:1.0.0rc1"

# 或在容器中直接使用模型
docker run -it --gpus=all \
  nvcr.io/nvidia/pytorch:24.08-py3

最佳实践

容器管理

  • 固定版本:使用具体的容器标签,以获得可复现的环境
  • 定期更新:定期升级到更新版本以获取最新优化
  • 资源限制:为工作负载设置合适的内存和 CPU 限制

数据持久化

  • 卷挂载:将数据目录挂载到容器中以实现持久化
  • 模型存储:将训练好的模型和检查点保存在容器外部
  • 配置管理:将配置文件纳入版本控制

安全

  • API Key 安全:安全存储 NGC API Key,并定期轮换
  • 容器扫描:在使用前对容器进行漏洞扫描
  • 网络安全:根据您的环境配置合适的网络策略

故障排查

常见问题

认证失败

Bash
# 验证 API Key 是否正确
docker login nvcr.io
# 检查您的账号是否有权访问所请求的资源

容器拉取失败

Bash
# 检查与 NGC 镜像仓库的网络连通性
curl -I https://ngc.nvidia.com

# 在 NGC 网站查看容器目录
# 访问 https://catalog.ngc.nvidia.com/containers

# 或使用 NGC CLI 列出可用容器
ngc registry image list nvidia/*

# 尝试使用详细输出拉取以查看具体错误
docker pull nvcr.io/nvidia/pytorch:24.08-py3

GPU 访问问题

Bash
# 验证 NVIDIA Container Runtime 已安装
docker run --rm --gpus=all nvcr.io/nvidia/cuda:13.0.1-devel-ubuntu24.04 nvidia-smi

获取帮助

本页译自 NVIDIA 官方文档 NGC,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。