NVIDIA GPU Cloud(NGC)是一个面向 GPU 优化容器、预训练模型和 AI/ML 软件的综合注册中心,帮助用户快速开发和部署 AI 应用。本页介绍 DGX Spark 用户如何注册账号、获取 API Key、拉取容器,以及常见的使用流程与故障排查方法。
概览
NGC 专为 Grace Blackwell 架构优化,为 DGX Spark 用户提供以下核心价值:
- 优化容器:预配置的环境,包含针对 Grace Blackwell GPU 优化的最新 AI/ML 框架、CUDA 及相关库
- 预训练模型:涵盖多种 AI 任务的前沿模型与模型集合
- 快速开发:跳过复杂的环境搭建,专注于 AI/ML 项目本身
- 前沿软件:访问最新的 NVIDIA 软件栈和实验性功能
NGC 对 DGX Spark 用户尤为重要,它提供了该平台最新、最优化的软件栈,确保用户始终能获得最新的性能优化与功能特性。
快速入门
创建 NGC 账号
- 访问 NGC 官网
- 点击 Sign Up,创建免费账号
- 验证您的电子邮件地址
- 完善个人资料信息
生成 API Key
- 登录您的 NGC 账号
- 依次导航至 Setup -> API Key
- 点击 Generate API Key
- 复制并妥善保存您的 API Key
NOTE
API Key 是拉取容器和访问 NGC 资源的必要凭证。请妥善保管,切勿公开分享。
安装 NGC CLI(可选)
NGC CLI 提供便捷的命令行方式访问 NGC 资源。DGX Spark 系统需要使用 ARM64 版本的 NGC CLI,可在 https://org.ngc.nvidia.com/setup/installers/cli 页面的 ARM64 Linux 标签下获取。
更多安装和使用说明,请参阅 NGC CLI Documentation。
配置 Docker 认证
配置 Docker 以访问 NGC 镜像仓库:
Bash
# 使用 Docker 登录 NGC
docker login nvcr.io
# Username: $oauthtoken
# Password: <your-api-key>
基本用法
拉取并运行容器
从常用的 AI/ML 框架容器开始:
Bash
# 拉取针对 Grace Blackwell 优化的 PyTorch 容器
docker pull nvcr.io/nvidia/pytorch:24.08-py3
# 使用 GPU 访问运行容器
docker run -it --gpus=all nvcr.io/nvidia/pytorch:24.08-py3
浏览可用资源
通过 Web 界面浏览 NGC 资源:
- Containers:AI/ML 框架、开发环境及专用工具
- Models:计算机视觉、自然语言处理等任务的预训练模型
- Helm Charts:Kubernetes 部署配置
- Jupyter Notebooks:交互式教程与示例
常见工作流程
开发环境
使用 NGC 容器作为开发环境:
Bash
# 运行带持久化存储的开发容器
docker run -it --gpus=all \
-v /path/to/your/project:/workspace \
nvcr.io/nvidia/pytorch:24.08-py3
模型推理与训练
访问预训练模型和训练脚本:
Bash
# 从 NGC 下载模型
ngc registry model download-version "nvidia/nemo/bertbaseuncased:1.0.0rc1"
# 或在容器中直接使用模型
docker run -it --gpus=all \
nvcr.io/nvidia/pytorch:24.08-py3
最佳实践
容器管理
- 固定版本:使用具体的容器标签,以获得可复现的环境
- 定期更新:定期升级到更新版本以获取最新优化
- 资源限制:为工作负载设置合适的内存和 CPU 限制
数据持久化
- 卷挂载:将数据目录挂载到容器中以实现持久化
- 模型存储:将训练好的模型和检查点保存在容器外部
- 配置管理:将配置文件纳入版本控制
安全
- API Key 安全:安全存储 NGC API Key,并定期轮换
- 容器扫描:在使用前对容器进行漏洞扫描
- 网络安全:根据您的环境配置合适的网络策略
故障排查
常见问题
认证失败
Bash
# 验证 API Key 是否正确
docker login nvcr.io
# 检查您的账号是否有权访问所请求的资源
容器拉取失败
Bash
# 检查与 NGC 镜像仓库的网络连通性
curl -I https://ngc.nvidia.com
# 在 NGC 网站查看容器目录
# 访问 https://catalog.ngc.nvidia.com/containers
# 或使用 NGC CLI 列出可用容器
ngc registry image list nvidia/*
# 尝试使用详细输出拉取以查看具体错误
docker pull nvcr.io/nvidia/pytorch:24.08-py3
GPU 访问问题
Bash
# 验证 NVIDIA Container Runtime 已安装
docker run --rm --gpus=all nvcr.io/nvidia/cuda:13.0.1-devel-ubuntu24.04 nvidia-smi
获取帮助
- NGC 文档:访问 NGC documentation
- 社区论坛:加入 NVIDIA Developer Forums
- 更多支持:故障排查指南与支持选项,请参阅维护与故障排查
本页译自 NVIDIA 官方文档 NGC,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。