本页介绍如何获取 DGX Spark 的硬件与企业软件支持,并提供现场诊断软件(Field Diagnostic)的安装与使用说明,帮助用户在需要时快速定位和排查系统问题。
NVIDIA DGX Spark 硬件支持
- 提交新工单:登录
- 与支持工程师在线交流:立即聊天
- 查看已有工单:查看工单
- 加入 NVIDIA DGX Spark 论坛,提问、分享使用经验,并获得其他用户和 NVIDIA 工程师的帮助。
NVIDIA AI Enterprise—DGX Spark 支持
NVIDIA AI Enterprise—DGX Spark 软件栈在 DGX Spark 上的企业技术支持,需要持有 NVIDIA AI Enterprise—DGX Spark 的授权资格。其他 NVIDIA AI Enterprise 授权资格不自动包含此产品或其支持。在为 DGX Spark 软件提交企业工单之前,请确认您的 NVIDIA 授权证书(Entitlement Certificate)中已列出 NVIDIA AI Enterprise—DGX Spark。
- 提交新工单:登录
- 与支持工程师在线交流:立即聊天
- 查看已有工单:查看工单
- 有关注册、下载和门户访问,请参阅 NVIDIA AI Enterprise—DGX Spark 快速入门指南。
企业可管理性
有关机群生命周期集成、平台集成模式以及使用 cloud-init 进行自定义安装的内容,请参阅企业可管理性。
安全与漏洞响应
有关 NVIDIA 在接收、评估和披露产品安全问题方面的方法,请参阅 NVIDIA 产品安全事件响应团队(PSIRT)策略。
现场诊断软件
NVIDIA Field Diagnostic 是一款用于测试 DGX Spark 系统并检测硬件故障的软件,适用于对 DGX Spark 进行健康检查,以及作为整机 RMA(返修)资格的预检工具。
完整使用说明请参阅 Field Diagnostics 用户指南。
卸载旧版本
在安装新版本之前,请先使用以下命令卸载旧版本的现场诊断软件:
sudo dpkg -P dgx-spark-fieldiag
sudo rm -rf /opt/nvidia/dgx-spark-fieldiag
sudo apt autoremove dgx-spark-fieldiag
安装现场诊断软件
现场诊断软件包名称为 dgx-spark-fieldiag_<version>-1_arm64.deb。请按照以下步骤通过 NVIDIA CUDA APT 仓库安装该软件包:
- 添加 NVIDIA CUDA 仓库密钥:
sudo mkdir -p /usr/share/keyrings
curl -fsSL https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-archive-keyring.gpg | sudo tee /usr/share/keyrings/cuda-archive-keyring.gpg > /dev/null
- 添加 CUDA APT 仓库并安装:
echo "deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa /" | sudo tee /etc/apt/sources.list.d/cuda-sbsa-ubuntu2404.list
sudo apt-get update
sudo apt-get install dgx-spark-fieldiag
- 验证安装:
dpkg -l | grep dgx-spark-fieldiag
安装 .deb 软件包时,软件依赖项(stress-ng、fio 和 memtester)会自动安装到系统中。
运行现场诊断
安装软件包后,现场诊断软件位于 /opt/nvidia/dgx-spark-fieldiag。
运行前准备
在运行现场诊断之前,请先禁用 Secure Boot:
- 检查当前 Secure Boot 状态:
sudo mokutil --sb-state
-
重启并进入 UEFI 设置界面(启动时按 Delete 键,或运行
sudo systemctl reboot --firmware-setup)。 -
导航至 Security → Secure Boot → Disable Secure Boot。
-
保存更改并重启系统。
执行诊断
以 root 权限运行现场诊断:
- 执行:
sudo init 3
-
系统切换到 TTY 控制台模式后,在 TTY 控制台登录。
-
执行:
cd /opt/nvidia/dgx-spark-fieldiag
sudo ./partnerdiag --field
诊断过程约需 30 分钟。完成后将显示 PASS/FAIL 结果横幅。您也可以通过 SSH 使用相同命令远程运行诊断。
NOTE
如果中断诊断(例如按 Ctrl+C),请在重新运行测试之前对系统进行断电重启(power cycle)。
运行后操作
诊断完成后,请重新启用 Secure Boot:
-
运行
sudo systemctl reboot --firmware-setup。 -
导航至 Security → Secure Boot → Enable Secure Boot。
-
保存更改并重启系统。
有关详细说明,包括 Spec JSON 文件和日志获取,请参阅 Field Diagnostics 用户指南。
验证工具安装
您可以使用以下命令验证相关工具是否已正确安装。这些命令将显示各工具二进制文件的路径:
which fio
which memtester
which stress-ng
本页译自 NVIDIA 官方文档 Get the Right Support for Your DGX Spark,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。