系统配置与操作

本页面是 DGX Spark 系统配置与操作的导航入口,涵盖系统概览、UEFI 设置以及 Spark 堆叠(多机集群组网)三大主题,帮助用户高效地部署、管理和扩展 AI/ML 工作负载。

系统概览

由 NVIDIA Grace Blackwell 架构驱动,DGX Spark 使开发者、研究人员和数据科学家能够在桌面端对大型 AI 模型进行原型验证、部署和微调。

灵活的访问与使用方式

DGX Spark 在访问和使用方式上具有最大灵活性,您可以根据需求在不同访问方式之间无缝切换:

  • 本地访问:连接键盘、鼠标和显示器,直接在系统上操作
  • 网络访问:通过 SSH、NVIDIA Sync 或远程桌面工具,从同一网络中的另一台计算机访问系统
  • 混合使用:灵活组合访问方式——可以某天在本地操作,另一天通过网络访问,甚至同时使用两种方式

所有访问方式均完整支持、能力对等。无论您是在桌面旁使用显示器,还是将其作为网络设备远程访问,DGX Spark 都能适应您的工作流。

核心能力

DGX Spark 使您能够:

  • 执行推理:部署模型以支持实时 AI 应用
  • 开发 AI 模型:训练和微调参数量最高达 2000 亿的模型
  • 处理数据:借助高性能计算处理大型数据集
  • 自由实验:无需云计算费用即可测试新想法
  • 扩展工作负载:连接多台系统以承载更大型的项目

系统架构

DGX Spark 基于 NVIDIA 的 Grace Blackwell 架构构建,提供:

  • 统一内存(Unified Memory):128 GB 高带宽内存,可运行大型模型
  • 高性能计算:集成 GPU 的 20 核 ARM64 处理器
  • 先进连接性:Wi-Fi 7、10 GbE、ConnectX-7 NIC 及多种 I/O 接口
  • 紧凑外形:150mm × 150mm × 50.5mm 桌面设计

有关详细硬件规格,请参阅硬件概览

软件

系统预配置了以下软件:

  • NVIDIA DGX OS:针对 AI 工作负载优化的操作系统
  • 开发工具:CUDA、cuDNN 及 NVIDIA 开发生态系统
  • 容器支持:Docker 和 NVIDIA Container Runtime,便于部署
  • NGC 集成:访问 NVIDIA 容器注册表

有关详细软件信息,请参阅软件

快速入门

开始使用 DGX Spark:

  1. 初始设置:按照初始设置 - 首次启动配置系统
  2. 探索示例:尝试示例工作负载以了解系统能力
  3. 配置开发环境:设置您偏好的工具和框架
  4. 开始构建:启动 AI 开发项目

UEFI 设置

本节提供访问和配置 DGX Spark 系统 UEFI 设置的指导。虽然 DGX Spark 没有需要特别配置 UEFI 的专属功能,但您可能需要访问 UEFI 进行通用系统配置或故障排查。

访问 UEFI

IMPORTANT

要访问 UEFI 设置菜单,您必须使用物理连接到 DGX Spark 设备的键盘。

如果使用 Mac 键盘,可能没有 UEFI 能识别的 Del 键;请仅使用 Esc 键。

访问 UEFI 设置菜单的步骤:

  1. 开机或重启系统。
  2. 立即按住 Esc 或 Del,直到 UEFI 设置菜单出现。

NOTE

按下 Esc 或 Del 的时机非常关键。请在系统开始启动后、操作系统开始加载之前立即按下该键。

UEFI 文档

有关 UEFI 设置和配置选项的详细信息,请参阅 DGX Spark UEFI Manual

启用或禁用 Wi-Fi 和 Bluetooth

您可以在 UEFI 中同时启用或禁用无线局域网(Wireless LAN)和 Bluetooth,以完全关闭所有无线访问,从而增强安全性。若要单独禁用其中一项(Wi-Fi 或 Bluetooth),请使用操作系统设置。您可能在以下情况下禁用无线:实验室或安全策略要求;或在没有以太网时启用无线以完成初始设置。

  1. 进入 AdvancedAdvanced MenuIO Port Access
  2. Wireless LAN & Bluetooth 设置为所需状态(启用或禁用)。

从 USB 设备启动

要从 USB 设备启动,请使用以下方法之一。您可能通过此操作执行系统恢复、重装操作系统,或从 Live 媒体/诊断媒体启动。

将 USB 设为第一启动项(持久生效):

  1. 进入 BootBoot Option Priorities
  2. 对每个条目按 Enter 设置启动顺序,将 USB 设备置于顶部。

单次从 USB 启动(仅本次生效):

  1. 进入 Save & Exit
  2. Boot Override 下,选择 USB 设备并按 Enter。系统仅在本次启动时从该设备启动。

USB 设备必须出现在启动选项列表中。如果未出现,请确保在进入 UEFI 之前已连接该设备,且该设备为可启动介质。

启用或禁用 Secure Boot

按以下步骤启用或禁用 Secure Boot。您可能在使用 PXE 启动或运行自定义启动加载程序时需要禁用它,或在满足安全/合规要求时启用它。

  1. 进入 SecuritySecure Boot
  2. 根据需要将 Secure Boot 设置为 EnabledDisabled,默认值为 Enabled
  3. Save & Exit 菜单保存更改并退出。更改可能需要平台重置后才能生效。

当 Secure Boot 处于启用状态、已注册平台密钥(Platform Key,PK)且系统处于用户模式(User mode)时,Secure Boot 才真正生效。

配置 PXE 启动

按以下步骤配置 UEFI 以支持 PXE 启动。您可能通过此操作在网络上部署或重新镜像 DGX Spark,或从 PXE 服务器启动恢复镜像。

NOTE

在启用 PXE 启动之前,您必须禁用 Secure Boot,或在 UEFI 中注册 PXE 启动加载程序(grubnetaa64.efi.signed)。详情请参阅 PXE 启动设置

  1. 进入 AdvancedNetwork Stack Configuration
  2. Network Stack 设置为 Enabled
  3. 根据需要将 Ipv4 PXE SupportIpv6 PXE Support(或两者)设置为 Enabled
  4. 可选设置 PXE boot wait time(按 Esc 中止 PXE 的等待秒数)和 Media detect count
  5. Advanced 中,打开要用于 PXE 的 NIC 的网络配置界面(按 MAC 地址列出),按需启用并配置该设备的 IPv4 或 IPv6。
  6. Save & Exit 菜单保存更改并退出。

有关 PXE 服务器设置、启动加载程序配置和 DHCP 设置,请参阅 PXE 启动设置

IMPORTANT

请务必从 Save & Exit 菜单保存 UEFI 配置更改,以确保系统在重启后应用新设置。

故障排查

如果在进行 UEFI 更改后遇到问题:

  • 恢复 UEFI 默认设置并重启
  • 逐步应用更改以定位有问题的设置
  • 如有可用的更新版本,将 UEFI 升级到最新版本
  • 查阅 DGX Spark UEFI Manual 了解具体设置说明
  • 有关更多故障排查指导和支持选项,请参阅维护与故障排查

Spark 堆叠

本节介绍如何使用简化的网络配置和 QSFP/CX7 线缆将多台 DGX Spark 系统连接为高性能计算集群(cluster)。

目标是借助 MPI(用于进程间 CPU 通信)和 NCCL v2.28.3(用于 GPU 加速集合通信操作),在多个 Grace Blackwell GPU 之间运行分布式工作负载。

连接 QSFP/CX7 线缆

在配置网络之前,请使用经过认证的 QSFP/CX7 线缆连接两台 DGX Spark 系统。每台设备背板上有两个 ConnectX-7 端口;端口位置请参阅连接性与 I/O

  1. 在每台 DGX Spark 上,找到背板上的两个 QSFP/CX7 端口。
  2. 将线缆一端插入第一台设备的某个 ConnectX-7 端口,另一端插入第二台设备的同一位置端口(例如,从背面看两台设备均使用左侧端口或均使用右侧端口)。
  3. 调整连接器方向,使拉环(ring tab)朝向 DGX Spark 顶部(朝向设备上表面),如随附图示所示。
  4. 将连接器与端口对准,插入直至完全就位。对准后,连接器应无需用力即可滑入。
  5. 拔出线缆时,拉住拉环直接向外拔出。连接器完全就位时,拔出应顺畅无阻。

WARNING

请勿强行插入 QSFP/CX7 连接器。如果无法顺畅滑入,请停止操作,确认拉环方向和端口对准情况后再试。强行插入方向颠倒或未对准的连接器可能损坏端口。

连接多台 DGX Spark 系统

有关各种连接方案的信息,请参考以下操作手册:

后续步骤

完成测试后,此配置可进一步扩展,以支持:

  • 使用 Slurm 或 Kubernetes 进行作业编排
  • 使用 Singularity 或 Docker 运行容器化工作负载

本页译自 NVIDIA 官方文档 System Configuration and Operation,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。