Spark 堆叠与集群

本页介绍如何通过 QSFP/CX7 高速互联线缆,将多台 DGX Spark 系统连接成计算集群,以支持跨 Grace Blackwell GPU 的分布式工作负载。

将多台 DGX Spark 系统连接为集群

概览

本节说明如何通过简化的网络配置和 QSFP/CX7 线缆,将多台 DGX Spark 系统组成计算集群,以实现高性能互联。

目标是借助 MPI(用于进程间 CPU 通信)和 NCCL v2.28.3(用于 GPU 加速的集合通信操作),在 Grace Blackwell GPU 之间支持分布式工作负载。

连接 QSFP/CX7 线缆

在配置网络之前,请先用经过认证的 QSFP/CX7 线缆连接两台 DGX Spark 系统。每台设备后面板上均有两个 ConnectX-7 端口;端口位置请参阅 Connectivity and I/O

  1. 在每台 DGX Spark 上,找到后面板上的两个 QSFP/CX7 端口。

  2. 将线缆一端插入第一台设备的某个 ConnectX-7 端口,另一端插入第二台设备的对应端口(例如,从后方看两台设备均插左侧端口,或均插右侧端口)。

  3. 调整连接器方向,使拉环(ring tab)朝上,即朝向 DGX Spark 顶面,如下图所示。

    CX7 线缆连接方向

  4. 将连接器对准端口后平稳插入,直至完全到位。方向正确时,连接器可顺滑插入,无需施力。

  5. 拔出线缆时,将拉环径直向外拉出。连接器完全到位时,拔出应顺畅无阻。

WARNING

不要强行插入 QSFP/CX7 连接器。若插入时遇到阻力,请立即停止,检查拉环方向和端口对齐情况后重试。强行插入方向相反或未对准的连接器可能损坏端口。

连接多台 DGX Spark 系统

请参阅以下 Playbook,了解各种连接方案的详细说明:

后续步骤

完成验证后,该配置可进一步扩展,以支持:

  • 使用 Slurm 或 Kubernetes 进行作业编排
  • 使用 Singularity 或 Docker 进行容器化部署

本页译自 NVIDIA 官方文档 Spark Stacking,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。