本页介绍如何通过 QSFP/CX7 高速互联线缆,将多台 DGX Spark 系统连接成计算集群,以支持跨 Grace Blackwell GPU 的分布式工作负载。
将多台 DGX Spark 系统连接为集群
概览
本节说明如何通过简化的网络配置和 QSFP/CX7 线缆,将多台 DGX Spark 系统组成计算集群,以实现高性能互联。
目标是借助 MPI(用于进程间 CPU 通信)和 NCCL v2.28.3(用于 GPU 加速的集合通信操作),在 Grace Blackwell GPU 之间支持分布式工作负载。
连接 QSFP/CX7 线缆
在配置网络之前,请先用经过认证的 QSFP/CX7 线缆连接两台 DGX Spark 系统。每台设备后面板上均有两个 ConnectX-7 端口;端口位置请参阅 Connectivity and I/O。
-
在每台 DGX Spark 上,找到后面板上的两个 QSFP/CX7 端口。
-
将线缆一端插入第一台设备的某个 ConnectX-7 端口,另一端插入第二台设备的对应端口(例如,从后方看两台设备均插左侧端口,或均插右侧端口)。
-
调整连接器方向,使拉环(ring tab)朝上,即朝向 DGX Spark 顶面,如下图所示。

-
将连接器对准端口后平稳插入,直至完全到位。方向正确时,连接器可顺滑插入,无需施力。
-
拔出线缆时,将拉环径直向外拉出。连接器完全到位时,拔出应顺畅无阻。
WARNING
不要强行插入 QSFP/CX7 连接器。若插入时遇到阻力,请立即停止,检查拉环方向和端口对齐情况后重试。强行插入方向相反或未对准的连接器可能损坏端口。
连接多台 DGX Spark 系统
请参阅以下 Playbook,了解各种连接方案的详细说明:
- 连接两台 Spark(Connect Two Sparks)
- 连接三台 Spark(Connect Three Sparks)
- 通过交换机连接多台 Spark(Multi Sparks Through a Switch)
后续步骤
完成验证后,该配置可进一步扩展,以支持:
- 使用 Slurm 或 Kubernetes 进行作业编排
- 使用 Singularity 或 Docker 进行容器化部署
本页译自 NVIDIA 官方文档 Spark Stacking,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。