以环形拓扑连接三个 DGX Spark

以环形拓扑连接并配置三台 DGX Spark 设备

基本思路

通过 200GbE 直连 QSFP 连接,为三台 DGX Spark 系统配置环形拓扑的高速节点间通信。该配置通过建立网络连通性并配置 SSH 认证,使三台 DGX Spark 节点能够运行分布式工作负载。

你将完成的内容

你将使用 QSFP 线缆物理连接三台 DGX Spark 设备,为集群通信配置网络接口,并在节点之间建立免密 SSH,从而搭建一个可用的分布式计算环境。

开始前需要了解

  • 对分布式计算概念有基本理解
  • 了解网络接口配置和 netplan 的使用
  • 具备 SSH 密钥管理经验

前置条件

  • 三台 DGX Spark 系统
  • 三根用于设备间环形直连 200GbE 的 QSFP 线缆。请使用推荐线缆或同类产品。
  • 所有系统都可通过 SSH 访问
  • 所有系统都具备 root 或 sudo 权限:sudo whoami
  • 所有系统使用相同的用户名
  • 将所有系统更新到最新 OS 和 Firmware。请参阅 DGX Spark 文档 https://docs.nvidia.com/dgx/dgx-spark/os-and-component-update.html

相关文件

本 playbook 的相关文件可在 GitHub 上找到

时间与风险

  • 耗时: 约 1 小时(包含验证)

  • 风险等级: 中 - 涉及网络重新配置

  • 回滚: 删除 netplan 配置或 IP 分配即可撤销网络更改

  • 最后更新: 3/19/2026

    • 首次发布