通过交换机连接多个 DGX Spark

设置通过 Switch 连接的 DGX Spark 设备集群

基本思路

配置四个 DGX Spark 系统,通过 QSFP 交换机使用 200Gbps QSFP 连接进行高速节点间通信。此设置通过建立网络连接和配置 SSH 身份验证来实现跨多个 DGX Spark 节点的分布式工作负载。

你将完成什么

在此手册中,您将使用 QSFP 电缆和 QSFP 交换机物理连接四个 DGX Spark 设备,配置用于集群通信的网络接口,并在节点之间建立无密码 SSH,以创建功能齐全的分布式计算环境。相同的设置可以扩展到通过同一交换机连接的更多 DGX Spark 设备。

开始之前需要了解什么

  • 对分布式计算概念的基本了解
  • 使用网络接口配置和网络规划
  • 具有 SSH 密钥管理经验
  • 对配置您计划使用的托管 QSFP 网络交换机有基本的了解和经验。请参阅使用说明书:
    • 了解如何连接到交换机以管理端口和功能
    • 了解如何启用/禁用 QSFP 端口并在交换机上创建软件桥
    • 了解如何在端口上手动配置链路速度并在需要时禁用自动协商

先决条件

  • 四个 DGX Spark 系统(这些说明适用于与交换机连接的任意数量的 DGX Spark 设备)
  • 具有至少 4 个 QSFP56-DD 端口(每个端口至少 200Gbps)的 QSFP 交换机
  • QSFP 电缆用于从交换机到设备的 200Gbps 连接。使用 recommended cable 或类似的。
    • 每台 Spark一根电缆
    • 如果交换机有 400Gbps 端口,那么您还可以使用分支电缆将它们分成两个 200Gbps 端口
  • 所有系统均可使用 SSH 访问
  • 所有系统上的 root 或 sudo 访问权限:sudo whoami
  • 所有系统上的用户名相同
  • 将所有系统更新到最新的操作系统和固件。请参阅 DGX Spark 文档 https://docs.nvidia.com/dgx/dgx-spark/os-and-component-update.html

附属文件

此剧本所需的所有文件都可以在 GitHub 中找到

时间与风险

  • 持续时间: 2 小时(包括验证)

  • 风险级别: 中 - 涉及网络重新配置

  • 回滚: 可以通过删除网络规划配置或 IP 分配来撤销网络更改

  • 最后更新: 2026 年 3 月 19 日

    • 首次发表