连接两台 DGX Spark

连接两台 Spark 设备,并将其配置为可进行推理和微调

基本思路

通过 200GbE 直连 QSFP 连接,为两台 DGX Spark 系统配置高速节点间通信。该配置通过建立网络连通性并配置 SSH 认证,使多台 DGX Spark 节点能够运行分布式工作负载。

你将完成的内容

你将使用一根 QSFP 线缆物理连接两台 DGX Spark 设备,为集群通信配置网络接口,并在节点之间建立免密 SSH,从而搭建一个可用的分布式计算环境。

开始前需要了解

  • 对分布式计算概念有基本理解
  • 了解网络接口配置和 netplan 的使用
  • 具备 SSH 密钥管理经验

前置条件

  • 两台 DGX Spark 系统
  • 一根用于两台设备间直连 200GbE 的 QSFP 线缆
  • 两台系统都可通过 SSH 访问
  • 两台系统都具备 root 或 sudo 权限:sudo whoami
  • 两台系统使用相同的用户名

相关文件

本 playbook 所需的所有文件都可在 GitHub 上找到

时间与风险

  • 耗时: 约 1 小时(包含验证)

  • 风险等级: 中 - 涉及网络重新配置

  • 回滚: 删除 netplan 配置或 IP 分配即可撤销网络更改

  • 最后更新: 11/24/2025

    • 文案小幅修订