NCCL 两台 Spark

在两个 Spark 上安装并测试 NCCL

基本思路

NCCL(NVIDIA Collective Communication Library)实现高性能 GPU 到 GPU 通信
跨多个节点。本演练设置 NCCL 进行多节点分布式训练
采用 Blackwell 架构的 DGX Spark 系统。您将配置网络、构建 NCCL
Blackwell 支持源,并验证节点之间的通信。

你将完成什么

您将拥有一个可运行的多节点 NCCL 环境,可实现高带宽 GPU 通信
跨 DGX Spark 系统进行分布式训练工作负载,并具有经过验证的网络性能
以及正确的 GPU 拓扑检测。

开始之前需要了解什么

  • 使用 Linux 网络配置和 netplan
  • 对 MPI(消息传递接口)概念的基本了解
  • SSH 密钥管理和无密码身份验证设置

先决条件

  • 两个 DGX Spark 系统
  • 完成《连接两个 Sparks》手册
  • 安装的 NVIDIA 驱动程序:nvidia-smi
  • 可用的 CUDA 工具包:nvcc --version
  • Root/sudo 权限:sudo whoami

时间与风险

  • 预计时间:30 分钟用于设置和验证
  • 风险级别:中 - 涉及网络配置更改
  • 回滚:可以从 DGX Spark 中删除 NCCL 和 NCCL 测试仓库
  • 最后更新: 2025 年 12 月 15 日
    • 使用nccl最新版本v2.28.9-1