本页介绍 NVIDIA 为企业 IT 团队提供的 DGX Spark 规模化管理与定制安装指南,涵盖机群(fleet)生命周期管理、自定义安装及 cloud-init 配置等内容。
概览
对于在规模化环境中运营 DGX Spark 系统的企业 IT 团队,NVIDIA 提供了有关可管理性及定制安装的专项指南。
DGX Spark 可管理性指南
DGX Spark Manageability Guide 提供了跨机群生命周期集成的操作指导,包括:
- 机群的接入(onboarding)、供应(provisioning)、监控与维护
- 使用 JSON 输出的无代理 SSH 执行
- 与 Ansible、Canonical Landscape、Tanium 及类似平台的集成模式
- 故障响应与诊断工作流
如需完整的 DGX Spark 机群管理说明,请参阅 DGX Spark Manageability Guide。
DGX Spark 使用 Cloud-Init 进行定制安装
DGX Spark Custom Installation with Cloud-Init 文档介绍了在通过可移动介质或本地软件包镜像(而非公共互联网)进行系统安装或更新时,如何进行定制安装与软件交付,包括:
- 基于 USB 的安装及相关镜像化工作流
- 本地软件仓库的布局、同步,以及在安装和更新中的使用
- 使用 cloud-init 用户数据(user data)与元数据(metadata),在首次启动时应用站点策略与配置
如需完整的 cloud-init 定制安装说明,请参阅 DGX Spark Custom Installation with Cloud-Init。
许可协议声明
客户在获取上述定制安装与规模化部署说明时,即确认该工作流将绕过面向个人最终用户的许可提示。这些工具的使用受 NVIDIA 软件许可协议(包含 NVIDIA CUDA EULA)的约束。管理员在继续操作时,即代表其有权代表客户接受上述条款与条件。
本页译自 NVIDIA 官方文档 Enterprise Manageability,由社区整理,仅供参考;如与官方英文文档不一致,请以官方为准。