使用 NeMo 进行微调

使用 NVIDIA NeMo 在本地微调模型

基本思路

本手册将引导您设置和使用 NVIDIA NeMo AutoModel 在 NVIDIA Spark 设备上微调大型语言模型和视觉语言模型。 NeMo AutoModel 通过原生 PyTorch 支持为 Hugging Face 模型提供 GPU 加速的端到端训练,从而实现即时微调,无需转换延迟。该框架支持跨单 GPU 到多节点集群的分布式训练,具有专​​为 ARM64 架构和 Blackwell GPU 系统设计的优化内核和内存高效配方。

你将完成什么

您将在 NVIDIA Spark 设备上使用 NeMo AutoModel 为大型语言模型(1-70B 参数)和视觉语言模型建立完整的微调环境。最后,您将拥有一个支持参数高效微调 (PEFT)、监督微调 (SFT) 和具有 FP8 精度优化的分布式训练功能的工作安装,同时保持与 Hugging Face 生态系统的兼容性。

开始之前需要了解什么

  • 在 Linux 终端环境和 SSH 连接中工作
  • 对 Python 虚拟环境和包管理有基本了解
  • 熟悉GPU计算概念和CUDA工具包使用
  • 具有容器化工作流程和 Docker/Podman 操作经验
  • 了解机器学习模型训练概念和微调工作流程

先决条件

  • 具有 Blackwell 架构 GPU 访问权限的 NVIDIA Spark 设备
  • 安装并配置 CUDA 工具包 12.0+:nvcc --version
  • Python 3.10+ 可用环境:python3 --version
  • 最低 32GB 系统 RAM,可实现高效的模型加载和训练
  • 用于下载模型和包的有效互联网连接
  • 安装 Git 用于仓库克隆:git --version
  • 已配置对 NVIDIA Spark 设备的 SSH 访问

附属文件

该剧本的所有必需文件都可以在 GitHub 中找到

时间与风险

  • 持续时间: 完成设置和初始模型微调需要 45-90 分钟
  • 风险: 模型下载可能很大(几个 GB),ARM64 包兼容性问题可能需要进行故障排查,分布式训练设置复杂性随着多节点配置而增加
  • **回滚:**可以彻底删除虚拟环境;除了软件包安装之外,不会对主机系统进行任何系统级更改。
  • 最后更新: 2026 年 3 月 4 日
    • 建议通过 Docker 运行 Nemo Finetune 工作流程