骆驼工厂

使用 LLaMA Factory 安装和微调模型

基本思路

LLaMA Factory 是一个开源框架,可以简化训练和精细化过程
调整大型语言模型。它为各种尖端技术提供了统一的接口
方法,例如 SFT、RLHF 和 QLoRA 技术。它还支持广泛的LLM
LLaMA、Mistral 和 Qwen 等架构。本剧本演示了如何进行微调
在 NVIDIA Spark 设备上使用 LLaMA Factory CLI 的大型语言模型。

你将完成什么

您将在具有 Blackwell 架构的 NVIDIA Spark 上设置 LLaMA Factory,以微调大型
使用 LoRA、QLoRA 和完整微调方法的语言模型。这使得高效
针对特定领域的模型适应,同时利用特定于硬件的优化。

开始之前需要了解什么

  • 编辑配置文件和故障排查的基本 Python 知识
  • 用于运行 shell 命令和管理环境的命令行用法
  • 熟悉 PyTorch 和 Hugging Face Transformers 生态系统
  • GPU 环境设置,包括 CUDA/cuDNN 安装和 VRAM 管理
  • 微调概念:了解 LoRA、QLoRA 和完全微调之间的权衡
  • 数据集准备:将文本数据格式化为JSON结构以进行指令调优
  • 资源管理:针对 GPU 限制调整批量大小和内存设置

先决条件

  • 采用 Blackwell 架构的 NVIDIA Spark 设备

  • 安装的 CUDA 12.9 或更高版本:nvcc --version

  • 安装的 Git:git --version

  • Python 3 与 venv 和 pip:python3 --version && pip3 --version

  • 足够的存储空间(>50GB用于模型和检查点):df -h

  • 用于从 Hugging Face Hub 下载模型的互联网连接

附属文件

时间与风险

  • 持续时间: 初始设置 30-60 分钟,训练 1-7 小时,具体取决于模型大小和数据集。
  • 风险: 模型下载需要大量带宽和存储空间。训练可能会消耗大量 GPU 内存,并且需要针对硬件限制进行参数调整。
  • 回滚: 停用虚拟环境并删除 factoryEnvLLaMA-Factory 目录。训练检查点保存在本地,可以删除以回收存储空间。
  • 最后更新: 2026 年 2 月 18 日
    • 使用 PyTorch CUDA 13 更新为基于 venv 的设置(无 Docker)。 Qwen3 LoRA 微调工作流程。