基本思路
在 DGX Spark 上使用 Ollama 运行一个本地编码模型,并连接一个 CLI coding agent。本 playbook 支持三个选项:Claude Code、OpenCode 和 Codex CLI。每个 agent 都通过 Ollama 内置的启动方式(ollama launch <agent>)进行接入,因此你无需配置环境变量、provider 配置文件,也无需依赖外部云端 API。
选择你的 CLI agent
根据你想使用的 CLI agent 选择对应的章节:
- Claude Code:以最快路径让本地 Ollama 模型搭配可用的 CLI agent 跑起来。
- OpenCode:直接通过 Ollama 启动的开源 CLI。
- Codex CLI:通过 Ollama 直接启动 OpenAI 的 Codex CLI,对接本地模型。
你将完成什么
你将在 DGX Spark 上使用 Ollama 运行一个本地编码模型(Qwen3.6),用一条命令启动你选择的 CLI agent 与该模型对接,并端到端地完成一个小型编码任务。
开始之前需要了解什么
- 熟悉 Linux 命令行基础操作
- 有运行基于终端的工具与编辑器的经验
- 了解 Python,以完成一个简短的编码任务
先决条件
- 可访问运行 NVIDIA DGX OS 7.3.1(基于 Ubuntu 24.04.3 LTS)的 DGX Spark
- 可访问互联网以下载模型权重
- Ollama v0.15 或更新版本(
ollama launch所必需) - GPU 显存需求取决于你选择的 Qwen3.6 变体:
qwen3.6:latest(35B-a3b,MoE)— 约 24GB,256K 上下文qwen3.6:35b-a3b-nvfp4— 约 22GB,针对 Blackwell(DGX Spark)调优的 NVIDIA FP4 构建qwen3.6:35b-a3b-q8_0— 约 39GB,质量更高的量化版本qwen3.6:35b-a3b-bf16— 约 71GB,全精度(可放入 Spark 的统一内存)
时间与风险
- 耗时:约 15-25 分钟(主要是模型下载时间)
- 风险等级:低
- 网络不稳定时大模型下载可能失败
- 低于 0.15 版本的 Ollama 不支持
ollama launch
- 回滚方式:停止 Ollama 并从
~/.ollama/models删除已下载的模型 - 最近更新:2026/04/16
- 切换到
ollama launch方式,并将默认模型升级为 Qwen3.6
- 切换到
下方分别给出三种 CLI agent 的完整流程。前 4 步(环境确认、安装 Ollama、拉取模型、可选的本地推理测试)在三种选项中是一致的,只有从第 5 步开始的启动命令和后续操作不同。请根据需要选择其中一节执行。
选项 A:Claude Code
步骤 1. 确认你的环境
说明:在安装任何东西之前,先确认操作系统版本和 GPU 是否可见。
cat /etc/os-release | head -n 2
nvidia-smi
预期输出应显示 Ubuntu 24.04.3 LTS(DGX OS 7.3.1 基础)以及检测到的 GPU。
步骤 2. 安装或升级 Ollama
说明:安装 Ollama,或者确保版本足够新以支持 ollama launch。
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
如果 Ollama 已安装,只需确认版本:
ollama --version
预期输出应显示 Ollama v0.15 或更新版本。
步骤 3. 拉取 Qwen3.6
说明:将 Qwen3.6 模型权重下载到你的 Spark 节点上。
ollama pull qwen3.6
如果你需要不同的显存占用或精度,可选地拉取以下变体:
ollama pull qwen3.6:35b-a3b-nvfp4 # NVIDIA FP4 build tuned for Blackwell (~22GB)
ollama pull qwen3.6:35b-a3b-q8_0 # Higher-quality 8-bit quant (~39GB)
ollama pull qwen3.6:35b-a3b-bf16 # Full precision (~71GB)
预期输出应在 ollama list 中显示 qwen3.6(以及任何可选变体)。
步骤 4. 测试本地推理(可选)
说明:通过一个简短的提示词来确认模型可以加载。
ollama run qwen3.6
可以尝试这样的提示词:
Write a short README checklist for a Python project.
预期输出应显示模型在终端中作出回复。完成后,输入 /bye 或按 Ctrl+D 退出交互式会话,然后再继续。
步骤 5. 通过 Ollama 启动 Claude Code
说明:使用 Ollama 内置的启动方式,将 Claude Code 对接到你的本地模型。无需配置任何环境变量或配置文件。
ollama launch claude
预期输出应显示 Claude Code 启动并使用本地的 Qwen3.6 模型。Qwen3.6 默认提供 256K 上下文窗口;如需进一步调整,可通过 Ollama 的设置来调节上下文长度。
步骤 6. 完成一个小型编码任务
说明:创建一个小仓库,让 Claude Code 实现一个函数及对应的测试。
mkdir -p ~/cli-agent-demo
cd ~/cli-agent-demo
printf 'def add(a, b):\n """Return the sum of a and b."""\n pass\n' > math_utils.py
printf 'import math_utils\n\n\ndef test_add():\n assert math_utils.add(1, 2) == 3\n' > test_math_utils.py
如果你还没有安装 pytest:
python -m pip install -U pytest
在 Claude Code 中:
Please implement add() in math_utils.py and make sure the test passes.
运行测试:
python -m pytest -q
预期输出应显示测试通过。
步骤 7. 清理与回滚
说明:如果你不再需要这些组件,可以删除模型并停止服务。
停止服务:
sudo systemctl stop ollama
WARNING
这将删除已下载的模型文件。
ollama rm qwen3.6
步骤 8. 后续可尝试
- 试试
qwen3.6:35b-a3b-nvfp4或bf16变体,以体验不同的质量/显存权衡 - 在多文件重构或测试生成等任务中使用 Claude Code
- 在更大的代码库上充分利用完整的 256K 上下文窗口
选项 B:OpenCode
步骤 1. 确认你的环境
说明:在安装任何东西之前,先确认操作系统版本和 GPU 是否可见。
cat /etc/os-release | head -n 2
nvidia-smi
预期输出应显示 Ubuntu 24.04.3 LTS(DGX OS 7.3.1 基础)以及检测到的 GPU。
步骤 2. 安装或升级 Ollama
说明:安装 Ollama,或者确保版本足够新以支持 ollama launch。
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
如果 Ollama 已安装,只需确认版本:
ollama --version
预期输出应显示 Ollama v0.15 或更新版本。
步骤 3. 拉取 Qwen3.6
说明:将 Qwen3.6 模型权重下载到你的 Spark 节点上。
ollama pull qwen3.6
如果你需要不同的显存占用或精度,可选地拉取以下变体:
ollama pull qwen3.6:35b-a3b-nvfp4 # NVIDIA FP4 build tuned for Blackwell (~22GB)
ollama pull qwen3.6:35b-a3b-q8_0 # Higher-quality 8-bit quant (~39GB)
ollama pull qwen3.6:35b-a3b-bf16 # Full precision (~71GB)
预期输出应在 ollama list 中显示 qwen3.6。
步骤 4. 测试本地推理(可选)
说明:通过一个简短的提示词来确认模型可以加载。
ollama run qwen3.6
可以尝试这样的提示词:
Write a short README checklist for a Python project.
预期输出应显示模型作出回复。完成后,输入 /bye 或按 Ctrl+D 退出,然后再继续。
步骤 5. 通过 Ollama 启动 OpenCode
说明:使用 Ollama 内置的启动方式,将 OpenCode 对接到你的本地模型。无需配置 opencode.json 中的 provider。
ollama launch opencode
如果你想预先配置 OpenCode 而不立即启动:
ollama launch opencode --config
预期输出应显示 OpenCode 启动,并已自动选定 Ollama 作为 provider、Qwen3.6 作为模型。Qwen3.6 默认提供 256K 上下文窗口。
步骤 6. 完成一个小型编码任务
说明:创建一个小仓库,让 OpenCode 实现一个函数及对应的测试。
mkdir -p ~/cli-agent-demo
cd ~/cli-agent-demo
printf 'def add(a, b):\n """Return the sum of a and b."""\n pass\n' > math_utils.py
printf 'import math_utils\n\n\ndef test_add():\n assert math_utils.add(1, 2) == 3\n' > test_math_utils.py
如果你还没有安装 pytest:
python -m pip install -U pytest
在 OpenCode 中:
Please implement add() in math_utils.py and make sure the test passes.
运行测试:
python -m pytest -q
预期输出应显示测试通过。
步骤 7. 清理与回滚
说明:如果你不再需要这些组件,可以删除模型并停止服务。
停止服务:
sudo systemctl stop ollama
WARNING
这将删除已下载的模型文件。
ollama rm qwen3.6
步骤 8. 后续可尝试
- 试试
qwen3.6:35b-a3b-nvfp4或bf16变体,以体验不同的质量/显存权衡 - 在多文件改动或测试生成等任务中使用 OpenCode
- 在更大的代码库上充分利用完整的 256K 上下文窗口
选项 C:Codex CLI
步骤 1. 确认你的环境
说明:在安装任何东西之前,先确认操作系统版本和 GPU 是否可见。
cat /etc/os-release | head -n 2
nvidia-smi
预期输出应显示 Ubuntu 24.04.3 LTS(DGX OS 7.3.1 基础)以及检测到的 GPU。
步骤 2. 安装或升级 Ollama
说明:安装 Ollama,或者确保版本足够新以支持 ollama launch。
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
如果 Ollama 已安装,只需确认版本:
ollama --version
预期输出应显示 Ollama v0.15 或更新版本。
步骤 3. 拉取 Qwen3.6
说明:将 Qwen3.6 模型权重下载到你的 Spark 节点上。
ollama pull qwen3.6
如果你需要不同的显存占用或精度,可选地拉取以下变体:
ollama pull qwen3.6:35b-a3b-nvfp4 # NVIDIA FP4 build tuned for Blackwell (~22GB)
ollama pull qwen3.6:35b-a3b-q8_0 # Higher-quality 8-bit quant (~39GB)
ollama pull qwen3.6:35b-a3b-bf16 # Full precision (~71GB)
预期输出应在 ollama list 中显示 qwen3.6。
步骤 4. 测试本地推理(可选)
说明:通过一个简短的提示词来确认模型可以加载。
ollama run qwen3.6
可以尝试这样的提示词:
Write a short README checklist for a Python project.
预期输出应显示模型作出回复。完成后,输入 /bye 或按 Ctrl+D 退出,然后再继续。
步骤 5. 通过 Ollama 启动 Codex CLI
说明:使用 Ollama 内置的启动方式,将 Codex CLI 对接到你的本地模型。不需要 ~/.codex/config.toml,也不需要手动执行 npm install -g @openai/codex —— Ollama 会负责 Codex 的集成。
ollama launch codex
预期输出应显示 Codex CLI 启动,并以 Ollama 为 provider、Qwen3.6 为模型。Qwen3.6 默认提供 256K 上下文窗口,非常适合 Codex 的智能体式工作流。
步骤 6. 完成一个小型编码任务
说明:创建一个小仓库,让 Codex 实现一个函数及对应的测试。
mkdir -p ~/cli-agent-demo
cd ~/cli-agent-demo
printf 'def add(a, b):\n """Return the sum of a and b."""\n pass\n' > math_utils.py
printf 'import math_utils\n\n\ndef test_add():\n assert math_utils.add(1, 2) == 3\n' > test_math_utils.py
如果你还没有安装 pytest:
python -m pip install -U pytest
在 Codex 中:
Please implement add() in math_utils.py and make sure the test passes.
运行测试:
python -m pytest -q
预期输出应显示测试通过。
步骤 7. 清理与回滚
说明:如果你不再需要这些组件,可以删除模型并停止服务。
停止服务:
sudo systemctl stop ollama
WARNING
这将删除已下载的模型文件。
ollama rm qwen3.6
步骤 8. 后续可尝试
- 试试
qwen3.6:35b-a3b-nvfp4或bf16变体,以体验不同的质量/显存权衡 - 在多文件改动或测试生成等任务中使用 Codex CLI
- 在更大的代码库上充分利用完整的 256K 上下文窗口
| 现象 | 原因 | 解决办法 |
|---|---|---|
ollama: command not found | Ollama 未安装,或 PATH 未更新 | 重新执行 curl -fsSL https://ollama.com/install.sh | sh,并打开新的 shell |
ollama launch 提示未知命令 | Ollama 版本低于 v0.15 | 升级 Ollama:curl -fsSL https://ollama.com/install.sh | sh |
| 模型加载失败,提示版本错误或 HTTP 412 | Ollama 版本对该模型来说过旧 | 升级 Ollama:curl -fsSL https://ollama.com/install.sh | sh |
启动 agent 时报 model not found | 没有先拉取模型 | 执行 ollama pull qwen3.6 后重试 |
连接 localhost:11434 时 connection refused | Ollama 服务未运行 | 通过 ollama serve 启动,或使用 sudo systemctl start ollama |
ollama launch <agent> 立即退出 | Agent 集成初始化失败 | 重新执行 ollama launch <agent>;如果问题仍然存在,请查看 journalctl -u ollama |
| 响应缓慢或出现 OOM 错误 | 选用的模型变体超出了 GPU 显存 | 切换到 qwen3.6:35b-a3b-nvfp4,或关闭其他占用 GPU 的工作负载 |
NOTE
DGX Spark 采用统一内存架构(UMA),可以让 GPU 与 CPU 之间动态共享内存。
如果你看到内存压力较大,可以使用以下命令清空缓冲区缓存:
sudo sh -c 'sync; echo 3 > /proc/sys/vm/drop_caches'