CLI Coding Agent

在 DGX Spark 上使用 Ollama 运行本地编码模型,并连接你选择的 CLI coding agent(Claude Code、OpenCode 或 Codex CLI)

基本思路

DGX Spark 上使用 Ollama 运行一个本地编码模型,并连接一个 CLI coding agent。本 playbook 支持三个选项:Claude CodeOpenCodeCodex CLI。每个 agent 都通过 Ollama 内置的启动方式ollama launch <agent>)进行接入,因此你无需配置环境变量、provider 配置文件,也无需依赖外部云端 API。

选择你的 CLI agent

根据你想使用的 CLI agent 选择对应的章节:

  • Claude Code:以最快路径让本地 Ollama 模型搭配可用的 CLI agent 跑起来。
  • OpenCode:直接通过 Ollama 启动的开源 CLI。
  • Codex CLI:通过 Ollama 直接启动 OpenAI 的 Codex CLI,对接本地模型。

你将完成什么

你将在 DGX Spark 上使用 Ollama 运行一个本地编码模型(Qwen3.6),用一条命令启动你选择的 CLI agent 与该模型对接,并端到端地完成一个小型编码任务。

开始之前需要了解什么

  • 熟悉 Linux 命令行基础操作
  • 有运行基于终端的工具与编辑器的经验
  • 了解 Python,以完成一个简短的编码任务

先决条件

  • 可访问运行 NVIDIA DGX OS 7.3.1(基于 Ubuntu 24.04.3 LTS)的 DGX Spark
  • 可访问互联网以下载模型权重
  • Ollama v0.15 或更新版本(ollama launch 所必需)
  • GPU 显存需求取决于你选择的 Qwen3.6 变体:
    • qwen3.6:latest(35B-a3b,MoE)— 约 24GB,256K 上下文
    • qwen3.6:35b-a3b-nvfp4 — 约 22GB,针对 Blackwell(DGX Spark)调优的 NVIDIA FP4 构建
    • qwen3.6:35b-a3b-q8_0 — 约 39GB,质量更高的量化版本
    • qwen3.6:35b-a3b-bf16 — 约 71GB,全精度(可放入 Spark 的统一内存)

时间与风险

  • 耗时:约 15-25 分钟(主要是模型下载时间)
  • 风险等级:低
    • 网络不稳定时大模型下载可能失败
    • 低于 0.15 版本的 Ollama 不支持 ollama launch
  • 回滚方式:停止 Ollama 并从 ~/.ollama/models 删除已下载的模型
  • 最近更新:2026/04/16
    • 切换到 ollama launch 方式,并将默认模型升级为 Qwen3.6