构建和部署多智能体聊天机器人

部署多智能体聊天机器人系统并与 Spark 上的智能体聊天

基本思路

本手册向您展示了如何使用 DGX Spark 进行原型设计、构建和部署完全本地的多智能体系统。
凭借 128GB 统一内存,DGX Spark 可以并行运行多个 LLM 和 VLM,从而实现跨智能体的交互。

其核心是由 gpt-oss-120B 提供支持的主管智能体,协调专门的下游智能体以进行编码、检索增强生成 (RAG) 和图像理解。
得益于 DGX Spark 对流行 AI 框架和库的开箱即用支持,开发和原型设计变得快速且顺畅。
这些组件共同展示了如何在本地高性能硬件上高效执行复杂的多模态工作流程。

你将完成什么

您将在 DGX Spark 上运行一个全栈多智能体聊天机器人系统,可通过
您本地的网络浏览器。
设置包括:

  • 使用 llama.cpp 服务器和 TensorRT-LLM 服务器提供 LLM 和 VLM 模型服务
  • 用于模型推理和文档检索的 GPU 加速
  • 使用由 gpt-oss-120B 提供支持的主管智能体进行多智能体系统编排
  • MCP(模型上下文协议)服务器作为主管智能体的工具

先决条件

  • DGX Spark 设备已设置并可访问
  • DGX Spark GPU 上没有运行其他进程
  • 有足够的磁盘空间用于模型下载

笔记

默认情况下,此演示使用 DGX Spark 128GB 内存中的约 120 内存。
请确保使用 nvidia-smi 的 Spark 上没有运行其他工作负载,或者切换到较小的管理程序模型,例如 gpt-oss-20B。

时间与风险

  • 预计时间:30 分钟到一小时
  • 风险
    • Docker 权限问题可能需要更改用户组并重新启动会话
    • 安装包括下载 gpt-oss-120B (~63GB)、Deepseek-Coder:6.7B-Instruct (~7GB) 和 Qwen3-Embedding-4B (~4GB) 的模型文件,这可能需要 30 分钟到 2 小时,具体取决于网络速度
  • 回滚:使用提供的清理命令停止并删除 Docker 容器。
  • 最后更新:2025 年 11 月 20 日
    • 修复了在 DGX Spark 上运行 llama.cpp 的中断命令