Spark 与 Reachy 拍照亭

使用 DGX Spark 和 Reachy Mini 的 AI 增强照相亭。

基本思路

Teaser

Spark & Reachy Photo Booth 是一个交互式、事件驱动的照相亭演示,它将 DGX Spark™Reachy Mini 机器人相结合,创造出引人入胜的多模态 AI 体验。系统展示:

  • 使用 NeMo Agent Toolkit 构建的多模态智能体
  • ReAct 循环openai/gpt-oss-20b LLM 驱动,由 TensorRT-LLM 提供支持
  • 语音交互基于nvidia/riva-parakeet-ctc-1.1Bhexgrad/Kokoro-82M
  • 图像生成 使用 black-forest-labs/FLUX.1-Kontext-dev 进行图像到图像的重新设计
  • 用户位置跟踪 使用 facebookresearch/detectron2FoundationVision/ByteTrack 构建
  • MinIO 用于存储捕获/生成的图像并通过 QR 码共享它们

该演示基于通过消息总线进行通信的多个服务。

Architecture diagram

另请参阅此剧本的演练视频:视频

NOTE

本手册适用于 Reachy Mini Lite。 Reachy Mini(带有板载 Raspberry Pi)可能需要进行细微调整。为简单起见,我们在本手册中将机器人称为 Reachy。

你将完成什么

您将在 DGX Spark 上部署完整的照相亭系统,在本地运行多个推理模型 - LLM、图像生成、语音识别、语音生成和计算机视觉 - 所有这些都无需依赖云。 Reachy 机器人通过自然对话与用户互动、拍摄照片并根据提示生成自定义图像,在边缘硬件上演示实时多模态 AI 处理。

开始之前需要了解什么

  • 基本的 Docker 和 Docker Compose 知识
  • 基本网络配置技能

先决条件

硬件要求:

TIP

确保您的 Reachy 机器人固件是最新的。您可以找到更新它的说明 这里
软件要求:

  • 官方 DGX Spark OS 映像,包括所有必需的实用程序,例如 Git、Docker、NVIDIA 驱动程序和 NVIDIA 容器工具包
  • DGX Spark 的互联网连接
  • NVIDIA NGC 个人 API 密钥 (NVIDIA_API_KEY)。 创建密钥 如有必要。确保在创建密钥时启用 NGC Catalog 范围。
  • Hugging Face 访问令牌 (HF_TOKEN)。 创建令牌 如有必要。确保创建一个具有_读取您可以访问的所有公共门控仓库内容的权限_的令牌。

附属文件

所有必需的资产都可以在 Spark & Reachy Photo Booth 仓库 中找到。

  • Docker Compose 应用程序
  • 各种配置文件
  • 所有服务的源代码
  • 详细文档

时间与风险

  • 预计时间: 2 小时,包括硬件设置、容器构建和模型下载
  • 风险级别:
  • 回滚: Docker 容器可以停止并删除以释放资源。可以从缓存目录中删除下载的模型。机器人和外围设备的连接可以安全地断开。可以通过删除自定义设置来恢复网络配置。
  • 最后更新: 2026 年 4 月 1 日
    • 1.0.0 首次发布
    • 1.0.1 文档改进

管辖条款

您对 Spark Playbook 脚本的使用受 Apache License, Version 2.0 管辖,并允许使用受各自许可证管辖的单独开源和专有软件:Flux.1-Kontext NIMParakeet 1.1b CTC en-US ASR NIMTensorRT-LLMminio/minioarizephoenix/phoenixgrafana/otel-lgtmPythonNode.jsnginxbusyboxUV Python PackagerRedpandaRedpanda Consolegpt-oss-20bFLUX.1-Kontext-devFLUX.1-Kontext-dev-onnx

NOTE

FLUX.1-Kontext-dev 和 FLUX.1-Kontext-dev-onnx 是针对非商业用途发布的模型。请联系 sales@blackforestlabs.ai 了解商业条款。您有责任接受适用的许可协议和可接受的使用政策,并确保您的 HF 令牌具有正确的权限。