Live VLM WebUI

与网络摄像头流的实时视觉语言模型交互

基本思路

Live VLM WebUI 是用于实时视觉语言模型 (VLM) 交互和基准测试的通用 Web 界面。它使您能够将网络摄像头直接流式传输到任何 VLM 后端(Ollama、vLLM、SGLang 或云 API)并接收实时 AI 支持的分析。该工具非常适合测试 VLM 模型、对不同硬件配置的性能进行基准测试以及探索视觉 AI 功能。

该界面提供基于 WebRTC 的视频流、集成 GPU 监控、可定制提示以及对多个 VLM 后端的支持。它与 DGX Spark 中强大的 Blackwell GPU 无缝协作,以令人印​​象深刻的速度实现实时视觉推理。

你将完成什么

您将在 DGX Spark 上设置完整的实时视觉 AI 测试环境,使您能够:

  • 通过网络浏览器传输网络摄像头视频并获得即时 VLM 分析
  • 测试和比较不同的视觉语言模型(Gemma 3、Llama Vision、Qwen VL 等)
  • 在模型处理视频帧时实时监控 GPU 和系统性能
  • 为各种用例定制提示(物体检测、场景描述、OCR、安全监控)
  • 使用网络浏览器从网络上的任何设备访问该界面

开始之前需要了解什么

  • 基本熟悉Linux命令行和终端操作
  • 使用 pip 安装 Python 包的基础知识
  • REST API 的基本知识以及服务如何通过 HTTP 进行通信
  • 熟悉网络浏览器和网络访问(IP 地址、端口)
  • 可选:了解视觉语言模型及其功能(有帮助,但不是必需的)

先决条件

硬件要求:

  • 网络摄像头(笔记本电脑内置摄像头、USB 摄像头或带摄像头的远程浏览器)
  • 至少 10GB 可用存储空间用于 Python 包和模型下载

软件要求:

  • 安装了 DGX 操作系统的 DGX Spark
  • Python 3.10 或更高版本(使用 python3 --version 验证)
  • pip 包管理器(使用 pip --version 验证)
  • 从 PyPI 下载 Python 包的网络访问
  • 本地运行的 VLM 后端(Ollama 最简单)或云 API 访问
  • Web 浏览器访问 https://<SPARK_IP>:8090

VLM 后端选项:

  1. Ollama(推荐初学者)-易于安装和使用
  2. vLLM - 生产工作负载性能更高
  3. SGLang - 替代高性能后端
  4. NIM - 用于优化性能的 NVIDIA 推理微服务
  5. 云 API - NVIDIA API Catalog、OpenAI 或其他 OpenAI 兼容 API

附属文件

所有源代码和文档都可以在 Live VLM WebUI GitHub 仓库 中找到。

该软件包将直接通过 pip 安装,因此基本安装不需要额外的文件。

时间与风险

  • 预计时间: 20-30分钟(包括Ollama安装和模型下载)
    • 5 分钟通过 pip 安装 Live VLM WebUI
    • 安装 Ollama 并下载模型需要 10-15 分钟(因模型大小而异)
    • 5 分钟配置和测试
  • **风险级别:**低
    • Python包安装在用户空间,与系统隔离
    • 无需进行系统级更改
    • 端口 8090 必须可访问 Web 界面功能
    • 自签名 SSL 证书需要浏览器安全例外
  • 回滚: 使用 pip uninstall live-vlm-webui 卸载 Python 包。 Ollama 可以通过标准软件包删除来卸载。 DGX Spark 配置没有持久性更改。
  • 最后更新: 2026 年 1 月 2 日
    • 首次出版