单细胞 RNA 测序

使用 RAPIDS 的端到端 GPU 驱动的 scRNA-seq 工作流程

基本思路

单细胞 RNA 测序 (scRNA-seq) 让研究人员能够单独研究每个细胞中的基因活性,揭示批量方法隐藏的变异、细胞类型和细胞状态。但这些大型高维数据集需要大量计算来处理。

本手册展示了使用 RAPIDS-singlecellscverse® ecosystem 中的 RAPIDS 支持的库)进行 scRNA-seq 的端到端 GPU 驱动的工作流程。它遵循熟悉的 Scanpy API ,通过直接在 GPU 上处理稀疏计数矩阵,研究人员可以比 CPU 工具更快地运行数据预处理、质量控制 (QC) 和清理、可视化和调查步骤。

你将完成什么

  1. GPU 加速的数据加载和预处理
  2. QC 细胞直观地了解数据
  3. 过滤异常细胞
  4. 消除不需要的变异来源
  5. PCA 和 UMAP 数据的聚类和可视化
  6. 使用 Harmony、k 最近邻、UMAP 和 tSNE 进行批量校正和分析
  7. 通过差异表达分析和轨迹分析从数据中探索生物信息

自述文件详细说明了这些步骤。

开始之前需要了解什么

  • Rapids-singlecell 库模仿了 scverse 的 Scanpy API,允许熟悉标准 CPU 工作流程的用户通过 cuPy 和 NVIDIA RAPIDS cuML 和 cuGraph 轻松适应 GPU 加速。
  • 算法精度:与 Scanpy 的 CPU 实现使用近似最近邻搜索不同,该 GPU 实现计算精确的图;因此,结果的微小差异是预期的并且是有效的。
  • 参数灵敏度:执行t-SNE时,最近邻的数量必须至少为3x以避免失真

先决条件

硬件要求:

  • NVIDIA Grace Blackwell GB10 超级芯片系统 (DGX Spark)
  • 至少 40GB 统一内存可用于 docker 容器和 GPU 加速数据处理
  • 至少 30GB 可用存储空间用于 docker 容器和数据文件
  • 高速网络连接
  • 建议使用高速互联网连接

软件要求:

  • NVIDIA DGX 操作系统
  • 码头工人

附属文件

所有必需的资产都可以在 Single-cell RNA Sequencing 仓库 中找到。在运行的剧本中,它们都可以在 playbook 文件夹下找到。

  • scRNA_analysis_preprocessing.ipynb - 主要剧本笔记本。
  • README.md - Playbook 环境快速入门指南。 它还可以在 Jupyter Lab 的主目录中找到。 请从那里开始!
  • /setup/start_playbook.sh - 在 Docker 容器中开始安装 playbook 的脚本
  • /setup/setup_playbook.sh - 在用户进入 JupyterLab 环境之前配置 Docker 容器
  • /setup/requirements.txt - 用作 setup_playbook 中的命令将安装到 playbook 环境中的库列表

时间与风险

  • 预计时间: 首次运行约 15 分钟

    • 笔记本总处理时间:整个管道大约需要 2-3 分钟(演示中记录的约为 130 秒)。
    • 数据加载:~1.7 秒。
    • 预处理:~21 秒。
    • 后处理(聚类/差异表达式):约 104 秒。
    • 数据:通过互联网下载 docker 容器、库和演示数据集 (dli_census.h5ad)。
  • 风险

    • GPU 内存限制:该工作流程非常消耗 GPU 内存。大型数据集可能会触发内存不足 (OOM) 错误。
    • 内核管理:您可能需要终止/重新启动内核以在工作流程阶段之间释放 GPU 资源。
    • 回滚:如果发生 OOM 错误,请终止所有内核以释放 GPU 内存,然后重新启动特定笔记本或整个 Playbook。
  • 最后更新: 2026 年 1 月 2 日

    • 首次出版