CUDA-X 数据科学

安装并使用 NVIDIA cuML 和 NVIDIA cuDF,在 UMAP、HDBSCAN、pandas 等工作负载上实现零代码改动加速

基本思路

本 playbook 包含两个示例 notebook,演示如何使用 CUDA-X Data Science 库加速关键机器学习算法以及 pandas 的核心操作:

  • NVIDIA cuDF: 无需修改代码,即可加速数据准备操作以及对 8GB 字符串数据的核心数据处理。
  • NVIDIA cuML: 无需修改代码,即可加速 sci-kit learn(LinearSVC)、UMAP 和 HDBSCAN 中常见且计算密集的机器学习算法。

CUDA-X Data Science(原 RAPIDS)是一组用于加速数据科学与数据处理生态的开源库。这些库无需改动代码,就能加速 scikit-learn、pandas 等常用 Python 工具。在 DGX Spark 上,你可以直接用现有代码在桌面侧获得更高性能。

你将完成的内容

你将使用 GPU 加速常见的机器学习算法和数据分析操作,了解如何为常用 Python 工具启用加速,并理解在 DGX Spark 上运行数据科学工作流的价值。

前置条件

  • 熟悉 pandas、scikit-learn,以及支持向量机、聚类、降维等机器学习算法
  • 已安装 conda
  • 已生成 Kaggle API key

时间与风险

  • 耗时: 环境准备约 20-30 分钟,每个 notebook 运行约 2-3 分钟。
  • 风险:
    • 由于网络问题,数据下载可能较慢或失败
    • Kaggle API 生成可能失败,需要重试
  • 回滚: 正常使用过程中不会对系统做永久性更改。
  • 最后更新: 11/07/2025
    • 文案小幅修订