• 教程 >
  • PyTorch 中的分布式数据并行 - 视频教程
快捷键

介绍 || 什么是 DDP || 单节点多 GPU 训练 || 容错性 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程 ¶

创建于:2025 年 4 月 1 日 | 最后更新:2025 年 4 月 1 日 | 最后验证:2024 年 11 月 5 日

作者:Suraj Subramanian

按照下面的视频或 YouTube 上的视频进行操作。

本系列视频教程将指导您通过 DDP 在 PyTorch 中进行分布式训练。

系列从简单的非分布式训练作业开始,以在集群中部署训练作业结束。在此过程中,您还将了解用于容错分布式训练的 torchrun。

本教程假设您对 PyTorch 中的模型训练有基本的了解。

运行代码

运行教程代码需要多个 CUDA GPU。通常,这可以在具有多个 GPU 的云实例上完成(教程使用的是具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 GitHub 仓库中。克隆仓库并跟随操作!

教程章节 ¶

  1. 简介(本页)

  2. 什么是 DDP?轻轻介绍 DDP 在底层做了什么

  3. 单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练任务更稳健

  5. 多节点训练 在多台机器上使用多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 “真实世界”示例:使用 DDP 训练 minGPT 模型


评分这个教程

© 版权所有 2024,PyTorch。

使用 Sphinx 构建,主题由 Read the Docs 提供。
//暂时添加调查链接

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得您的疑问解答

查看资源