介绍 || 什么是 DDP || 单节点多 GPU 训练 || 容错性 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程 ¶
创建于:2025 年 4 月 1 日 | 最后更新:2025 年 4 月 1 日 | 最后验证:2024 年 11 月 5 日
作者:Suraj Subramanian
按照下面的视频或 YouTube 上的视频进行操作。
本系列视频教程将指导您通过 DDP 在 PyTorch 中进行分布式训练。
系列从简单的非分布式训练作业开始,以在集群中部署训练作业结束。在此过程中,您还将了解用于容错分布式训练的 torchrun。
本教程假设您对 PyTorch 中的模型训练有基本的了解。
运行代码
运行教程代码需要多个 CUDA GPU。通常,这可以在具有多个 GPU 的云实例上完成(教程使用的是具有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在这个 GitHub 仓库中。克隆仓库并跟随操作!
教程章节 ¶
简介(本页)
什么是 DDP?轻轻介绍 DDP 在底层做了什么
单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型
容错分布式训练 使用 torchrun 使您的分布式训练任务更稳健
多节点训练 在多台机器上使用多个 GPU 训练模型
使用 DDP 训练 GPT 模型 “真实世界”示例:使用 DDP 训练 minGPT 模型