Blog | 19 of 32

2023 年 2 月 2 日

废弃 CUDA 11.6 和 Python 3.7 支持

针对即将到来的 PyTorch 2.0 功能版本发布（目标 2023 年 3 月），我们将 CUDA 11.7 作为稳定版本，CUDA 11.8 作为实验版本，并支持 Python >=3.8，<=3.11。如果您仍在使用或依赖于 CUDA 11.6 或 Python 3.7 构建，我们强烈建议升级到至少 CUDA 11.7 和 Python 3.8，因为这将是为 PyTorch 2.0 所需的最小版本。请注意，截至 2 月 1 日，CUDA 11.6 和 Python 3.7 不再包含在夜间构建中...

2023 年 1 月 9 日

面向大众的 PyTorch 追踪分析

我们很高兴地宣布 Holistic Trace Analysis（HTA）的公开发布，这是一个为 PyTorch 用户提供的开源性能分析和可视化 Python 库。HTA 以 PyTorch 分析器收集的 Kineto 追踪为输入，这些追踪复杂且难以解释，并提升了这些追踪中包含的性能信息。它最初在 Meta 内部开发，用于理解和调试在 GPU 上大规模分布式训练作业的性能问题。...

2022 年 12 月 31 日

2022 年 12 月 25 日至 12 月 30 日期间，PyTorch-nightly 依赖链被破坏。

如果您在 2022 年 12 月 25 日至 12 月 30 日期间通过 pip 在 Linux 上安装了 PyTorch-nightly，请立即卸载它和 torchtriton，并使用最新的 nightly 二进制文件（晚于 2022 年 12 月 30 日）。$ pip3 uninstall -y torch torchvision torchaudio torchtriton $ pip3 cache purge PyTorch-nightly Linux packages installed via pip during that time 安装了依赖项 torchtriton，该依赖项在 Python 包索引（PyPI）代码库中被破坏，并运行了恶意二进制文件...

2022 年 12 月 28 日

Torchserve 性能调优，动画绘图案例研究

在本文中，我们讨论了 Torchserve 的性能调优，以便在生产环境中部署模型。机器学习项目生命周期中最大的挑战之一就是在生产中部署模型。这需要可靠的托管解决方案以及解决 MLOps 需求的方法。一个健壮的托管解决方案需要提供多模型托管、模型版本控制、指标记录、监控和扩展以应对高峰流量。本文将概述 Torch...

2022 年 12 月 22 日

使用 PyTorch 扩展视觉模型训练平台

TL;DR：我们展示了使用 FairScale 的 FullyShardedDataParallel（FSDP）API 与 PyTorch 结合编写大型视觉 Transformer 模型的方法。我们讨论了我们在 GPU 集群上对这些模型进行扩展和优化的技术。这次平台扩展的目标是实现规模化的研究。本文不讨论模型精度、新的模型架构或新的训练方法。1. 简介[1, 2]最新的视觉研究展示了模型扩展作为一个有前景的研究方向。

2022 年 12 月 16 日

使用 PyTorch FSDP 和 AWS 进行高效的大规模训练

顶尖 AI 模型正变得越来越大。训练这些模型的成本和开销正在迅速增加，需要大量的工程和猜测来找到正确的训练方案。FSDP 通过允许您使用相同数量的资源训练更大的模型，显著降低了这些成本。FSDP 降低了 GPU 的内存占用，并且可以通过轻量级的配置使用，通常只需要几行代码...

2022 年 12 月 15 日

在 IBM 云上扩展 PyTorch FSDP 以训练基础模型

随着基础模型的出现和成功，使用云原生方法进行大型模型训练越来越受到许多企业的关注。一些 AI 从业者可能认为，他们实现高 GPU 利用率进行分布式训练的唯一方法是将其运行在 HPC 系统上，例如那些通过 Infiniband 互联的系统，而可能不会考虑以太网连接的系统。我们展示了最新的分布式训练技术，即来自 PyTorch 的完全分片数据并行（FSDP）...

使用 PyTorch Foundation 和 ROCm™支持民主化 AI

废弃 CUDA 11.6 和 Python 3.7 支持

面向大众的 PyTorch 追踪分析

2022 年 12 月 25 日至 12 月 30 日期间，PyTorch-nightly 依赖链被破坏。

Torchserve 性能调优，动画绘图案例研究

使用 PyTorch 扩展视觉模型训练平台

使用 PyTorch FSDP 和 AWS 进行高效的大规模训练

在 IBM 云上扩展 PyTorch FSDP 以训练基础模型

安装 PyTorch

快速入门与云合作伙伴

文档

教程

资源