2023 年 2 月 2 日
废弃 CUDA 11.6 和 Python 3.7 支持
针对即将到来的 PyTorch 2.0 功能版本发布(目标 2023 年 3 月),我们将 CUDA 11.7 作为稳定版本,CUDA 11.8 作为实验版本,并支持 Python >=3.8,<=3.11。如果您仍在使用或依赖于 CUDA 11.6 或 Python 3.7 构建,我们强烈建议升级到至少 CUDA 11.7 和 Python 3.8,因为这将是为 PyTorch 2.0 所需的最小版本。请注意,截至 2 月 1 日,CUDA 11.6 和 Python 3.7 不再包含在夜间构建中...
2023 年 1 月 9 日
面向大众的 PyTorch 追踪分析
我们很高兴地宣布 Holistic Trace Analysis(HTA)的公开发布,这是一个为 PyTorch 用户提供的开源性能分析和可视化 Python 库。HTA 以 PyTorch 分析器收集的 Kineto 追踪为输入,这些追踪复杂且难以解释,并提升了这些追踪中包含的性能信息。它最初在 Meta 内部开发,用于理解和调试在 GPU 上大规模分布式训练作业的性能问题。...
2022 年 12 月 31 日
2022 年 12 月 25 日至 12 月 30 日期间,PyTorch-nightly 依赖链被破坏。
如果您在 2022 年 12 月 25 日至 12 月 30 日期间通过 pip 在 Linux 上安装了 PyTorch-nightly,请立即卸载它和 torchtriton,并使用最新的 nightly 二进制文件(晚于 2022 年 12 月 30 日)。$ pip3 uninstall -y torch torchvision torchaudio torchtriton $ pip3 cache purge PyTorch-nightly Linux packages installed via pip during that time 安装了依赖项 torchtriton,该依赖项在 Python 包索引(PyPI)代码库中被破坏,并运行了恶意二进制文件...
2022 年 12 月 28 日
Torchserve 性能调优,动画绘图案例研究
在本文中,我们讨论了 Torchserve 的性能调优,以便在生产环境中部署模型。机器学习项目生命周期中最大的挑战之一就是在生产中部署模型。这需要可靠的托管解决方案以及解决 MLOps 需求的方法。一个健壮的托管解决方案需要提供多模型托管、模型版本控制、指标记录、监控和扩展以应对高峰流量。本文将概述 Torch...
2022 年 12 月 22 日
使用 PyTorch 扩展视觉模型训练平台
TL;DR:我们展示了使用 FairScale 的 FullyShardedDataParallel(FSDP)API 与 PyTorch 结合编写大型视觉 Transformer 模型的方法。我们讨论了我们在 GPU 集群上对这些模型进行扩展和优化的技术。这次平台扩展的目标是实现规模化的研究。本文不讨论模型精度、新的模型架构或新的训练方法。1. 简介[1, 2]最新的视觉研究展示了模型扩展作为一个有前景的研究方向。
2022 年 12 月 16 日
使用 PyTorch FSDP 和 AWS 进行高效的大规模训练
顶尖 AI 模型正变得越来越大。训练这些模型的成本和开销正在迅速增加,需要大量的工程和猜测来找到正确的训练方案。FSDP 通过允许您使用相同数量的资源训练更大的模型,显著降低了这些成本。FSDP 降低了 GPU 的内存占用,并且可以通过轻量级的配置使用,通常只需要几行代码...
2022 年 12 月 15 日
在 IBM 云上扩展 PyTorch FSDP 以训练基础模型
随着基础模型的出现和成功,使用云原生方法进行大型模型训练越来越受到许多企业的关注。一些 AI 从业者可能认为,他们实现高 GPU 利用率进行分布式训练的唯一方法是将其运行在 HPC 系统上,例如那些通过 Infiniband 互联的系统,而可能不会考虑以太网连接的系统。我们展示了最新的分布式训练技术,即来自 PyTorch 的完全分片数据并行(FSDP)...