2023 年 12 月 19 日

理解 GPU 内存 2:查找和移除引用循环

这是《理解 GPU 内存》博客系列的第二部分。我们的第一篇博客《理解 GPU 内存 1:可视化所有分配随时间的变化》展示了如何使用内存快照工具。在本部分中,我们将使用内存快照来可视化由引用循环引起的 GPU 内存泄漏,然后使用引用循环检测器在我们的代码中定位并移除它们。有时当我们使用内存快照时,我们会看到类似这样的 GPU 内存图表。在这个快照中,...

阅读更多

2023 年 12 月 18 日

使用 PyTorch 2.0 训练生产 AI 模型

1. 引言 PyTorch 2.0(简称 PT2)可以通过使用名为 torch.compile 的编译器显著提高 AI 模型的训练和推理性能,同时与 PyTorch 1.x 保持 100%向后兼容。已有关于 PT2 如何提高常见基准测试(例如 huggingface 的 diffusers)性能的报道。在这篇博客中,我们讨论了在 Meta 将 PT2 应用于生产 AI 模型的经验。2. 背景 2.1 为什么自动性能优化很重要...

阅读更多

2023 年 12 月 15 日

通过性能赋能模型:通用模型变换方法的艺术

引言 PyTorch 2.0(PT2)提供了一种编译执行模式,该模式将 Python 字节码重写为提取 PyTorch 操作序列,将其转换为 Graph IR。然后,通过可定制的后端即时编译 IR,在不干扰用户的情况下提高训练性能。通常,生产模型可能需要经过多个优化/降低性能的阶段才能达到性能目标。因此,拥有编译模式是可取的,因为它可以将改进工作的任务分离出来...

阅读更多

2023 年 12 月 14 日

理解 GPU 内存 1:随时间可视化所有分配

在您使用 PyTorch 在 GPU 上的时间中,您可能已经熟悉了以下常见的错误信息:torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 512.00 MiB。GPU 0 总容量为 79.32 GiB,其中 401.56 MiB 可用。在这个系列中,我们展示了如何使用内存工具,包括内存快照、内存分析器和引用循环检测器来调试内存不足错误并提高内存使用。内存快照工具提供了细粒度的 GPU 内存...

阅读更多

2023 年 12 月 12 日

2023 年 PyTorch 大会:从恐龙到地震成像,英特尔

短讲 1:使用 OpenFWI 将地震数据转换为地下模型 演讲者:本杰明·康索尔沃,英特尔 AI 软件工程经理,领英 会话概述 在本次会议中,本杰明首先概述了地震成像和全波形反演(FWI)。地震成像和 FWI 帮助我们探索陆地,寻找对人类繁荣至关重要的地下矿产资源。为了找到这些关键的地下矿产资源,我们需要以低成本、高精度地成像地下,...

阅读更多

2023 年 12 月 05 日

雪花加入 PyTorch 基金会,成为普通成员

PyTorch 基金会,一个中立的家,为深度学习社区提供一个合作的开源 PyTorch 框架和生态系统的平台,今天宣布 Snowflake 已加入为普通成员。Snowflake 使成千上万的组织能够统一孤岛数据,发现并安全地共享数据,推动数据应用,并在多个云和地理区域执行多样化的 AI/ML 和数据分析工作负载。“加入 PyTorch 社区后,我们知道 Snowflake 将有助于加速……”

阅读更多

2023 年 11 月 30 日

加速生成式 AI 的 PyTorch II:GPT,快速

本文是关于如何使用纯、原生的 PyTorch 加速生成式 AI 模型的系列博客的第二部分。我们很高兴分享一系列新发布的 PyTorch 性能特性以及实际示例,以展示我们可以将 PyTorch 原生性能提升到何种程度。在第一部分中,我们展示了如何仅使用纯、原生的 PyTorch 将 Segment Anything 加速超过 8 倍。在本篇博客中,我们将关注LLM优化。在过去的一年里,生成式 AI 的应用案例激增……

阅读更多