Blog | 11 of 32

2023 年 12 月 19 日

理解 GPU 内存 2：查找和移除引用循环

这是《理解 GPU 内存》博客系列的第二部分。我们的第一篇博客《理解 GPU 内存 1：可视化所有分配随时间的变化》展示了如何使用内存快照工具。在本部分中，我们将使用内存快照来可视化由引用循环引起的 GPU 内存泄漏，然后使用引用循环检测器在我们的代码中定位并移除它们。有时当我们使用内存快照时，我们会看到类似这样的 GPU 内存图表。在这个快照中，...

2023 年 12 月 18 日

1. 引言 PyTorch 2.0（简称 PT2）可以通过使用名为 torch.compile 的编译器显著提高 AI 模型的训练和推理性能，同时与 PyTorch 1.x 保持 100%向后兼容。已有关于 PT2 如何提高常见基准测试（例如 huggingface 的 diffusers）性能的报道。在这篇博客中，我们讨论了在 Meta 将 PT2 应用于生产 AI 模型的经验。2. 背景 2.1 为什么自动性能优化很重要...

2023 年 12 月 15 日

通过性能赋能模型：通用模型变换方法的艺术

引言 PyTorch 2.0（PT2）提供了一种编译执行模式，该模式将 Python 字节码重写为提取 PyTorch 操作序列，将其转换为 Graph IR。然后，通过可定制的后端即时编译 IR，在不干扰用户的情况下提高训练性能。通常，生产模型可能需要经过多个优化/降低性能的阶段才能达到性能目标。因此，拥有编译模式是可取的，因为它可以将改进工作的任务分离出来...

2023 年 12 月 14 日

理解 GPU 内存 1：随时间可视化所有分配

在您使用 PyTorch 在 GPU 上的时间中，您可能已经熟悉了以下常见的错误信息：torch.cuda.OutOfMemoryError：CUDA 内存不足。尝试分配 512.00 MiB。GPU 0 总容量为 79.32 GiB，其中 401.56 MiB 可用。在这个系列中，我们展示了如何使用内存工具，包括内存快照、内存分析器和引用循环检测器来调试内存不足错误并提高内存使用。内存快照工具提供了细粒度的 GPU 内存...

2023 年 12 月 12 日

2023 年 PyTorch 大会：从恐龙到地震成像，英特尔

短讲 1：使用 OpenFWI 将地震数据转换为地下模型演讲者：本杰明·康索尔沃，英特尔 AI 软件工程经理，领英会话概述在本次会议中，本杰明首先概述了地震成像和全波形反演（FWI）。地震成像和 FWI 帮助我们探索陆地，寻找对人类繁荣至关重要的地下矿产资源。为了找到这些关键的地下矿产资源，我们需要以低成本、高精度地成像地下，...

2023 年 12 月 05 日

雪花加入 PyTorch 基金会，成为普通成员

PyTorch 基金会，一个中立的家，为深度学习社区提供一个合作的开源 PyTorch 框架和生态系统的平台，今天宣布 Snowflake 已加入为普通成员。Snowflake 使成千上万的组织能够统一孤岛数据，发现并安全地共享数据，推动数据应用，并在多个云和地理区域执行多样化的 AI/ML 和数据分析工作负载。“加入 PyTorch 社区后，我们知道 Snowflake 将有助于加速……”

2023 年 11 月 30 日

加速生成式 AI 的 PyTorch II：GPT，快速

本文是关于如何使用纯、原生的 PyTorch 加速生成式 AI 模型的系列博客的第二部分。我们很高兴分享一系列新发布的 PyTorch 性能特性以及实际示例，以展示我们可以将 PyTorch 原生性能提升到何种程度。在第一部分中，我们展示了如何仅使用纯、原生的 PyTorch 将 Segment Anything 加速超过 8 倍。在本篇博客中，我们将关注LLM优化。在过去的一年里，生成式 AI 的应用案例激增……

加速生成式 AI 第三部分：扩散、快速

理解 GPU 内存 2：查找和移除引用循环

使用 PyTorch 2.0 训练生产 AI 模型

通过性能赋能模型：通用模型变换方法的艺术

理解 GPU 内存 1：随时间可视化所有分配

2023 年 PyTorch 大会：从恐龙到地震成像，英特尔

雪花加入 PyTorch 基金会，成为普通成员

加速生成式 AI 的 PyTorch II：GPT，快速

安装 PyTorch

快速入门与云合作伙伴

文档

教程

资源