2025 年 2 月 5 日
在 PyTorch 中启用高级 GPU 功能 - Warp 专业化
元数据:于红涛,任曼曼,伯特·马赫,肖恩·奈 NVIDIA:朱古斯塔夫·朱,蒋书豪 在过去几个月里,我们一直在通过 Triton 编译器为 PyTorch 和 Triton 用户启用高级 GPU 功能。我们的一个关键目标是在 NVIDIA Hopper GPU 上引入 warp 专业化支持。今天,我们非常高兴地宣布,我们的努力已经导致全自动 Triton warp 专业化推出,即将在即将发布的版本中向用户开放...
2025 年 1 月 29 日
PyTorch 2.6 版本发布博客
我们很高兴地宣布 PyTorch® 2.6(发布说明)的发布!本版本为 PT2 带来了多项改进:torch.compile 现在可以与 Python 3.13 一起使用;新增性能相关控件 torch.compiler.set_stance;多个 AOTInductor 增强。除了 PT2 的改进之外,另一个亮点是在 X86 CPU 上支持 FP16。注意:从本版本开始,我们将不再在 Conda 上发布,请参阅[公告]弃用 PyTorch 的官方 Anaconda 频道...
2025 年 1 月 28 日
2025 年 PyTorch 技术顾问委员会(TAC)的优先事项
2024 年对 PyTorch 来说是一个令人难以置信的增长年。随着这一趋势在 2025 年持续,PyTorch 基金会已经在 Linux 基金会的中立供应商伞下推动项目治理的演变方面迈出了重要步伐。PyTorch 治理的一个重要组成部分是技术顾问委员会(TAC)。TAC 作为行业、包括但不限于 PyTorch 基金会成员、社区和 PyTorch 核心开发团队之间的桥梁。 ...
2025 年 1 月 24 日
英特尔如何利用 PyTorch 和英特尔 Arc GPU 赋能生成式 AI
英特尔一直是技术创新的前沿,其最近在生成式 AI(GenAI)解决方案方面的探索也不例外。随着 AI 驱动游戏体验的兴起,英特尔寻求为搭载英特尔最新 GPU 的 AI PC 提供易于访问和直观的 GenAI 推理解决方案。通过利用 PyTorch 作为开发工作的基础,英特尔成功推出了 AI 游乐场,这是一个开源应用程序,展示了先进的 GenAI 工作负载。 ...
2025 年 1 月 21 日
使用 GemLite、TorchAO 和 SGLang 加速LLM推理
大型语言模型(LLMs)通常非常资源密集,需要大量的内存、计算和电力才能有效运行。量化通过将权重和激活从 16 位浮点数降低到更低的比特率(例如,8 位、4 位、2 位)提供了解决方案,实现了显著的加速和内存节省,同时也支持更大的批量大小。现有的低精度推理解决方案对于小批量大小效果良好,但存在以下问题...
2025 年 1 月 14 日
PyTorch 2.5 在 Intel® Xeon®处理器上的 AI 加速
这篇博客是该系列第五篇,专注于使用纯原生的 PyTorch 加速生成式 AI 模型。我们展示了 GPTFast、Segment Anything Fast 和 Diffusion Fast 在 Intel® Xeon®处理器上的 AI 加速。首先,我们回顾了 GPTFast,这是一项令人瞩目的工作,它通过不到 1000 行原生 PyTorch 代码加快了文本生成速度。最初,GPTFast 只支持 CUDA 后端。我们将向您展示如何在 CPU 上运行 GPTFast,并通过权重...实现额外的性能提升。
2025 年 1 月 9 日
通过 PyTorch 多设备支持将 Ascend 后端与 Torchtune 集成
在这篇博客中,我们将简要介绍 torchtune、Ascend 后端,并演示如何使用 torchtune 结合 Ascend 进行模型微调。Torchtune 简介 Torchtune 是一个为 PyTorch 原生设计的库,旨在简化大型语言模型(LLMs)的微调。它忠实于 PyTorch 的设计原则,提供可组合和模块化的构建块,以及易于扩展的训练方案。torchtune 允许开发者使用不同的 tr...