Blog | 9 of 32 | PyTorch

2024 年 5 月 1 日

使用 Triton 内核加速 Llama3 FP8 推理

1.0 摘要：我们提出了一种优化的 Triton FP8 GEMM（通用矩阵-矩阵乘法）内核 TK-GEMM，该内核利用 SplitK 并行化。对于小批量大小推理，TK-GEMM 比基础 Triton matmul 实现快 1.94 倍，比 cuBLAS FP8 快 1.87 倍，比 cuBLAS FP16 快 1.71 倍，在 NVIDIA H100 GPU 上针对 Llama3-70B 推理问题大小。图 1. TK-GEMM 在 Llama3-70B 注意力层矩阵形状（N=K=8192）上相对于 PyTorch（调用 cuBLAS）的加速。在这篇博客中，我们将讨论我们与 Arm、Apple 和 Qualcomm Technologies, Inc.的合作伙伴合作推出的 0.1（预览）版本，以及我们对 Meta 的 Llama 2 的全面支持，对 Meta 的 Llama 3 的早期支持，ExecuTorch 中的广泛模型支持，以及我们改进的安装流程。

2024 年 4 月 30 日

ExecuTorch Alpha：与我们的社区和合作伙伴一起将LLMs和 AI 推向边缘

我们很高兴地宣布 ExecuTorch alpha 版本的发布，该版本专注于将大型语言模型（LLMs）和大型 ML 模型部署到边缘，稳定 API 界面，并改进我们的安装流程。从我们与 Arm、Apple 和 Qualcomm Technologies, Inc.的合作伙伴合作推出的 0.1（预览）版本以来，这几个月来一直非常激动人心。在这篇文章中，我们将讨论我们对 Meta 的 Llama 2 的全面支持，对 Meta 的 Llama 3 的早期支持，ExecuTorch 中的广泛模型支持，以及我们改进的安装流程。

2024 年 4 月 24 日

PyTorch 2.3 版本发布博客

我们非常高兴地宣布 PyTorch® 2.3（发布说明）的发布！PyTorch 2.3 支持在 torch.compile 中使用用户定义的 Triton 内核，使用户能够在不经历性能下降或图断裂的情况下，从 eager 迁移自己的 Triton 内核。张量并行性通过原生 PyTorch 函数提升了训练大型语言模型的使用体验，这在 100B 参数模型的训练运行中得到了验证。此外，半结构化稀疏实现...

2024 年 4 月 16 日

torchtune：使用 PyTorch 轻松微调LLMs

我们很高兴宣布 torchtune 的 alpha 版本发布，这是一个用于轻松微调大型语言模型的 PyTorch 原生库。始终遵循 PyTorch 的设计原则，torchtune 提供了可组合和模块化的构建块以及易于扩展的训练食谱，以在各种消费级和专业级 GPU 上微调流行的LLMs。torchtune 支持从开始到结束的完整微调工作流程，包括下载和准备数据集和模型检查点...

2024 年 4 月 4 日

使用局部感知核设计加速 MoE 模型推理

通过实现列主序调度以提升数据局部性，我们证明了可以加速 MoEs（专家混合）的核心 Triton GEMM（通用矩阵-矩阵乘法）内核，在 A100 上最高可提升 4 倍，在 H100 Nvidia GPU 上最高可提升 4.4 倍。本文展示了 MoE GEMM 的多种不同工作分解和调度算法，并在硬件层面解释了为什么列主序调度能产生最高的加速效果。代码库和代码可在：https://github.com/py... 获取。

2024 年 3 月 13 日

使用 PyTorch FSDP 最大化训练吞吐量

在本文中，我们通过一个预训练示例展示了 FSDP 的可扩展性，该示例是一个训练了 2T 个 token 的 70 亿参数模型，并分享了我们所使用的各种技术，以实现每秒 3700 个 token/GPU 的快速训练速度，或在 128 个 A100 GPU 上每天训练 40B 个 token。这相当于模型 FLOPS 利用率（MFU）和硬件 FLOPS 利用率（HFU）为 57%。此外，我们还观察到 FSDP 在 512 个 GPU 上的接近线性扩展，这意味着使用这种方法在 512 个 GPU 上训练 70 亿参数模型到 2T 个 token 是可行的...

2024 年 2 月 6 日

PyTorch 2 论文和教程 @ ASPLOS 2024

PyTorch 团队激动地宣布，我们的关于 PyTorch 2 的论文已被接受在 ACM 国际架构支持编程语言和操作系统会议（ASPLOS）上展示，该会议将于 2024 年 4 月 27 日至 5 月 1 日在美国加州圣地亚哥举行。这篇论文深入探讨了 torch.compile 的实现，并突出了推动其发展的关键技术，包括 TorchDynamo（图捕获）、TorchInductor（后端编译器）和 Dynamic Shape 等...

宣布 PyTorch 文档马拉松将于 2024 年 6 月举行

使用 Triton 内核加速 Llama3 FP8 推理

ExecuTorch Alpha：与我们的社区和合作伙伴一起将LLMs和 AI 推向边缘

PyTorch 2.3 版本发布博客

torchtune：使用 PyTorch 轻松微调LLMs

使用局部感知核设计加速 MoE 模型推理

使用 PyTorch FSDP 最大化训练吞吐量

PyTorch 2 论文和教程 @ ASPLOS 2024

安装 PyTorch

快速入门与云合作伙伴

文档

教程

资源