2024 年 5 月 1 日

使用 Triton 内核加速 Llama3 FP8 推理

1.0 摘要:我们提出了一种优化的 Triton FP8 GEMM(通用矩阵-矩阵乘法)内核 TK-GEMM,该内核利用 SplitK 并行化。对于小批量大小推理,TK-GEMM 比基础 Triton matmul 实现快 1.94 倍,比 cuBLAS FP8 快 1.87 倍,比 cuBLAS FP16 快 1.71 倍,在 NVIDIA H100 GPU 上针对 Llama3-70B 推理问题大小。图 1. TK-GEMM 在 Llama3-70B 注意力层矩阵形状(N=K=8192)上相对于 PyTorch(调用 cuBLAS)的加速。在这篇博客中,我们将讨论我们与 Arm、Apple 和 Qualcomm Technologies, Inc.的合作伙伴合作推出的 0.1(预览)版本,以及我们对 Meta 的 Llama 2 的全面支持,对 Meta 的 Llama 3 的早期支持,ExecuTorch 中的广泛模型支持,以及我们改进的安装流程。

阅读更多

2024 年 4 月 30 日

ExecuTorch Alpha:与我们的社区和合作伙伴一起将LLMs和 AI 推向边缘

我们很高兴地宣布 ExecuTorch alpha 版本的发布,该版本专注于将大型语言模型(LLMs)和大型 ML 模型部署到边缘,稳定 API 界面,并改进我们的安装流程。从我们与 Arm、Apple 和 Qualcomm Technologies, Inc.的合作伙伴合作推出的 0.1(预览)版本以来,这几个月来一直非常激动人心。在这篇文章中,我们将讨论我们对 Meta 的 Llama 2 的全面支持,对 Meta 的 Llama 3 的早期支持,ExecuTorch 中的广泛模型支持,以及我们改进的安装流程。

阅读更多

2024 年 4 月 24 日

PyTorch 2.3 版本发布博客

我们非常高兴地宣布 PyTorch® 2.3(发布说明)的发布!PyTorch 2.3 支持在 torch.compile 中使用用户定义的 Triton 内核,使用户能够在不经历性能下降或图断裂的情况下,从 eager 迁移自己的 Triton 内核。张量并行性通过原生 PyTorch 函数提升了训练大型语言模型的使用体验,这在 100B 参数模型的训练运行中得到了验证。此外,半结构化稀疏实现...

阅读更多

2024 年 4 月 16 日

torchtune:使用 PyTorch 轻松微调LLMs

我们很高兴宣布 torchtune 的 alpha 版本发布,这是一个用于轻松微调大型语言模型的 PyTorch 原生库。始终遵循 PyTorch 的设计原则,torchtune 提供了可组合和模块化的构建块以及易于扩展的训练食谱,以在各种消费级和专业级 GPU 上微调流行的LLMs。torchtune 支持从开始到结束的完整微调工作流程,包括下载和准备数据集和模型检查点...

阅读更多

2024 年 4 月 4 日

使用局部感知核设计加速 MoE 模型推理

通过实现列主序调度以提升数据局部性,我们证明了可以加速 MoEs(专家混合)的核心 Triton GEMM(通用矩阵-矩阵乘法)内核,在 A100 上最高可提升 4 倍,在 H100 Nvidia GPU 上最高可提升 4.4 倍。本文展示了 MoE GEMM 的多种不同工作分解和调度算法,并在硬件层面解释了为什么列主序调度能产生最高的加速效果。代码库和代码可在:https://github.com/py... 获取。

阅读更多

2024 年 3 月 13 日

使用 PyTorch FSDP 最大化训练吞吐量

在本文中,我们通过一个预训练示例展示了 FSDP 的可扩展性,该示例是一个训练了 2T 个 token 的 70 亿参数模型,并分享了我们所使用的各种技术,以实现每秒 3700 个 token/GPU 的快速训练速度,或在 128 个 A100 GPU 上每天训练 40B 个 token。这相当于模型 FLOPS 利用率(MFU)和硬件 FLOPS 利用率(HFU)为 57%。此外,我们还观察到 FSDP 在 512 个 GPU 上的接近线性扩展,这意味着使用这种方法在 512 个 GPU 上训练 70 亿参数模型到 2T 个 token 是可行的...

阅读更多

2024 年 2 月 6 日

PyTorch 2 论文和教程 @ ASPLOS 2024

PyTorch 团队激动地宣布,我们的关于 PyTorch 2 的论文已被接受在 ACM 国际架构支持编程语言和操作系统会议(ASPLOS)上展示,该会议将于 2024 年 4 月 27 日至 5 月 1 日在美国加州圣地亚哥举行。这篇论文深入探讨了 torch.compile 的实现,并突出了推动其发展的关键技术,包括 TorchDynamo(图捕获)、TorchInductor(后端编译器)和 Dynamic Shape 等...

阅读更多