2024 年 12 月 23 日

PyTorch 成为 AI 和 ML 领域主导的开源框架:2024 年年度回顾

过去一年对 PyTorch 来说是一个里程碑式的一年,从重大发布到标志性的 PyTorch 大会。我们看到了来自 3500 多名个人和 3000 多家组织的令人难以置信的增长。可以肯定地说,PyTorch 现在已经成为 AI/ML 领域的主导深度学习框架。根据 Linux 基金会最近发布的《塑造生成式 AI 未来》报告,PyTorch 在模型训练领域以 63%的采用率领先。PyTorch 基金会成立于 2...

阅读更多

2024 年 12 月 20 日

在 AWS Graviton 处理器上使用 torch.compile 提高 RAG 性能

大型语言模型(LLMs)在大量数据上训练,并使用数十亿参数来支持回答问题、翻译语言和完成句子等任务。在使用LLMs时存在一些挑战,例如领域知识差距、事实性问题以及幻觉,这些问题影响了它们的可靠性,尤其是在需要高度准确性的领域,如医疗保健、法律或工程。检索增强生成(RAG)提供了一种解决方案...

阅读更多

2024 年 12 月 11 日

torchcodec:PyTorch 视频解码的简单高效方式

我们很高兴正式宣布 torchcodec,这是一个将视频解码为 PyTorch 张量的库。它运行速度快、准确且易于使用。当在视频上运行 PyTorch 模型时,torchcodec 是我们推荐的将视频转换为模型可使用的数据的方法。torchcodec 的亮点包括:直观的解码 API,将视频文件视为 Python 帧序列。我们支持基于索引和基于展示时间的帧检索。注重准确性:我们确保...

阅读更多

2024 年 12 月 06 日

加速 Triton 中 2D 动态块量化 Float8 GEMMs

2D 块量化 Float8(FP8)在提高 Float8 量化精度的同时,还能加速 GEMM 的推理和训练过程。在这篇博客中,我们展示了使用 Triton 在执行块量化 Float8 GEMM 的两个主要阶段中的进展。对于将 A 和 B 张量从高精度(BFloat16)量化到 Float8 的过程,我们展示了 GridQuant,它利用了微型网格步进循环式的处理方式,几乎实现了 2 倍的速度提升(99.31%)...

阅读更多

2024 年 12 月 02 日

HadaCore:Tensor Core 加速 Hadamard 变换内核

量化是一种通过压缩模型权重并在较低精度数据类型中执行(更快)计算来提高模型推理速度的方法。然而,由于异常值的存在,量化可能会导致精度损失。

阅读更多

2024 年 11 月 25 日

使用 float8 和 FSDP2 超级加速训练

在本文中,我们将展示如何在训练过程中实现高达 50%的吞吐量速度提升,同时保持与 FSDP1 bf16 训练的损失和评估基准一致性

阅读更多

2024 年 11 月 21 日

Rebellions 加入 PyTorch 基金会成为普通成员

PyTorch 基金会,一个中立的家,为深度学习社区提供一个合作平台,共同开发开源的 PyTorch 框架和生态系统,今天宣布 Rebellions 已加入成为普通成员。

阅读更多