Blog | 10 of 32

2024 年 1 月 30 日

PyTorch 2.2：FlashAttention-v2 集成，AOTInductor

我们非常高兴地宣布 PyTorch® 2.2（发布说明）的发布！PyTorch 2.2 通过 FlashAttention-v2 集成，在 scaled_dot_product_attention 上提供了约 2 倍的性能提升，以及 AOTInductor，这是一个为非 Python 服务器端部署构建的新型的即时编译和部署工具。此版本还包括对 Optimizers 的 torch.compile 支持的改进、多项新的 inductor 优化以及名为 TORCH_LOGS 的新日志机制。请注意，我们正在...

2024 年 1 月 30 日

PyTorch 2.2 新版图书馆更新

摘要：我们为当前 PyTorch 库带来了许多改进，与 PyTorch 2.2 版本一同发布。这些更新展示了我们致力于开发跨所有领域的通用和可扩展的 API，以使我们的社区更容易在 PyTorch 上构建生态系统项目。最新稳定库版本（完整列表）* TorchArrow 0.1.0 TorchRec 0.6.0 TorchVision 0.17 TorchAudio 2.2.0 TorchServe 0.9.0 TorchX 0.7.0 ...

2024 年 1 月 23 日

使用 PyTorch 加速生成式 AI IV：无缝 M4T，快速

这篇文章是关于如何使用纯原生 PyTorch 加速生成式 AI 模型的系列博客的第四部分。要跳到代码部分，请查看我们的 GitHub（seamless_communication, fairseq2）。我们很高兴与大家分享一系列新发布的 PyTorch 性能特性，并通过实际示例展示我们可以将 PyTorch 原生性能提升到何种程度。在第一部分中，我们展示了如何仅使用纯原生 PyTorch 将 Segment Anything 加速超过 8 倍。在第二部分中，我们展示了如何...

2024 年 1 月 18 日

使用 Intel Extension for PyTorch 的量化技术加速 PyTorch 模型

概述 PyTorch 是一个基于 Python 的深度学习模型开发框架。它是最受欢迎的行业标准 AI 框架之一，被广泛应用于计算机视觉和自然语言处理等应用。PyTorch 由 Meta 开发，现在是 Linux 基金会的成员。英特尔与开源 PyTorch 项目合作，优化 PyTorch 框架以适应 Intel®硬件。最新的优化和功能首先在 Intel® Extension for ...

2024 年 1 月 16 日

加速 Triton Dequantization Kernels for GPTQ

TL;DR 通过一种基于原理的方法，我们展示了逐步加速当前 Triton GPTQ 内核的过程，使其速度提高 3 倍（核心 GPTQ）和 6 倍（AutoGPTQ）。例如：在典型的 Llama 风格推理输入上，从 275us 减少到 47us。目标是提供一个加速任何给定 Triton 内核的有用模板。我们提供了关于 Triton 和 GPTQ 量化和反量化的背景介绍，展示了合并内存访问对提高共享和全局内存吞吐量的影响...

2024 年 1 月 10 日

在自己的消费级硬件上使用 PyTorch 和 Hugging Face 生态系统中的工具进行LLMs微调

我们展示了如何使用 LoRA 和 PyTorch 以及 Hugging Face 生态系统中的工具，在一个典型的消费级 GPU（NVIDIA T4 16GB）上微调一个 7B 参数的模型，并附带一个可复现的完整的 Google Colab 笔记本。大型语言模型（LLMs）在工业应用中展示了令人印象深刻的性能。通常，开发者会寻求针对特定用例和应用程序对它们进行定制，以微调它们以获得更好的性能。然而，LLMs的设计本身就是大型的，需要大量的...

2024 年 1 月 9 日

使用 Amazon SageMaker 多模型端点和 TorchServe 加速 GPU 上的 AI 模型，推理成本可节省高达 75%

多模型端点（MME）是 Amazon SageMaker 的一个强大功能，旨在简化机器学习（ML）模型的部署和操作。使用 MME，您可以在单个服务容器上托管多个模型，并将所有模型托管在单个端点后面。SageMaker 平台自动管理模型的加载和卸载，并根据流量模式调整资源，从而减轻管理大量模型的操作负担。此功能是部分...

PyTorch 文档中的新增内容

PyTorch 2.2：FlashAttention-v2 集成，AOTInductor

PyTorch 2.2 新版图书馆更新

使用 PyTorch 加速生成式 AI IV：无缝 M4T，快速

使用 Intel Extension for PyTorch 的量化技术加速 PyTorch 模型

加速 Triton Dequantization Kernels for GPTQ

在自己的消费级硬件上使用 PyTorch 和 Hugging Face 生态系统中的工具进行LLMs微调

使用 Amazon SageMaker 多模型端点和 TorchServe 加速 GPU 上的 AI 模型，推理成本可节省高达 75%

安装 PyTorch

快速入门与云合作伙伴

文档

教程

资源