2024 年 1 月 30 日
PyTorch 2.2:FlashAttention-v2 集成,AOTInductor
我们非常高兴地宣布 PyTorch® 2.2(发布说明)的发布!PyTorch 2.2 通过 FlashAttention-v2 集成,在 scaled_dot_product_attention 上提供了约 2 倍的性能提升,以及 AOTInductor,这是一个为非 Python 服务器端部署构建的新型的即时编译和部署工具。此版本还包括对 Optimizers 的 torch.compile 支持的改进、多项新的 inductor 优化以及名为 TORCH_LOGS 的新日志机制。请注意,我们正在...
2024 年 1 月 30 日
PyTorch 2.2 新版图书馆更新
摘要:我们为当前 PyTorch 库带来了许多改进,与 PyTorch 2.2 版本一同发布。这些更新展示了我们致力于开发跨所有领域的通用和可扩展的 API,以使我们的社区更容易在 PyTorch 上构建生态系统项目。最新稳定库版本(完整列表)* TorchArrow 0.1.0 TorchRec 0.6.0 TorchVision 0.17 TorchAudio 2.2.0 TorchServe 0.9.0 TorchX 0.7.0 ...
2024 年 1 月 23 日
使用 PyTorch 加速生成式 AI IV:无缝 M4T,快速
这篇文章是关于如何使用纯原生 PyTorch 加速生成式 AI 模型的系列博客的第四部分。要跳到代码部分,请查看我们的 GitHub(seamless_communication, fairseq2)。我们很高兴与大家分享一系列新发布的 PyTorch 性能特性,并通过实际示例展示我们可以将 PyTorch 原生性能提升到何种程度。在第一部分中,我们展示了如何仅使用纯原生 PyTorch 将 Segment Anything 加速超过 8 倍。在第二部分中,我们展示了如何...
2024 年 1 月 18 日
使用 Intel Extension for PyTorch 的量化技术加速 PyTorch 模型
概述 PyTorch 是一个基于 Python 的深度学习模型开发框架。它是最受欢迎的行业标准 AI 框架之一,被广泛应用于计算机视觉和自然语言处理等应用。PyTorch 由 Meta 开发,现在是 Linux 基金会的成员。英特尔与开源 PyTorch 项目合作,优化 PyTorch 框架以适应 Intel®硬件。最新的优化和功能首先在 Intel® Extension for ...
2024 年 1 月 16 日
加速 Triton Dequantization Kernels for GPTQ
TL;DR 通过一种基于原理的方法,我们展示了逐步加速当前 Triton GPTQ 内核的过程,使其速度提高 3 倍(核心 GPTQ)和 6 倍(AutoGPTQ)。例如:在典型的 Llama 风格推理输入上,从 275us 减少到 47us。目标是提供一个加速任何给定 Triton 内核的有用模板。我们提供了关于 Triton 和 GPTQ 量化和反量化的背景介绍,展示了合并内存访问对提高共享和全局内存吞吐量的影响...
2024 年 1 月 10 日
在自己的消费级硬件上使用 PyTorch 和 Hugging Face 生态系统中的工具进行LLMs微调
我们展示了如何使用 LoRA 和 PyTorch 以及 Hugging Face 生态系统中的工具,在一个典型的消费级 GPU(NVIDIA T4 16GB)上微调一个 7B 参数的模型,并附带一个可复现的完整的 Google Colab 笔记本。大型语言模型(LLMs)在工业应用中展示了令人印象深刻的性能。通常,开发者会寻求针对特定用例和应用程序对它们进行定制,以微调它们以获得更好的性能。然而,LLMs的设计本身就是大型的,需要大量的...
2024 年 1 月 9 日
使用 Amazon SageMaker 多模型端点和 TorchServe 加速 GPU 上的 AI 模型,推理成本可节省高达 75%
多模型端点(MME)是 Amazon SageMaker 的一个强大功能,旨在简化机器学习(ML)模型的部署和操作。使用 MME,您可以在单个服务容器上托管多个模型,并将所有模型托管在单个端点后面。SageMaker 平台自动管理模型的加载和卸载,并根据流量模式调整资源,从而减轻管理大量模型的操作负担。此功能是部分...