2023 年 10 月 17 日

华为加入 PyTorch 基金会成为高级会员

今天,PyTorch 基金会,一个为深度学习社区提供开放源代码 PyTorch 框架和生态系统协作的中立家园,宣布华为成为首倡会员。华为一直是 PyTorch 生态系统的长期支持者和贡献者,通过发布渐进式多样化计算,为更多硬件供应商提供了更便捷的 PyTorch 生态系统访问途径。通过成为首倡会员,华为将继续优化 PyTorch,以...

阅读更多

2023 年 10 月 17 日

通过 torch.compile 将 NumPy 代码编译成 C++或 CUDA

Quansight 工程师已在 PyTorch 2.1 中实现了通过 torch.compile 对 NumPy 代码进行追踪的支持。此功能利用 PyTorch 的编译器生成高效的融合向量化代码,无需修改您的原始 NumPy 代码。更重要的是,它还允许在 torch.device("cuda")下通过运行 torch.compile 来在 CUDA 上执行 NumPy 代码!在这篇文章中,我们将介绍如何使用此功能,并提供一些技巧和窍门,帮助您充分利用它。编译...

阅读更多

2023 年 10 月 13 日

长上下文推理的 Flash 解码

动机 大型语言模型(如 ChatGPT 或 Llama)最近受到了前所未有的关注。然而,它们的运行成本仍然非常高。即使生成单个响应可能只需花费约 0.01 美元(在 AWS 上 8xA100 实例上运行几秒钟),当扩展到数十亿用户时,这些用户的每日互动可能涉及多个这样的LLMs,成本会迅速增加。一些用例的成本更高,例如代码自动补全,因为它在每次输入新字符时都会运行...

阅读更多

2023 年 10 月 11 日

ML 模型服务器资源节省 - 从高成本 GPU 转向 Intel CPU 和 oneAPI 软件,实现性能提升

审稿人:Yunsang Ju(Naver GplaceAI 负责人)、Min Jean Cho(英特尔)、Jing Xu(英特尔)、Mark Saroufim(Meta)简介 在这里,我们将分享我们将 AI 工作负载从我们的 GPU 服务器迁移到我们的英特尔 CPU 服务器,而没有任何性能或质量下降的经验,并在过程中节省了约 34 万美元的年度成本(参见结论)。我们旨在通过提供各种增强在线到离线(O2O)体验的 AI 模型,为我们的消费者提供价值...

阅读更多

2023 年 10 月 10 日

实时音视频语音识别

音视频语音识别(AV-ASR,或 AVSR)是从音频和视觉流中转录文本的任务,由于其抗噪声能力而近年来吸引了大量研究关注。迄今为止的大多数工作都集中在开发用于非流式识别的 AV-ASR 模型;对流式 AV-ASR 的研究非常有限。我们开发了一个基于 TorchAudio 的紧凑型实时语音识别系统,TorchAudio 是一个用于音频和信号处理的 PyTorch 库。我...

阅读更多

2023 年 10 月 04 日

PyTorch 2.1:自动动态形状编译、分布式检查点

我们很高兴地宣布 PyTorch® 2.1(发布说明)的发布!PyTorch 2.1 提供了 torch.compile 中的自动动态形状支持,torch.distributed.checkpoint 用于在多个 rank 上并行保存/加载分布式训练作业,以及 torch.compile 对 NumPy API 的支持。此外,本版本还提供了许多性能改进(例如 CPU 感应器改进、AVX512 支持、scaled-dot-product-attention 支持),以及 torch.export 的原型发布,它是一个...

阅读更多

2023 年 10 月 4 日

PyTorch 2.1 中的新库更新

总结:我们将在 PyTorch 2.1 版本发布的同时,对当前 PyTorch 库进行多项改进。这些更新展示了我们致力于开发跨所有领域的通用和可扩展的 API,以使我们的社区更容易在 PyTorch 上构建生态系统项目。此外,我们还发布了 PyTorch 领域库(包括 TorchAudio 和 TorchVision)的一系列 beta 更新。以下是最新稳定版本和更新的列表。

阅读更多