2023 年 11 月 16 日

🎉 PyTorch 文档马拉松 H2 2023 总结 🎉

我们非常高兴地宣布,2023 年秋季 PyTorch 文档马拉松圆满成功!此次活动取得了巨大成功,我们衷心感谢所有使活动成为可能的参与者。我们开源贡献者的奉献、专业知识和不懈努力再次帮助我们改进了 PyTorch 文档。这次文档马拉松从 11 月 1 日持续到 11 月 15 日,共有 170 多名注册者。现场的氛围和热情是显而易见的,参赛者被评判为...

阅读更多

2023 年 11 月 16 日

使用 PyTorch 加速生成式 AI:Segment Anything,快速

本文是关于如何使用纯原生 PyTorch 加速生成式 AI 模型的系列博客的第一部分。我们兴奋地分享了一系列新发布的 PyTorch 性能特性,以及如何将这些特性结合起来进行实际示例,以展示我们可以将 PyTorch 原生性能提升到何种程度。正如在 2023 年 PyTorch 开发者大会上宣布的那样,PyTorch 团队重新编写了 Meta 的 Segment Anything(“SAM”)模型,其代码速度比原始版本快 8 倍...

阅读更多

2023 年 11 月 7 日

将 PyTorch 编译以加速 Llama 2 推理

在本文中,我们讨论了如何使用 PyTorch 原生优化(如原生快速内核、torch compile 的编译转换和用于分布式推理的张量并行)来提高 Llama 2 系列模型的推理延迟。我们的方法使得在 70B LLaMa 模型上(在 8 个 A100 GPU 上测量)的单用户请求延迟达到 29ms/token。我们非常高兴与社区分享我们的发现,并将我们的代码在此处提供。背景:我们正处于一个生成...

阅读更多

2023 年 11 月 6 日

高性能 Llama 2 使用 PyTorch/XLA 在云 TPU 上的训练和推理

在人工智能创新以前所未有的速度加速发展的背景下,Meta 的 Llama 系列开源大型语言模型(LLMs)脱颖而出,成为一项显著的突破。Llama 标志着LLMs的一个重要进步,展示了预训练架构在广泛应用中的力量。Llama 2 进一步推动了规模和能力边界,激发了语言理解、生成等方面的进步。在 Llama 宣布后不久,...

阅读更多

2023 年 11 月 2 日

使用 oneDNN Graph 在 x86-64 机器上加速推理

支持在 PyTorch 2.0 中作为 Beta 功能使用,oneDNN Graph 利用激进的融合模式来加速 x86-64 机器上的推理,尤其是在 Intel® Xeon® Scalable 处理器上。oneDNN Graph API 通过灵活的图 API 扩展 oneDNN,以最大化生成 AI 硬件上高效代码的优化机会。它自动识别需要通过融合加速的图分区。融合模式专注于融合计算密集型操作,如卷积、矩阵乘法等。

阅读更多

2023 年 10 月 31 日

AMD 通过 ROCm™ 5.7 扩展了对在选定的 RDNA™ 3 GPU 上使用 PyTorch 进行机器学习开发的支持

使用 PyTorch 进行机器学习模型和算法研究的研发人员现在可以使用 AMD ROCm 5.7 在 Ubuntu® Linux®上,利用基于 AMD RDNA™ 3 GPU 架构的 Radeon™ RX 7900 XTX 和 Radeon™ PRO W7900 显卡的并行计算能力。基于这两款高端 GPU 构建的客户端解决方案,为那些之前依赖云解决方案的人提供了一种本地、私有且成本效益高的机器学习训练和推理工作流程。

阅读更多

2023 年 10 月 17 日

PyTorch Edge:借助 ExecuTorch 在移动和边缘设备上实现设备端推理——Arm、Apple 和 Qualcomm Innovation Center 等行业领导者鼎力支持

我们非常高兴地宣布推出 ExecuTorch,这是我们全新解决方案,旨在在移动和边缘设备上实现设备端推理能力,并得到 Arm、Apple 和 Qualcomm Innovation Center 等行业领导者的支持。作为 PyTorch Edge 对未来设备端 AI 堆栈和生态系统的愿景的一部分,ExecuTorch 解决了设备端 AI 生态系统的碎片化问题。它提供了一个设计,提供了无缝第三方集成的扩展点,以加速机器学习模型在...

阅读更多