2025 年 3 月 19 日
PyTorch Day China 2025 征稿启事开放
我们非常激动地宣布首届 PyTorch Day China!这个由 PyTorch 基金会主办的新活动将于 6 月 7 日在北京中国举行,将汇集 AI 从业者、研究人员和行业专业人士,共同探讨开源 AI 和机器学习的最新进展。与 BAAI 大会同期举办,PyTorch Day China 是结识社区、分享知识和塑造深度学习未来的良机。为什么提交提案?PyTorch...
2025 年 3 月 13 日
新的 PyTorch 景观介绍:您的 PyTorch 生态系统指南
我们非常激动地揭晓我们全新的 PyTorch 景观。PyTorch 景观帮助研究人员、开发者和组织轻松找到有用的、经过精选的、社区共建的工具,这些工具可以增强 PyTorch 核心框架。景观提供的内容景观将项目视觉组织为三个类别——建模、训练和优化——使查找相关框架、库和项目变得容易。用户可以快速找到针对各种用例的精选、有价值的工具...
2025 年 3 月 11 日
使用 2D 稀疏并行性将推荐系统训练扩展到数千个 GPU
在 Meta,推荐系统是全球向数十亿用户提供相关和个性化广告的基础。通过 PyTorch 的 TorchRec 等技术,我们已经成功开发了能够跨数百个 GPU 进行模型训练的解决方案。虽然这些系统为我们服务得很好,但最近关于扩展定律的研究揭示了一个令人信服的机会:通过训练大大更大的神经网络,我们可以实现显著更好的模型性能。然而,这种扩展...
2025 年 3 月 6 日
极致性能,最小化内存:使用 torch.compile 和 Liger 内核优化 torchtune 的性能
领英:Shivam Sahni,Byron Hsu,Yanning Chen Meta:Ankith Gunapal,Evan Smothers 本博客探讨了自定义 triton 内核 Liger 内核与 torch.compile 的集成,以增强 torchtune 在 fine-tuning 大型语言模型(LLMs)时的性能。torchtune 是一个 PyTorch 原生库,提供模块化构建块和可定制的微调配方,其中包括对各种LLMs的 torch.compile 支持,而 Liger 内核则提供了优化的 Triton 内核以改善训练...
2025 年 3 月 5 日
PyTorch 中当前和新激活的检查点技术
随着模型在深度、批大小和序列长度等方面扩展,激活内存成为整体内存使用中越来越重要的贡献者。为了帮助解决这个问题,PyTorch 提供了激活检查点的实用工具,通过在需要时重新计算它们来减少保存的张量数量,以内存使用为代价换取额外的计算。在这篇文章中,我们将介绍激活内存的基本概念,以及现有激活检查点背后的高级思想...
2025 年 3 月 4 日
📣 投稿演讲 PyTorch 会议 + 注册优惠
踏入 PyTorch 会议 2025 的 AI 未来。PyTorch 会议 2025 的提案征集正式开启!2025 年 10 月 22 日至 23 日,我们在旧金山与您相聚,展示您在 PyTorch 上的专业知识和创新——PyTorch 是行业领先的、开源的机器学习框架,从裸机基础设施到复杂的应用和代理层,推动着创新。这是您与全球观众分享见解、突破和案例研究的良机...
2025 年 2 月 26 日
使用 PyTorch 加速生成式 AI:Segment Anything 2 - 快速且高效的推理,低延迟和快速冷启动
本文是关于如何使用纯原生的 PyTorch 加速生成式 AI 模型的多系列博客的第一篇后续文章,重点关注延迟和弹性可伸缩性。我们使用 torch.compile 和 torch.export 创建高度优化的低延迟版本的 SAM2,可以在新实例上快速扩展。通过利用 AOTInductor(AOTI)的 torch.export 前向编译、降低精度、批量提示和 GPU 预处理,我们观察到性能提高了高达 13 倍...