Blog | 8 of 32 | PyTorch

2024 年 6 月 11 日

PyTorch 基金会欢迎新任执行董事

PyTorch 基金会非常高兴地欢迎 Matt White 加入我们，担任新的执行董事。PyTorch 基金会成立于 2022 年，旨在通过培养和维持一个以 PyTorch 为基础的开源、中立项目生态系统，推动 AI 工具的采用。在过去两年中，我们见证了项目在贡献者和成员方面的卓越增长。“我很荣幸成为 PyTorch 基金会的一员，与这样一个充满激情和技能的社区一起工作，”Matt 说...

2024 年 6 月 6 日

高效解码分组查询注意力（Grouped-Query Attention）与低精度 KV 缓存介绍生成式 AI 凭借其生成人类内容的能力而风靡全球。许多这些生成式 AI 工具由大型语言模型（LLMs）提供支持，如 Meta Llama 模型和 OpenAI 的 ChatGPT。LLMs的一个主要挑战是支持大的“上下文长度”（也称为“序列长度”）。上下文长度指的是模型使用的标记数量，以理解输入序列...

2024 年 6 月 4 日

准备，设置，贡献：PyTorch 文档马拉松启动 H1 2024

PyTorch 文档马拉松现已启动！此次活动致力于通过我们社区的无价帮助提升 PyTorch 文档的质量。我们希望通过这次文档马拉松简化新用户开始使用 PyTorch 的过程，指导他们有效利用其功能，并最终加速机器学习从研究到生产的过渡。加入 6 月 4 日 10 AM PT 的启动活动！活动详情：6 月 4 日：启动 - 加入 30 分钟的会议...

2024 年 5 月 21 日

使用 PyTorch FSDP 和 Torch.compile 最大化训练吞吐量

最近，我们展示了如何使用 FSDP 和选择性激活检查点技术，在 A100 GPU 上训练 7B 模型实现了 57%的 MFU（模型浮点运算利用率）。我们还展示了如何训练一个高质量的模型，并将其开源为 Granite 7B 基础模型，在 Hugging Face Hub 上以 Apache v2.0 许可证发布。我们继续通过利用 torch.compile 来提高 GPU 的利用率。使用 torch.compile 和之前提到的选择性激活检查点技术...

2024 年 5 月 15 日

使用 PyTorch 和 Intel AI 实现可持续发展目标

本篇帖子由英特尔人工智能与 PyTorch 基金会合作贡献。2017 年，联合国全球契约强调数字技术，特别是开源技术，对于实现可持续发展目标（SDGs）至关重要，预计到 2030 年将给科技行业带来 2.1 万亿美元的潜在增长。可持续发展目标（SDGs）是“2030 年可持续发展议程”的一部分，涵盖各个领域的全球繁荣。Linux 基金会的可持续发展倡议将项目与可持续发展目标相一致...

2024 年 5 月 14 日

使用块稀疏性加速 ViTs

TLDR：我们展示了通过在 A100 GPU 上的 float32 Vision Transformers 的 MLP 模块权重上应用块稀疏性，实现了高达 1.46 倍的速度提升，同时精度下降不到 2%的令人鼓舞的结果。这种方法可能适用于其他类型的 transformers，包括大型语言模型。我们的实现和复现结果的基准测试可在 https://github.com/pytorch-labs/superblock 找到。介绍 PyTorch 为实现 CUDA 内核带来了许多改进，这些内核实现了块稀疏性...

2024 年 5 月 2 日

《科幻解码指南》

推测解码是一种推理优化技术，在生成当前标记的同时，对未来的标记做出有根据的猜测，所有这些都在单次前向传递中完成。它包含一个验证机制来确保这些推测标记的正确性，从而保证推测解码的整体输出与普通解码相同。优化大型语言模型（LLMs）的推理成本可以说是最关键的因素之一...

通过 PyTorch 分布式异步检查点技术将模型检查点时间减少 10 倍以上

PyTorch 基金会欢迎新任执行董事

INT4 解码 GQA CUDA 优化LLM推理

准备，设置，贡献：PyTorch 文档马拉松启动 H1 2024

使用 PyTorch FSDP 和 Torch.compile 最大化训练吞吐量

使用 PyTorch 和 Intel AI 实现可持续发展目标

使用块稀疏性加速 ViTs

《科幻解码指南》

安装 PyTorch

快速入门与云合作伙伴

文档

教程

资源