2024 年 6 月 11 日

PyTorch 基金会欢迎新任执行董事

PyTorch 基金会非常高兴地欢迎 Matt White 加入我们,担任新的执行董事。PyTorch 基金会成立于 2022 年,旨在通过培养和维持一个以 PyTorch 为基础的开源、中立项目生态系统,推动 AI 工具的采用。在过去两年中,我们见证了项目在贡献者和成员方面的卓越增长。“我很荣幸成为 PyTorch 基金会的一员,与这样一个充满激情和技能的社区一起工作,”Matt 说...

阅读更多

2024 年 6 月 6 日

INT4 解码 GQA CUDA 优化LLM推理

高效解码分组查询注意力(Grouped-Query Attention)与低精度 KV 缓存介绍生成式 AI 凭借其生成人类内容的能力而风靡全球。许多这些生成式 AI 工具由大型语言模型(LLMs)提供支持,如 Meta Llama 模型和 OpenAI 的 ChatGPT。LLMs的一个主要挑战是支持大的“上下文长度”(也称为“序列长度”)。上下文长度指的是模型使用的标记数量,以理解输入序列...

阅读更多

2024 年 6 月 4 日

准备,设置,贡献:PyTorch 文档马拉松启动 H1 2024

PyTorch 文档马拉松现已启动!此次活动致力于通过我们社区的无价帮助提升 PyTorch 文档的质量。我们希望通过这次文档马拉松简化新用户开始使用 PyTorch 的过程,指导他们有效利用其功能,并最终加速机器学习从研究到生产的过渡。加入 6 月 4 日 10 AM PT 的启动活动!活动详情:6 月 4 日:启动 - 加入 30 分钟的会议...

阅读更多

2024 年 5 月 21 日

使用 PyTorch FSDP 和 Torch.compile 最大化训练吞吐量

最近,我们展示了如何使用 FSDP 和选择性激活检查点技术,在 A100 GPU 上训练 7B 模型实现了 57%的 MFU(模型浮点运算利用率)。我们还展示了如何训练一个高质量的模型,并将其开源为 Granite 7B 基础模型,在 Hugging Face Hub 上以 Apache v2.0 许可证发布。我们继续通过利用 torch.compile 来提高 GPU 的利用率。使用 torch.compile 和之前提到的选择性激活检查点技术...

阅读更多

2024 年 5 月 15 日

使用 PyTorch 和 Intel AI 实现可持续发展目标

本篇帖子由英特尔人工智能与 PyTorch 基金会合作贡献。2017 年,联合国全球契约强调数字技术,特别是开源技术,对于实现可持续发展目标(SDGs)至关重要,预计到 2030 年将给科技行业带来 2.1 万亿美元的潜在增长。可持续发展目标(SDGs)是“2030 年可持续发展议程”的一部分,涵盖各个领域的全球繁荣。Linux 基金会的可持续发展倡议将项目与可持续发展目标相一致...

阅读更多

2024 年 5 月 14 日

使用块稀疏性加速 ViTs

TLDR:我们展示了通过在 A100 GPU 上的 float32 Vision Transformers 的 MLP 模块权重上应用块稀疏性,实现了高达 1.46 倍的速度提升,同时精度下降不到 2%的令人鼓舞的结果。这种方法可能适用于其他类型的 transformers,包括大型语言模型。我们的实现和复现结果的基准测试可在 https://github.com/pytorch-labs/superblock 找到。介绍 PyTorch 为实现 CUDA 内核带来了许多改进,这些内核实现了块稀疏性...

阅读更多

2024 年 5 月 2 日

《科幻解码指南》

推测解码是一种推理优化技术,在生成当前标记的同时,对未来的标记做出有根据的猜测,所有这些都在单次前向传递中完成。它包含一个验证机制来确保这些推测标记的正确性,从而保证推测解码的整体输出与普通解码相同。优化大型语言模型(LLMs)的推理成本可以说是最关键的因素之一...

阅读更多