由 NVIDIA PyTorch 团队

GTC 将于 2025 年 3 月 17 日至 21 日回归圣何塞。加入 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及成千上万的开发者,与我们共同庆祝 PyTorch。一起学习人工智能和加速计算如何帮助人类解决我们最复杂的挑战。

以优惠的 GTC 注册费加入现场,或免费注册在线观看。

book cover

扩展开源 AI:从基础模型到生态系统成功

倾听 PyTorch 基金会执行董事 Matt White 以及来自加州大学伯克利分校、Meta、NVIDIA 和红杉资本的专家们如何讨论开源正在如何改变 AI 开发,将来自行业、学术界和风险投资的专家聚集在一起,讨论协作开源 AI 开发的各个方面。他们将探讨 PyTorch、vLLM、Ray 和 NVIDIA 的 NeMo 等开源项目如何加速 AI 创新,同时为企业和研究人员创造新的机会。他们将分享 PyTorch 的开发、伯克利的研发项目和成功的 AI 初创企业的真实世界经验。从开源 AI 的技术和商业方面获得宝贵的见解。- 周一,3 月 17 日 上午 10:00 - 11:00 PDT

PyTorch @ GTC

基于 CUDA 的性能与 PyTorch 的灵活性
马克·萨拉菲姆,软件工程师,Meta Platforms

本演讲探讨了 PyTorch 用户如何也成为 CUDA 开发者。我们将从 eager、torch.compile 的发布以及最近的内核动物园趋势等激励性示例开始。我们将分享如何在 torchao 中集成低精度矩阵乘法以及在 torch.compile 中集成 CUTLASS 后端的过程。我们还将讨论如何在 PyTorch 中定义、构建和打包自定义操作,以获得 CUDA 的原始性能同时保持 PyTorch 的灵活性。

让我的 PyTorch 模型运行更快,并展示你是如何做到的
托马斯·维汉,Lightning AI 首席研究工程师
卢卡·安蒂加,Lightning AI 首席技术官

PyTorch 在深度学习中非常流行,其丰富的表达方式和易用性得到了广泛认可。为了充分利用计算资源,PyTorch 模型需要非平凡的优化,但这意味着会失去一些易用性和可理解性。通过 Thunder,一个专注于可用性、可理解性和可扩展性的 PyTorch 到 Python 编译器,您可以在不改变 PyTorch 代码的情况下优化和转换(即跨多台机器分布)模型,同时:• 保持 PyTorch 代码不变 • 针对各种模型,无需为每个模型进行适配 • 通过将结果以简单的 Python 代码形式呈现来理解每个转换步骤 • 只需一行或几行代码即可访问强大的扩展代码进行自己的优化。我们将展示 Thunder 转换与 NVIDIA 堆栈(NVFuser、cuDNN、Apex)的结合如何为各种模型在训练和推理中提供优化的性能。

FlexAttention:PyTorch 的灵活性加上 FlashAttention 的性能
Driss Guessous,机器学习工程师,Meta Platforms

介绍 FlexAttention:一种创新的 PyTorch API,它允许自定义、用户定义的注意力机制,其性能可与最先进的解决方案相媲美。通过利用 PyTorch 编译器堆栈,FlexAttention 支持在 SDPA 中对注意力分数进行动态修改,通过与 FlashAttention 算法的内核融合,实现了运行时和内存效率。我们在 A100 GPU 上的基准测试表明,FlexAttention 在正向传递中实现了 FlashAttention2 的 90%的性能,在反向传递中实现了 85%的性能。在 H100 GPU 上,FlexAttention 的前向性能平均为 FlashAttention3 的 85%,比 FlashAttention2 快约 25%,反向性能平均为 FlashAttention3 的 76%,比 FlashAttention2 快约 3%。探索 FlexAttention 如何平衡接近最先进的性能与无与伦比的灵活性,使研究人员能够快速迭代注意力机制,而不会牺牲效率。

让您的 GPU 保持冷静:在模型训练中消除空白字符
西德·阿赫梅德,高级软件工程师,英伟达
阿尔班·德马松,研究工程师,Meta
艾丁·阿伊特汉,高级软件工程师,英伟达

最近在模型训练的计算密集部分取得了重大进展,例如高性能的注意力变体。虽然这些进展非常有价值,但也暴露了模型训练中之前隐藏的瓶颈,如集体操作中的冗余副本和数据加载时间。我们将介绍通过 Meta/NVIDIA 合作实现的 PyTorch 最近改进,以解决这些新出现的瓶颈,以及实践者如何利用这些改进。

加速 Python:社区与生态系统
安迪·特雷尔,CUDA Python 产品负责人,英伟达
杰里米·坦纳,开源项目,英伟达
安舒曼·巴特,CUDA 产品管理,英伟达

Python 无处不在。模拟、数据科学和通用人工智能都依赖于它。不幸的是,工具种类繁多,让新手感到困惑,不知从何开始。我们将带您参观围绕加速 Python 编程的充满活力的社区和生态系统。探索各种工具、库和框架,这些工具和框架能够提高 Python 的计算效率和性能优化,包括 CUDA Python、RAPIDS、Warp 和 Legate。我们还将讨论与 PyData、PyTorch 和 JAX 社区的集成点。了解社区内的协作努力,包括开源项目和贡献,这些项目和贡献推动了加速计算的创新。我们将讨论利用这些框架来提高开发 AI 驱动应用程序和进行大规模数据分析生产力的最佳实践。

使用谷歌云 AI 超计算机为大规模 AI 加速(由谷歌云提供)
Deepak Patil,产品经理,谷歌云
Rajesh Anantharaman,机器学习软件产品管理负责人,谷歌云

利用谷歌云 AI 超计算机释放大规模 AI 工作负载的潜力——这是一种专为最大性能和效率设计的超级计算架构。在本场会议中,我们将深入探讨谷歌云上 NVIDIA GPU 上的 PyTorch 和 JAX 堆栈,并展示在谷歌云上构建高性能基础模型的特性。

探索未来:人工智能和图网络对未来金融分析的意义
西达哈特·萨姆西,NVIDIA 高级解决方案架构师
苏迪普·凯什,标普全球首席创新官

人工智能、代理系统以及图神经网络(GNN)正在为金融服务中工作组合的机遇和风险评估、监控和估算提供新的前沿。尽管许多这些技术仍在发展中,但组织渴望了解它们的潜力。看看标普全球和英伟达如何合作,寻找学习和整合这些能力的方法,从预测企业债务发行到更深入地理解资本市场。我们将使用 PyTorch-Geometric 库展示市场数据的图表示,以及涵盖三十年以及金融和非金融行业的发行数据集。技术发展包括生成二分图和链接预测 GNN 预测。我们将讨论数据预处理、管道、模型训练以及这些技术如何在一个日益复杂的世界中拓宽能力。

在 Blackwell 上解锁深度学习性能
杨旭(企业产品),NVIDIA 深度学习软件工程经理

自其推出以来,cuDNN,一个用于加速深度学习(DL)原语的 GPU 库,一直在推动许多 AI 应用的发展,包括对话式 AI、推荐系统和语音识别等领域。CuDNN 仍然是 PyTorch、JAX、Tensorflow 等流行框架中 DL 原语的核心库,涵盖了训练、微调和推理用例。即使在快速发展的通用人工智能(Gen AI)领域——无论是 Llama、Gemma 还是需要复杂 DL 原语(如闪速注意力变体)的专家混合变体——cuDNN 也在为它们提供动力。了解与 Blackwell 的微缩放格式相关的 cuDNN 新/更新 API,以及如何针对这些 API 进行编程。我们将深入探讨利用其图 API 构建一些融合模式,例如矩阵乘法融合模式和从最先进模型中融合的闪速注意力。了解 cuDNN 中新的 CUDA 图支持如何被利用,以避免重建 CUDA 图,为具有实际框架使用的 CUDA 图捕获提供替代方案。

快速训练和部署 AI 系统,使用 Lightning AI 开源堆栈(由 Lightning AI 呈现)
Luca Antiga,Lightning AI 首席技术官

查看 Lightning 堆栈如何涵盖整个生命周期,从数据准备到部署,通过实际示例,特别关注分布式训练和高性能推理。我们将展示关注新功能,如通过 DTensors 支持多维并行性,以及通过 torchao 进行量化。

与专家连接(互动环节)

深度学习框架团队专家见面会
阎迪,PyTorch 技术负责人,NVIDIA
小林正树,PyTorch 高级软件工程师,NVIDIA
王博(企业产品),PyTorch 软件工程师,NVIDIA
美国 NVIDIA 公司深度学习框架杰出工程师迈克·鲁伯里
美国 NVIDIA 公司高级深度学习工程师,PyTorch Geometric 项目负责人里希·普里

培训实验室

核心优化:AI 与未来:解锁 Nsight Compute 的强大功能
费利克斯·施密特,NVIDIA 高级系统软件工程师
彼得·拉布斯,NVIDIA 高级系统软件工程师

学习如何利用 Nsight Compute 强大的分析和调试功能,充分发挥 NVIDIA GPU 的潜力。随着 AI 工作负载的快速增长,对 GPU 计算的需求也在不断增加,确保它们高效利用所有可用的 GPU 资源至关重要。Nsight Compute 是理解内核执行行为和性能的最强大工具。学习如何配置和启动针对您需求的定制配置文件,包括对加速 Python 应用程序、PyTorch 等 AI 框架以及优化 Tensor Core 利用率的建议,这对于现代 AI 性能至关重要。学习如何调试您的内核并使用 Nsight Compute 内置的专家系统“引导分析”,该系统可自动检测常见问题并引导您查看最相关的性能数据,直至源代码级别。

让检索更上一层楼:针对特定领域 RAG 微调嵌入模型
加布里埃尔·莫雷拉,高级研究科学家,英伟达
罗纳·阿克,高级数据科学家,英伟达

LLMs 动力人工智能应用,如对话聊天机器人和内容生成器,但受限于其训练数据。这可能导致内容生成中的幻觉,需要最新的或特定领域的信息。检索增强生成(RAG)通过允许 LLMs 访问外部上下文而不修改模型参数来解决此问题。嵌入或密集检索模型是 RAG 管道中的关键组件,用于检索与 LLM 相关的上下文。然而,嵌入模型捕捉自定义数据独特特征的有效性取决于其训练数据的质量和领域相关性。微调嵌入模型越来越受到关注,以提供更准确和相关的响应,以满足用户特定领域的需求。

在这个实验室中,您将学习从特定领域的语料库中生成问题-上下文对合成数据集,并处理数据以进行微调。然后,使用合成数据微调文本嵌入模型并对其进行评估。

海报展示

基于神经网络反投影和视锥体重采样的单视图 X 射线 3D 重建
Tran Minh Quan,开发者技术专家,英伟达

在新 AI 医学领域启用新型应用:病理切片加速特征计算
尼尔斯·布鲁恩格尔,罗氏诊断国际有限公司首席软件工程师