由 PyTorch 团队

PyTorch 继续被用于下周在 NeurIPS 会议上展示的最新最先进的研究,占引用框架的论文近 70%。此外,我们很高兴欢迎 Chainer 框架的维护者 Preferred Networks 加入 PyTorch 社区。他们的团队正在全面转向 PyTorch 来开发他们的机器学习和服务能力。

这种增长支撑了 PyTorch 专注于满足研究社区的需求,并越来越多地支持从研究到生产部署的完整工作流程。为了进一步支持研究人员和开发者,我们正在推出一系列用于大规模计算机视觉和弹性容错训练的新工具和库。更多详情请访问 GitHub 和我们的 NeurIPS 展位。

Preferred Networks 加入 PyTorch 社区

Preferred Networks 公司(PFN)宣布计划将其深度学习框架从 Chainer 迁移到 PyTorch。作为这一变化的一部分,PFN 将与 PyTorch 社区和贡献者合作,包括来自 Facebook、Microsoft、CMU 和 NYU 的人士,参与 PyTorch 的开发。

PFN 开发了 Chainer 深度学习框架,该框架引入了定义-运行(也称为即时执行)的概念,以支持并加速其深度学习开发。自 2015 年以来,PFN 一直在使用 Chainer,利用最新的尖端技术快速解决现实世界的问题。Chainer 也是 PyTorch 初始设计的一个灵感来源,如 PyTorch NeurIPS 论文所述。

PFN 在 CuPy、15 分钟 ImageNet、Optuna 等项目中推动了创新工作,这些项目推动了设计和工程领域的边界。作为 PyTorch 社区的一部分,PFN 带来了创造性的工程能力和经验,以帮助推动框架的发展。此外,PFN 向 PyTorch 的迁移将允许它高效地整合最新的研究成果,以加速其研发活动,鉴于 PyTorch 在研究人员中的广泛采用,并与社区合作,在 MN-Core 深度学习处理器(目前正在开发中)上添加对 PyTorch 的支持。

我们非常高兴欢迎 PFN 加入 PyTorch 社区,并共同致力于推动深度学习技术的进步。在此了解 PFN 迁移到 PyTorch 的更多信息。

弹性训练和大规模计算机视觉工具

PyTorch 弹性(实验性)

随着 BERT 等架构的出现以及模型参数数量增长到数十亿甚至数百亿,大规模模型训练变得越来越普遍。为了在合理的时间内达到这个规模的收敛,需要使用分布式训练。

当前 PyTorch 分布式数据并行(DDP)模块实现了数据并行训练,每个进程训练相同的模型,但数据分片不同。它支持批量同步、多主机、多 GPU/CPU 的 ML 训练执行。然而,DDP 存在一些不足;例如,作业无法在没有获取所有请求的节点的情况下启动;在节点因错误或暂时性问题失败后,作业无法继续;无法将后来加入的节点纳入作业;最后,在存在缓慢/停滞的节点的情况下,无法取得进展。

PyTorch Elastic 的焦点是使用弹性分布式数据并行来解决这些问题,并为 PyTorch 构建一个通用的框架/API,以实现这些数据并行训练工作负载的可靠和弹性执行。与纯 DDP 相比,它将提供更好的可编程性、更高的各种故障的容错能力、更高的效率和更大规模的训练。

弹性,在这种情况下,意味着两个方面:1)在节点故障后,工作可以继续进行(通过使用更少的节点和/或通过将新主机纳入并转移状态到它);2)由于资源可用性变化或瓶颈,可以动态地添加/删除节点。

虽然此功能仍然是实验性的,但您可以在 AWS EC2 上尝试它,具体操作指南请见此处。此外,PyTorch 分布式团队正在与 AWS 的各个团队紧密合作,以支持在 Amazon Sagemaker 和 Elastic Kubernetes Service(EKS)等服务中实现 PyTorch 弹性训练。请期待未来更多的更新。

新的分类框架

图像和视频分类是内容理解的核心。为此,您现在可以利用一个全新的端到端框架,用于大规模训练最先进的图像和视频分类模型。它允许研究人员快速原型设计和迭代,以处理数十亿图像的大规模分布式训练作业。其优势包括:

  • 使用便捷 - 该框架具有模块化、灵活的设计,允许任何人使用非常简单的抽象在 PyTorch 上训练机器学习模型。该系统还与 AWS PyTorch Elastic 无缝集成,便于进行大规模研究,并简化了从研究到生产的迁移。
  • 性能卓越 - 研究人员可以使用该框架在 ImageNet 上训练 Resnet50 等模型,仅需 15 分钟。

您可以在 NeurIPS 展览会上了解多模态研究到生产的更多信息,或者从这里开始使用 PyTorch Elastic Imagenet 示例。

欢迎来 NeurIPS 参观我们

PyTorch 团队将在 12 月 8 日的行业展览期间在 NeurIPS 举办研讨会。加入以下会议,了解更多信息,并在展位上参观 PyTorch 团队,展位位于展台和海报会议期间。在展位上,我们将展示 PyTorch 在 Cloud TPU 上运行快速神经风格迁移的交互式演示——这里先睹为快。

我们还发布了一篇论文,详细介绍了推动 PyTorch 实现的原理以及这些原理如何反映在其架构中。

多模态研究到生产 - 本研讨会将从将前沿研究应用于生产的视角,深入探讨多种模态,如计算机视觉(大规模图像分类和实例分割)和翻译与语音(seq-to-seq Transformer)。最后,我们还将介绍如何使用 PyTorch 的最新 API 将开发模型从 eager 模式转换为 graph 模式,并通过 Torchscript 进行量化,以便在服务器或移动设备上进行大规模生产部署。所使用的库包括:

  • 分类框架 - 由 Facebook AI 开发的一个新开源的 PyTorch 框架,用于大规模图像和视频分类研究。它允许研究人员快速原型设计和迭代大规模分布式训练任务。基于该框架构建的模型可以无缝部署到生产环境中。
  • Detectron2 - 由 Facebook AI Research 计算机视觉团队最近发布的对象检测库。我们将阐述与上一版本相比的改进,包括:1)支持最新模型和新任务;2)提高灵活性,以支持新的计算机视觉研究;3)可维护和可扩展,以支持生产用例。
  • Fairseq - 通用序列到序列库,可用于许多应用,包括(无监督)翻译、摘要、对话和语音识别。

负责任和可复现的 AI - 这场关于负责任和可复现的 AI 研讨会将深入探讨塑造我们如何解释、复现研究以及以隐私为前提构建 AI 的未来重要领域。我们将涵盖主要挑战,介绍解决方案,并在每个演讲结束时进行实战教程。

  • 可复现性:随着提交到 arXiv 和会议的研究论文数量激增,可复现性的扩展变得困难。我们必须解决以下挑战:通过标准化代码库来帮助可扩展性,通过编写硬件无关的代码来民主化论文实现,通过记录作者用来使他们的复杂系统运行的各种“技巧”来促进结果验证。为了提供解决方案,我们将深入研究 PyTorch Hub 和 PyTorch Lightning 等工具,这些工具被世界顶级研究人员用于复现最先进的技术。
  • 可解释性:随着模型复杂性的增加和随之而来的透明度降低,模型可解释性方法变得越来越重要。模型理解既是研究的热点,也是机器学习在各个行业应用中的关注点。为了亲身体验,我们将使用最近发布的 Captum 库,该库提供了最先进的算法,为研究人员和开发者提供了一种简单的方法来理解神经元/层的重要性以及模型做出的预测。
  • 私有 AI:通过基于云或机器学习即服务平台的机器学习应用带来了各种安全和隐私挑战。正在研究多种技术方法,包括:同态加密、安全多方计算、可信执行环境、设备端计算和差分隐私。为了提供对这些技术如何应用的一些沉浸式理解,我们将使用 CrypTen 项目,该项目提供了一个基于社区的研究平台,以推进私有 AI 领域。

我们想感谢整个 PyTorch 团队和社区对这项工作的所有贡献。

喝彩!

PyTorch 团队