通过云合作伙伴开始

    云平台为训练和部署深度学习模型提供了强大的硬件和基础设施。请选择以下云平台开始使用 PyTorch。


    使用 PyTorch 与 AWS

    要获得 PyTorch 提供的完整体验,至少需要一台配备一个专用 NVIDIA GPU 的机器。虽然拥有这样配置的机器并不总是实用的,但我们提供的基于云的解决方案可以让你测试和使用 PyTorch 的全部功能。

    AWS 提供以下两种服务:

    • 深度学习 AMI:配备 PyTorch 的专用、预构建机器学习实例
    • 深度学习基础 AMI:裸机 Linux 和 Windows 实例,你可以在此上进行自定义安装 PyTorch。

    深度学习 AMI 快速入门

    如果您想从命令行登录一个已经安装了 PyTorch 的 Linux AWS 实例,这个分步指南将帮助您完成。

    1. 登录您的 AWS 控制台。如果您还没有 AWS 账户,请参阅下面的入门指南。
    2. 点击 Launch a virtual machine
    3. 选择 Deep Learning AMI (Ubuntu)

      这将为您提供一个已预装 PyTorch 的实例。如果您想要一个需要安装 PyTorch 的裸 AWS 实例,可以选择 Deep Learning Base AMI (Ubuntu) ,该实例将拥有硬件,但没有任何预先安装的软件。

    4. 选择一个 GPU 计算 p3.2xlarge 实例类型。

      您可以选择任何可用的实例来尝试 PyTorch,即使是免费层级的实例,但为了获得最佳性能,建议您选择 GPU 计算或计算优化实例。其他实例选项包括计算优化的 c5 系列(例如 c5.2xlarge )或通用计算 t2 系列或 t3 系列(例如 t2.2xlarge )。需要注意的是,如果您选择没有 GPU 的实例,PyTorch 将仅在 CPU 计算模式下运行,操作可能需要更长的时间。

    5. 点击 Review and Launch
    6. 查看实例信息并点击 Launch
    7. 如果您还没有,您将想要 Create a new key pair 。选择一个名称并通过 Download Key Pair 按钮本地下载。
    8. 现在点击 Launch Instances 。您现在有一个可用于 PyTorch 的实时实例。如果您点击 View Instances ,您将看到您的运行实例。
    9. 注意 Public DNS ,因为它将被用于从命令行 ssh 到您的实例。
    10. 打开命令提示符
    11. 确保您的密钥对具有适当的权限,否则您将无法登录。输入 chmod 400 path/to/downloaded/key-pair.pem
    12. 输入 ssh -i path/to/downloaded/key-pair.pem ubuntu@<Public DNS that you noted above> 。例如, ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com 。如果被要求继续连接,请输入 yes
    13. 现在您应该看到一个类似于 ubuntu@ip-100-30-20-95 的提示。如果是这样,那么您现在已连接到您的实例。
    14. 通过运行以下验证步骤来验证 PyTorch 是否已安装。

      如果您选择了 Deep Learning Base AMI (Ubuntu) 而不是 Deep Learning AMI (Ubuntu) ,那么您需要安装 PyTorch。按照 Linux 入门指南来安装它。

    快速入门验证

    为了确保 PyTorch 安装正确,我们可以通过运行示例 PyTorch 代码来验证安装。在这里,我们将构造一个随机初始化的张量。

    import torch
    x = torch.rand(5, 3)
    print(x)
    

    输出应该类似于以下内容:

    tensor([[0.3380, 0.3845, 0.3217],
            [0.8337, 0.9050, 0.2650],
            [0.2979, 0.7141, 0.9069],
            [0.1449, 0.1132, 0.1375],
            [0.4675, 0.3947, 0.1426]])
    

    此外,为了检查您的 GPU 驱动程序和 CUDA 是否被 PyTorch 启用并可访问,运行以下命令以返回 CUDA 驱动程序是否启用:

    import torch
    torch.cuda.is_available()
    

    AWS 入门

    通常情况下,您将使用亚马逊弹性计算云(或 EC2)来启动您的实例。亚马逊提供了各种实例类型,每种类型都针对特定的用例进行了配置。对于 PyTorch,强烈建议您使用配备 GPU 或定制 AI/ML 加速器的加速计算实例,因为它们针对机器学习的计算需求进行了优化。

    为了使用 AWS,您需要设置 AWS 账户,如果您还没有的话。您将创建用户名(您的电子邮件地址)、密码以及 AWS 账户名称(因为您可以为不同的目的创建多个 AWS 账户)。您还需要提供联系和账单信息。账单信息很重要,因为虽然 AWS 提供了所谓的“免费层”实例,但为了使用 PyTorch,您将需要更强大的付费实例。

    登录后,您将被带到您的 AWS 控制台。您甚至可以通过一系列简单的教程了解更多关于 AWS 的信息。

    基于 AWS Inferentia 的实例

    AWS Inferentia 是 AWS 定制设计的芯片,旨在提供云中高性能和低成本的机器学习推理。Amazon EC2 Inf1 实例配备多达 16 个 AWS Inferentia 芯片、最新的第二代英特尔至强可扩展处理器以及高达 100 Gbps 的网络,以实现云中高吞吐量和最低成本的推理。您可以使用 Inf1 实例与 Amazon SageMaker 配合使用,实现完全管理的流程,或者直接使用与 PyTorch 集成的 AWS Neuron SDK。

    基于 GPU 的实例

    亚马逊 EC2 P4d 实例在 AWS 上提供机器学习训练的最高性能。它们由最新的 NVIDIA A100 Tensor Core GPU 供电,并具备云中首个 400 Gbps 实例网络功能。P4d 实例部署在名为 EC2 UltraClusters 的超大规模集群中,这些集群由超过 4,000 个 NVIDIA A100 GPU、Petabit 级非阻塞网络和具有 FSx for Lustre 的可扩展低延迟存储组成。每个 EC2 UltraCluster 提供超级计算机级的性能,使您能够解决最复杂的跨节点机器学习训练任务。

    对于机器学习推理,基于 AWS Inferentia 的 Inf1 实例提供云上最低成本的推理服务。此外,配备 NVIDIA T4 GPU 的 Amazon EC2 G4dn 实例针对基于 GPU 的机器学习推理和小规模训练进行了优化,可利用 NVIDIA 库。

    创建和启动实例

    一旦您确定了实例类型,您就需要创建实例,可选地配置并启动它。您可以从网页浏览器或命令行界面连接到您的实例。以下是针对各种平台的实例启动指南:

    亚马逊 SageMaker

    AWS SageMaker 服务提供了一种完全托管的服务,允许开发者和数据科学家构建、训练和部署机器学习模型。

    请参阅 AWS 文档了解如何使用 PyTorch 配置 Amazon SageMaker。

    预构建 AMI

    AWS 提供了预构建的实例(称为 AWS 深度学习 AMI),这些实例预装了 PyTorch 的现代版本。可用的 AMI 包括:

    • Ubuntu
    • Amazon Linux
    • Windows 2016

    亚马逊已经写了一篇很好的博客文章,关于如何开始使用预构建的 AMI。

    从零开始安装 PyTorch

    您可以选择从裸实例开始安装 PyTorch。一旦连接到您的实例,设置 PyTorch 与在您选择的操作系统上本地设置相同。

    使用 PyTorch 与 Google Cloud

    要充分体验 PyTorch 提供的功能,至少需要一台配备一个专用 NVIDIA GPU 的机器。虽然拥有这样配置的机器并不总是实用的,但我们提供的基于云的解决方案允许您测试和使用 PyTorch 的全部功能。

    Google Cloud 提供以下两种:

    • 专用、预构建的机器学习平台,配备 PyTorch
    • 提供裸 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。

    Google Cloud 初学者指南

    为了使用 Google Cloud,您需要设置一个 Google 账户,如果您还没有的话。您将创建一个用户名(通常是 @gmail.com 电子邮件地址)和密码。之后,您就可以尝试使用 Google Cloud 了。您还需要提供联系和账单信息。账单信息最初用于证明您是真实的人。在试用结束后,您可以选择升级到付费账户。

    登录后,您将被带到 Google Cloud 控制台。您甚至可以通过一系列简单的教程了解更多关于 Google Cloud 的信息。

    云深度学习虚拟机镜像

    Google Cloud 提供无需设置的预配置虚拟机,以帮助您构建深度学习项目。云深度学习虚拟机镜像是一组基于 Debian 的虚拟机,允许您构建和运行基于 PyTorch 的机器学习应用。

    基于 GPU 的虚拟机

    对于定制虚拟机,通常您会希望使用启用 GPU 的 Compute Engine 虚拟机实例),以使用 PyTorch 进行构建。谷歌有多种虚拟机类型和定价选项,包括 Linux 和 Windows,所有这些都可以根据特定用例进行配置。对于 PyTorch,强烈建议您使用启用 GPU 的虚拟机。它们针对机器学习的计算需求进行了优化。

    您虚拟机的费用与其中包含的 GPU 数量直接相关。例如,一台 NVIDIA Tesla P100 虚拟机实际上可以适用于许多用例。

    深度学习容器

    Google Cloud 还提供预配置和优化的深度学习容器。它们在 Google Cloud 服务中提供一致的环境,使得在云中扩展或从本地迁移变得容易。您可以选择在 Google Kubernetes Engine (GKE)、AI 平台、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm 上部署。

    从零开始安装 PyTorch

    您可能更喜欢从裸实例开始安装 PyTorch。一旦连接到您的实例,设置 PyTorch 与在您选择的操作系统上本地设置相同。

    在 Azure 中使用 PyTorch

    要获得 PyTorch 提供的完整体验,至少需要一台配备一个专用 NVIDIA GPU 的机器。虽然拥有这样配置的机器并不总是实用的,但我们提供的基于云的解决方案可以让你测试和使用 PyTorch 的全部功能。

    Azure 提供:

    • 一项机器学习服务,配备强大的 Python SDK,帮助你以云规模训练和部署 PyTorch 模型。
    • 专用、预构建的机器学习虚拟机,内置 PyTorch。
    • 为您提供裸露的 Linux 和 Windows 虚拟机,以便您进行自定义安装 PyTorch。

    Azure 入门

    为了使用 Azure,您需要设置一个 Azure 账户,如果您还没有的话。您将使用一个微软认可的电子邮件地址和密码。您还需要提供联系和账单信息来验证您的身份。账单信息是必要的,因为虽然 Azure 提供免费使用额度和服务,但您可能需要或想要更高端的服务。

    登录后,您将被带到 Azure 门户。您甚至可以通过一系列简单的视频教程了解更多关于 Azure 的信息。

    Azure 机器学习服务

    Azure 机器学习服务是一种基于云的服务,您可以使用它来加速您的端到端机器学习工作流程,从训练到生产。Azure 机器学习允许您轻松地将本地机器上的 PyTorch 模型训练迁移到云端的扩展。使用 Azure ML 的 CLI 或 Python SDK,您可以利用服务的高级功能进行分布式训练、超参数调整、运行历史记录跟踪和生产规模模型部署。

    请参阅文档了解如何使用 PyTorch 与 Azure 机器学习。

    预配置的数据科学虚拟机

    Azure 提供了预配置的数据学习和机器学习虚拟机。PyTorch 在这些虚拟机中很多都可用——例如,这里是如何在 Ubuntu Linux 上设置 Azure 虚拟机的文档。

    基于 GPU 的虚拟机

    微软提供了各种虚拟机类型和定价选项,包括 Linux 和 Windows,所有这些虚拟机都针对特定用例进行了配置。对于 PyTorch,强烈建议您使用 GPU 优化的虚拟机。它们针对机器学习的高计算需求进行了定制。

    您的虚拟机费用与其中包含的 GPU 数量直接相关。例如,NC6 虚拟机是最小、最便宜的虚拟机之一,实际上适合许多用例。

    从零开始安装 PyTorch

    您可以选择从裸虚拟机开始安装 PyTorch。一旦连接到您的虚拟机,设置 PyTorch 与在您选择的操作系统上本地设置相同。

    使用 Lightning Studios 集成 PyTorch

    Lightning Studios 允许您在几秒钟内完全体验 PyTorch 及其生态系统在加速计算上的功能。您可以从浏览器或任何本地 IDE 中选择 GPU 并进行自定义,无需任何设置。

    Lightning Studios 提供:

    • 预装 PyTorch 和 PyTorch Lightning 的即用型环境
    • 支持在 L4、L40S 和 H100 等 GPU 上进行加速计算,并能在几秒钟内切换
    • 优化多节点训练,可扩展 PyTorch 训练作业跨机器

    Lightning Studios 让您能够共享预装了构建 AI 系统所需的一切的完全可重复的环境,如数据处理、预训练、微调、推理等。我们的 2K 个社区构建的开源模板库已预装了依赖项、模型权重、数据、代码等。

    开始使用

    • 访问 lightning.ai
    • 注册(您每月可获得 22 小时的免费 GPU 时)
    • 启动您的第一个工作室
    • 在 lightning.ai/studios 上复制我们的模板之一

    使用工作室,您可以:

    • 按需付费
    • 从每小时 0.40 美元的价格获取 GPU
    • 使用您自己的 AWS 信用额度
    • 24/7 企业级支持

    构建 AI,而非基础设施

    通过 Lightning Studios,您可以在一个地方轻松构建 AI 产品,使用全代码和低代码工具,同时访问 GPU、训练模型和部署。

    AI 产品如 Stable Diffusion 和 NVIDIA 的 NeMo 都是用 Lightning 构建的。无论您是在尝试您的第一个模型、AI 应用,还是在企业规模上部署 AI,Lightning 为每个阶段提供动力——甚至在 10,000+ GPU 上预训练LLMs。