2024 年 11 月 01 日

深入探讨 CUTLASS Ping-Pong GEMM 内核

在本文中,我们提供了 CUTLASS Ping-Pong GEMM 内核的概述,并附上相关的 FP8 推理内核基准测试。

阅读更多

2024 年 10 月 31 日

使用 TorchServe 和 vLLM 部署LLMs

vLLM 引擎是目前执行大型语言模型(LLM)性能最顶尖的方式之一。它提供了 vllm serve 命令,作为在单机上部署模型的一个便捷选项。虽然这很方便,但要在大规模生产中提供这些LLMs,一些高级功能是必要的。TorchServe 提供了这些必要的生产功能(如自定义指标和模型版本控制),并通过其灵活的自定义处理程序设计,使得集成这些功能变得非常容易...

阅读更多

2024 年 10 月 30 日

三叉戟内核编译阶段

三叉戟开源编程语言和编译器提供了一种基于 Python 的高级方法,用于创建高效的 GPU 代码。在本博客中,我们将重点介绍三叉戟程序编译的底层细节以及中间表示。有关三叉戟的介绍,请参阅本博客。三叉戟语言和编译三叉戟编程语言支持不同类型的现代 GPU,并遵循分块编程方法。例如,我们将跟随 t...

阅读更多

2024 年 10 月 28 日

在移动设备上释放 AI 的强大力量:使用 ExecuTorch 和 KleidiAI 对 Llama 3.2 量化模型进行推理 LLM

在最近的 PyTorch 大会上,Arm 强调了其技术的广泛影响,从云端到边缘,强调其致力于将先进的 AI 计算能力无缝地提供给全球数百万开发者。

阅读更多

2024 年 10 月 28 日

三步轻松入门 PyTorch、ExecuTorch 和 Ethos-U85

在快速发展的机器学习领域,PyTorch 凭借其灵活性和全面的生态系统,已成为模型开发的领先框架。Arm 与 Meta 合作,在 ExecuTorch 中引入了对 Arm 平台的支持,这进一步简化了这一过程,使得在边缘设备上部署 PyTorch 模型变得无缝。Arm Ethos-U85 NPU 是性能最高的 Ethos NPU,满足了日益增长的运行高级 AI 的需求...

阅读更多

2024 年 10 月 25 日

PyTorch 2.5 现已支持 Intel GPU

PyTorch® 2.5 现已支持 Intel GPU,为 Intel GPU 提供了改进的功能和性能,包括 Intel® Arc™独立显卡、内置 Intel® Arc™图形的 Intel® Core™ Ultra 处理器以及 Intel®数据中心 GPU Max 系列。这次集成将 Intel GPU 和 SYCL*软件栈纳入了官方 PyTorch 堆栈,确保了一致的用户体验,并使更广泛的 AI 应用场景成为可能,尤其是在 AI PC 领域。...

阅读更多

2024 年 10 月 24 日

ExecuTorch Beta:设备端 AI 和LLMs,与合作伙伴一起实现稳定性、加速

ExecuTorch 已通过 v0.4 版本的发布达到 Beta 状态,提供稳定的 API 和运行时,以及广泛的内核覆盖。ExecuTorch 是 Llama 3.2 1B/3B 模型的推荐设备端推理引擎,为原始和量化模型提供增强的性能和内存效率。ExecuTorch 的采用率和生态系统增长显著,目前重点在于提高非 CPU 后端的可靠性、性能和覆盖范围...

阅读更多