通过 Intel® AI 硬件和软件优化加速 Llama 2
普及大型语言模型
我们很高兴看到 Meta 发布 Llama 2,旨在进一步普及大型语言模型 (LLM) 的访问。我们相信,让模型更广泛可用将有助于整个 AI 社区造福世界。鉴于 LLM 在生成文本、总结和翻译内容、回答问题、进行对话以及执行更复杂的任务(例如解决数学问题或进行推理)方面展现出的卓越能力,它们提供了最有前途的造福社会的 AI 技术之一。LLM 有潜力开启新的创意和见解形式,并激发 AI 社区推进该技术的激情。
Llama 2 旨在帮助开发人员、研究人员和组织构建生成式 AI 驱动的工具和体验。Meta 发布了具有 7B、13B 和 70B 参数的 Llama 2 预训练和微调版本。通过 Llama 2,Meta 在公司微调模型中实施了三个核心安全技术:监督式安全微调、定向安全上下文蒸馏以及人类反馈强化学习。这使得 Meta 能够提高安全性性能。通过普及访问,它将允许以透明和开放的方式持续识别和缓解漏洞。
英特尔提供一系列 AI 解决方案,为社区开发和运行 Llama 2 等模型提供具有竞争力的选择。英特尔丰富的硬件产品组合,结合优化的开源软件,提供了缓解计算资源有限挑战的替代方案。随着 Llama 2 的发布,我们很高兴分享在英特尔 AI 产品组合上的 7B 和 13B 参数模型的初始推理性能,包括 Habana Gaudi2* 深度学习加速器、第 4 代英特尔® 至强® 可扩展处理器、英特尔® 至强® CPU Max 系列和英特尔® 数据中心 GPU Max。我们在此分享的结果是在我们当前发布的软件上的开箱即用性能,预计在即将发布的版本中会有额外的性能提升。我们还将支持 70B 参数模型,并将很快提供更新以告知社区。
Habana Gaudi2* 深度学习加速器
Habana Gaudi2 旨在提供高性能、高效率的训练和推理,特别适合 Llama 和 Llama 2 等大型语言模型。每个 Gaudi2 加速器都拥有 96 GB 的片上 HBM2E,以满足 LLM 的内存需求,从而加速推理性能。Gaudi2 由 Habana SynapseAI* 软件套件支持,该套件集成了 PyTorch* 和 DeepSpeed*,用于训练和推理。此外,SynapseAI 最近引入了对HPU Graphs 和DeepSpeed 推理的支持,这些都非常适合对延迟敏感的推理应用。Gaudi2 将推出更多软件优化,包括在 2023 年第三季度支持 FP8 数据类型,预计这将带来显著的性能提升,提高吞吐量并降低 LLM 执行的延迟。
LLM 的性能需要灵活敏捷的可扩展性,以减少服务器内部和节点之间的网络瓶颈。每个 Gaudi2 集成了 24 个 100 GB 以太网端口;21 个端口可专用于服务器内八个 Gaudi2 之间的全连接,每个 Gaudi2 还有三个端口用于扩展。这种网络配置有助于加速服务器内部及以外的扩展性能。
Gaudi2 在最近发布的 MLPerf* 基准测试中,在 384 个 Gaudi2 加速器上训练 175B 参数 GPT-3 模型时,展现了出色的训练性能。(有关更多信息,请参阅新的 MLCommons 结果突显英特尔在 AI 方面取得的显著竞争优势。)Gaudi2 经过验证的性能使其成为 Llama 和 Llama 2 训练和推理的高效解决方案。
下面,我们分享 Llama 2 7B 和 Llama 2 13B 模型在单台 Habana Gaudi2 设备上的推理性能,批次大小为一,输出令牌长度为 256,输入令牌长度不同,使用混合精度(BF16)。报告的性能指标是每令牌的延迟(不包括第一个令牌)。我们使用了optimum-habana 文本生成脚本来运行 Llama 模型的推理。Hugging Face optimum-habana 库可以轻松地在 Gaudi 加速器上部署这些模型,只需少量代码更改。在图 1 中,我们看到对于 128 到 2K 的输入令牌,Gaudi2 对 7B 模型的推理延迟范围是每令牌 9.0 到 12.2 毫秒,而对于 13B 模型,其范围是每令牌 15.5 到 20.4 毫秒。(硬件和软件配置详情包含在本文末尾。)
立即在 Habana Gaudi 平台上使用 Llama 2,开启您的生成式 AI 之旅。如果您想获得 Gaudi2 的访问权限,请在英特尔® 开发者云上注册一个实例,或联系Supermicro 了解 Gaudi2 服务器基础设施。
英特尔® 至强® 可扩展处理器
第 4 代英特尔® 至强® 可扩展处理器是通用计算,并集成了 AI 加速功能,称为英特尔® 高级矩阵扩展(英特尔® AMX)。具体来说,它在每个核心中内置了 BF16 和 INT8 GEMM(通用矩阵-矩阵乘法)加速器,以加速深度学习训练和推理工作负载。此外,英特尔® 至强® CPU Max 系列在两个插槽上提供 128 GB 的高带宽内存(HBM2E),这对于 LLM 非常有利,因为工作负载通常受内存带宽限制。
针对英特尔至强处理器的软件优化已合并到深度学习框架中,并可在 PyTorch、TensorFlow*、DeepSpeed 和其他 AI 库的默认发行版中使用。英特尔在 torch.compile
的 CPU 后端开发和优化方面处于领先地位,这是 PyTorch 2.0 的旗舰功能。英特尔还提供英特尔® PyTorch 扩展,在官方 PyTorch 发行版合并这些高级优化之前,将其集成到英特尔® CPU 上。
第 4 代英特尔® 至强® 处理器的更高内存容量使得在单个插槽内实现低延迟 LLM 执行成为可能,这适用于会话式 AI 和文本摘要应用程序。本次评估重点介绍了在 BF16 和 INT8 下,单个插槽上执行一个模型的延迟。 英特尔® PyTorch 扩展已支持SmoothQuant,以确保 INT8 精度的模型获得良好的准确性。
考虑到 LLM 应用需要足够快的令牌生成速度以满足快速阅读者的阅读速度,我们将令牌延迟(生成每个令牌所需的时间)作为主要的性能指标,并以快速人类阅读者的阅读速度作为参考,该速度相当于每令牌约 100 毫秒。图 2 和图 3 显示,第 4 代英特尔® 至强® 可扩展单插槽处理器可为 Llama 2 7B BF16 模型和 Llama 2 13B INT8 模型提供 <100 毫秒的延迟。
英特尔® 至强® CPU Max 系列凭借 HBM2E 的更高带宽,为两个模型都提供了更低的延迟。借助英特尔 AMX 加速,客户可以通过更高的批次大小提高吞吐量。一个第 4 代英特尔® 至强® 处理器可为 7B 和 13B 参数模型提供 <100 毫秒的延迟。用户可以在每个插槽上运行两个并行实例,以获得更高的吞吐量并独立服务客户。或者,用户可以利用英特尔® PyTorch 扩展和DeepSpeed 在第 4 代英特尔® 至强® 处理器上运行推理,使用张量并行进一步降低延迟或支持更大的模型。
开发人员可以在此处获取有关在英特尔至强平台上运行 LLM 和 Llama 2 的更多详细信息。第 4 代英特尔® 至强® 可扩展处理器的云实例目前可在 AWS*、GCP* 和 Azure* 上预览,并在阿里云上普遍可用。英特尔将继续在 PyTorch 和 DeepSpeed 中添加软件优化,以进一步加速 Llama 2 和其他 LLM。
英特尔® 数据中心 GPU Max 系列
英特尔® 数据中心 GPU Max 提供并行计算、HPC 和 AI 以加速 HPC。英特尔® 数据中心 GPU Max 系列——英特尔性能最高、密度最高的独立 GPU,将超过 1000 亿个晶体管集成到一个封装中,并包含多达 128 个英特尔® Xe 核心——是英特尔的 GPU 计算基础构建块。
英特尔® 数据中心 GPU Max 系列专为 AI 和 HPC 中的数据密集型计算模型实现突破性性能而设计,包括
- 基于独立 SRAM 技术的 408 MB L2 缓存和 64 MB L1 缓存,以及高达 128 GB 的高带宽内存(HBM2E)
- AI 加速的英特尔® Xe 矩阵扩展(XMX),具有提供单设备向量和矩阵功能的的 systolic 阵列
英特尔® 数据中心 Max 系列产品由 oneAPI 统一,采用通用、开放、基于标准的编程模型,可提高生产力和性能。英特尔® oneAPI 工具包括高级编译器、库、分析器和代码迁移工具,可轻松将 CUDA* 代码迁移到使用 SYCL* 的开放式 C++。
目前,通过 PyTorch、TensorFlow*、DeepSpeed 等框架的开源扩展,可以为英特尔® 数据中心 Max GPU 提供软件支持和优化。通过将这些扩展与上游框架版本结合使用,用户将能够实现机器学习工作流的即插即用加速。
Llama 2 7B 和 13B 参数模型的推理性能是在一个 600W OAM 设备上评估的,该设备在一个封装上有两个 GPU(瓦片),而我们仅使用其中一个瓦片来运行推理。图 4 显示,英特尔® 数据中心 GPU Max 单瓦片可以为 7B 模型的推理提供每秒低于 20 毫秒的延迟,为 13B 模型的推理提供每秒 29.2 到 33.8 毫秒的延迟,输入令牌长度为 32 到 2K 令牌。用户可以在每个瓦片上运行两个并行实例,以获得更高的吞吐量并独立服务客户。
客户可以在此处获取有关在英特尔® 数据中心 GPU 平台上运行 LLM 和 Llama 2 的更多详细信息。目前,英特尔开发者云上提供的英特尔® 数据中心 GPU Max 云实例处于 beta 测试阶段。
除了推理,英特尔还一直在积极通过将优化合并到 Hugging Face Transformers、PEFT、Accelerate 和 Optimum 库中,并提供参考工作流,来加速微调。在英特尔® Transformers 扩展中,这些工作流能够支持在支持的英特尔平台上高效部署典型的基于 LLM 的任务,如文本生成、代码生成、补全和摘要。
总结
在本文中,我们对 Llama 2 7B 和 13B 参数模型在英特尔 AI 硬件产品组合上的推理性能进行了初步评估,其中包括 Habana Gaudi2 深度学习加速器、第 4 代英特尔® 至强® 可扩展处理器、英特尔® 至强® CPU Max 系列和英特尔® 数据中心 GPU Max。我们将继续在软件版本中添加优化,并很快分享更多关于 LLM 和更大 Llama 2 模型的评估。