Hot Chips 2024 | 解析英特尔 Gaudi 3 AI 加速器：架构与性能

逍遥设计自动化 · 发表于 2024-10-16 08:00:00

引言
人工智能（AI）领域正在快速发展，需要越来越强大的硬件来支持复杂的模型和计算。英特尔的 Gaudi 3 AI 加速器代表了 AI 硬件技术的重大进步，旨在满足现代 AI 工作负载的挑战，特别是在生成式 AI 领域[1]。本文将探讨 Gaudi 3 AI 加速器的架构、主要特性和性能能力，为读者科普介绍这一先进 AI 硬件，帮助把握 AI 技术发展的最新动向。

poklukt2mxy6405753953.png

图1展示了英特尔 Gaudi 产品系列的演进，突出显示了从 Gaudi 到 Gaudi 3 在性能和规格方面的显著提升。

Gaudi 架构的演进
Gaudi 3 AI 加速器是英特尔 Gaudi 产品线的最新迭代，继承了 Gaudi 和 Gaudi 2 的优势。每一代产品在关键性能指标上都有实质性提升：

热设计功耗（TDP）：从 Gaudi 的 400W 增加到 Gaudi 3 的 900W（风冷）或 1200W（液冷）。

峰值计算能力（BF16）：从 Gaudi 的 60 TFLOPs 大幅提升到 Gaudi 3 的 1835 TFLOPs。

HBM 容量：从 Gaudi 的 32 GB 扩展到 Gaudi 3 的 128 GB。

峰值 HBM 带宽：从 900 GB/s 提高到 3.67 TB/s。

嵌入式网卡带宽：从 2 Tb/s 增加到 9.6 Tb/s。
[/ol]
这些改进展示了 AI 加速器技术的快速进步，每一代产品都提供显著更高的性能能力。

zuctvk1aevh6405754053.png

图2展示了英特尔 Gaudi 3 AI 加速器 OAM（开放计算平台加速模块），突出显示了其物理设计和主要组件。

Gaudi 3 硬件架构
Gaudi 3 AI 加速器采用 5nm 工艺技术，具有针对 AI 工作负载优化的复杂设计：

计算芯片：通过插入桥连接的两个计算芯片。

内存：8 个 HBM2e（高带宽内存）堆栈，提供 128 GB 容量。

散热选项：支持风冷（最高 900W）或液冷（最高 1200W）。

连接性：PCIe Gen5 x16 接口和 24x 200GbE RoCE（通过 48 个 112G PAM4 Serdes）实现高速网络连接。
[/ol]

zuntf0rtfcb6405754153.png

图3呈现了英特尔 Gaudi 3 AI 加速器的框图，展示了各种组件及其互连。

主要组件和特性
1. 矩阵乘法引擎（MME）：

8 个 MME 单元，用于高效矩阵运算。

在 BF16 和 FP8 精度下均可提供 1835 TFLOPs 性能。

2. 张量处理核心（TPC）：

64 个 TPC 单元，用于多样化的计算操作。

提供 28.7 TFLOPs 的 BF16 向量性能。

3. 内存子系统：

128 GB HBM 容量，带宽为 3.67 TB/s。

96 MB 片上 SRAM，带宽为 12.8 TB/s（L2 缓存）。

4. 网络能力：

1200 GB/s 双向网络带宽。

PCIe Gen5 x16 主机接口，峰值带宽为 128 GB/s 双向。

5. 媒体引擎：

包括一个旋转器和 14 个解码器，支持多种格式（HEVC、H.264、JPEG、VP9）。

qynitfd1b5x6405754254.png

图4提供了英特尔 Gaudi 3 AI 加速器架构的深入视图，详细说明了其核心组件的排列。

架构深度解析
Gaudi 3 架构针对 AI 工作负载的最佳性能进行了设计：
1. 内存管理：

由 MMU 进行 HBM 的统一内存映射。

L2 和 L3 数据缓存分布在深度学习核心（DCORE）中。

2. 计算集群：

4 个 DCORE，每个包含 2 个 MME、16 个 TPC 和 24MB 缓存。

3. 专用加速器：

用于解码和旋转任务的媒体加速器。

具有 24 个 RDMA NIC 200GbE 端口的网络子系统。

4. 控制系统：

独立的控制块和 NOC 结构，实现高效管理。

v0pe1htv0am6405754354.png

图5展示了矩阵乘法引擎（MME）的框图，这是 Gaudi 3 AI 加速器架构中的关键组件。

矩阵乘法引擎（MME）
MME 是 AI 工作负载的核心组件：
1. 结构：256x256 MAC 结构，具有 FP32 累加器。

2. 性能：BF16 和 FP8 运算可达到每周期 64k MAC。

3. 特性：

内部流水线，实现计算吞吐量最大化。

集成转置引擎，实现零开销输入转置。

累积结果的灵活精度转换。

用于输入重用的内部缓冲区，替代 L1 缓存。

集成地址生成单元（AGU），实现高效数据处理。

jb5wmvfjrag6405754454.png

图6显示了张量处理核心（TPC）的框图，这是 Gaudi 3 架构中另一个关键元素。

张量处理核心（TPC）
TPC 通过处理非矩阵乘法运算来补充 MME：
1. 可编程性：使用增强的 C 语言，包含 TPC 内部函数。

2. 结构：具有 4 个独立流水线槽的 VLIW（向量、标量、加载、存储）。

3. 特性：

256B 宽 SIMD，用于向量运算。

集成 AGU，用于内存地址计算。

支持主要的 1/2/4 字节数据类型（浮点和整数）。

12KB 向量寄存器文件和 80KB 向量本地内存。

软件生态系统
英特尔提供全面的软件套件，以有效利用 Gaudi 3 硬件：
1. 框架集成：支持主要 AI 框架，包括 FP16/BF16 → FP8 量化。

2. 专有层：

图编译器，用于引擎依赖和调度。

MME 的矩阵运算配置。

用于非矩阵运算的 TPC 内核。

Habana 集体通信库（HCCL）。

6 v; B! I4 r) |& {2 u
3. TPC 内核源：

包括 Habana 的优化库、自定义用户内核和基于 MLIR 的融合内核。

oqdiyx5avop6405754554.png

图7展示了英特尔 Gaudi 软件套件的分层视图，说明了不同组件如何相互作用以支持 AI 工作负载。

性能和可扩展性
Gaudi 3 AI 加速器在生成式 AI 推理基准测试中表现出色：
1. 模型支持：可与所有主要的 LLM 和生成式 AI 模型配合使用。

2. 性能提升：与 Gaudi 2 相比，性能提升最高可达 2.8 倍。

3. 可扩展性：设计用于各种规模的 AI 加速，从单卡到完整集群。

5jmxlhvuj3n6405754655.png

图8展示了 Gaudi 3 的可扩展性，显示了从单卡到完整机架和集群配置的部署方式。

结论
英特尔 Gaudi 3 AI 加速器代表了 AI 硬件技术的进步。其创新架构结合了强大的矩阵乘法引擎和多功能张量处理核心，加上高带宽内存和网络能力，使其成为处理复杂 AI 工作负载的强大工具。随着 AI 计算需求持续增长，特别是在生成式 AI 和大型语言模型等领域，Gaudi 3 在性能、可扩展性和软件生态系统支持方面的平衡使其成为希望推动 AI 研究和应用发展的组织的有力选择。

+ M- T' M& P2 p- }! N. }+ f
参考文献
[1] R. Kaplan, "Intel Gaudi 3 AI Accelerator: Architected for Gen AI Training and Inference," Intel Corporation, Aug. 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

8 `* U- d9 M' C, _) z

xkywa0e1cop6405754755.gif

关注我们

ygc3fcceqe56405754855.png

dujc2g2yqfc6405754955.png

atxvlpfevc16405755055.png

. ]% ~1 {6 l( v1 y8 @1 n& f7 T

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Hot Chips 2024 | 解析英特尔 Gaudi 3 AI 加速器：架构与性能

发表回复

精选推荐

浏览过的版块