|
引言7 i' R0 ^. l5 H* N- P" r& u k
人工智能(AI)领域正在快速发展,需要越来越强大的硬件来支持复杂的模型和计算。英特尔的 Gaudi 3 AI 加速器代表了 AI 硬件技术的重大进步,旨在满足现代 AI 工作负载的挑战,特别是在生成式 AI 领域[1]。本文将探讨 Gaudi 3 AI 加速器的架构、主要特性和性能能力,为读者科普介绍这一先进 AI 硬件,帮助把握 AI 技术发展的最新动向。9 ~4 ~( |; u/ J3 j" i: {
: u: l4 T3 f' `5 Z" J
poklukt2mxy6405753953.png
& W* D9 ]$ T @1 Q" Y- {
图1展示了英特尔 Gaudi 产品系列的演进,突出显示了从 Gaudi 到 Gaudi 3 在性能和规格方面的显著提升。
& r @* v5 e: P7 u& k
+ j% o# V) O+ Z; o. t% J) p dGaudi 架构的演进
/ H, B$ j% T5 f- P2 nGaudi 3 AI 加速器是英特尔 Gaudi 产品线的最新迭代,继承了 Gaudi 和 Gaudi 2 的优势。每一代产品在关键性能指标上都有实质性提升:热设计功耗(TDP):从 Gaudi 的 400W 增加到 Gaudi 3 的 900W(风冷)或 1200W(液冷)。峰值计算能力(BF16):从 Gaudi 的 60 TFLOPs 大幅提升到 Gaudi 3 的 1835 TFLOPs。HBM 容量:从 Gaudi 的 32 GB 扩展到 Gaudi 3 的 128 GB。峰值 HBM 带宽:从 900 GB/s 提高到 3.67 TB/s。嵌入式网卡带宽:从 2 Tb/s 增加到 9.6 Tb/s。; U, R9 u- `- B
[/ol]6 ?! d- M6 v! ^( ~+ b+ C
这些改进展示了 AI 加速器技术的快速进步,每一代产品都提供显著更高的性能能力。% C, n2 g. Z$ I
zuctvk1aevh6405754053.png
3 }( d2 w4 g7 [+ G! l6 b3 S图2展示了英特尔 Gaudi 3 AI 加速器 OAM(开放计算平台加速模块),突出显示了其物理设计和主要组件。
: d, L' b- n: c; r, e) c/ ]7 p* R% j6 I8 F" A; E
Gaudi 3 硬件架构
3 A% o5 G) P6 u! d3 {& ?! W3 VGaudi 3 AI 加速器采用 5nm 工艺技术,具有针对 AI 工作负载优化的复杂设计:计算芯片:通过插入桥连接的两个计算芯片。内存:8 个 HBM2e(高带宽内存)堆栈,提供 128 GB 容量。散热选项:支持风冷(最高 900W)或液冷(最高 1200W)。连接性:PCIe Gen5 x16 接口和 24x 200GbE RoCE(通过 48 个 112G PAM4 Serdes)实现高速网络连接。
7 n! y, i% C$ e2 Z9 h( M& T/ }[/ol]
6 r* D. \# i9 I2 k
zuntf0rtfcb6405754153.png
3 x4 T8 ?$ @1 {; r, U
图3呈现了英特尔 Gaudi 3 AI 加速器的框图,展示了各种组件及其互连。" y5 ]5 y, a% T' Z
3 q7 J* E7 W2 g" y$ O m* D
主要组件和特性3 O! [ R+ O! C
1. 矩阵乘法引擎(MME):! ]& c* L) i; R2 T% p1 u2 [
8 个 MME 单元,用于高效矩阵运算。在 BF16 和 FP8 精度下均可提供 1835 TFLOPs 性能。$ B2 z' G I+ H) c. l! ^1 `7 c9 k0 l
, @. t2 b/ m2 l: D9 S9 O
2. 张量处理核心(TPC):/ N/ R7 ~6 v6 ]% s5 {
64 个 TPC 单元,用于多样化的计算操作。提供 28.7 TFLOPs 的 BF16 向量性能。
* ~; Y& @* c& t! w8 ]; i; q5 E7 P7 T% r- ~. M% @3 N# A" c
3. 内存子系统:
! z9 f4 N) \4 G' n% {6 v128 GB HBM 容量,带宽为 3.67 TB/s。96 MB 片上 SRAM,带宽为 12.8 TB/s(L2 缓存)。
1 T9 g) X1 w/ A% W3 z5 ~+ b
- C2 e* s8 t, u+ v C5 y t4. 网络能力:
+ a* u4 A- f0 M: a1 ^/ S9 V, t1200 GB/s 双向网络带宽。PCIe Gen5 x16 主机接口,峰值带宽为 128 GB/s 双向。
( }- J. t w3 s6 V% M1 Z
" z! S0 Z( O1 g5. 媒体引擎:, F0 t, Y. s6 c' a$ v3 K4 {
包括一个旋转器和 14 个解码器,支持多种格式(HEVC、H.264、JPEG、VP9)。
/ v7 b: [2 Q: M" H7 p% T9 i9 n8 `; Q" Y* E) k5 |: ]( C1 S
qynitfd1b5x6405754254.png
7 Y/ ?1 l# T A* I: M+ _
图4提供了英特尔 Gaudi 3 AI 加速器架构的深入视图,详细说明了其核心组件的排列。. p7 K' y; T( b3 k+ H2 z# A
4 X' u3 Q$ O7 i" K" O, n
架构深度解析
8 z! U, l( o+ r) L6 b6 xGaudi 3 架构针对 AI 工作负载的最佳性能进行了设计:6 W8 o$ J9 _; |7 H/ ^' e
1. 内存管理:
: `# ^( w+ ~8 S" C9 S: `- u* j' G由 MMU 进行 HBM 的统一内存映射。L2 和 L3 数据缓存分布在深度学习核心(DCORE)中。
, S' D5 c/ {6 L5 f6 y& Y
0 @ g# W$ ^& a6 t' N2. 计算集群:* l! H) [; T: \
4 个 DCORE,每个包含 2 个 MME、16 个 TPC 和 24MB 缓存。
9 L% O5 B4 S. p" a' g
@- Q* z- ^1 L3. 专用加速器:
/ I1 y% A" c# A* `" a用于解码和旋转任务的媒体加速器。具有 24 个 RDMA NIC 200GbE 端口的网络子系统。
! e6 M: w& q8 r/ o+ U2 g5 d$ o$ ~9 \
4. 控制系统:' T$ `! v/ e' h- S( T8 N1 ~0 `
独立的控制块和 NOC 结构,实现高效管理。 F3 W. ]- R; v" I; ]" [
. s& o2 {( v7 l. l
v0pe1htv0am6405754354.png
% {9 }/ j, e2 F图5展示了矩阵乘法引擎(MME)的框图,这是 Gaudi 3 AI 加速器架构中的关键组件。: z0 Y6 l, a: |2 E: l
m2 t- w# @: b3 J/ B8 H6 I
矩阵乘法引擎(MME)) p y& J1 `- c4 c, r
MME 是 AI 工作负载的核心组件:
, X/ T1 T a; K( t# s2 w: k1. 结构:256x256 MAC 结构,具有 FP32 累加器。
; y5 b- t: o8 G$ V3 f& h
' p# x1 w4 U5 ?! Y2. 性能:BF16 和 FP8 运算可达到每周期 64k MAC。
0 |7 m% m) H' `( m/ U
6 a3 F9 b4 G6 t' j" ^" q3. 特性:
. Y5 V e- `7 M1 l* r J内部流水线,实现计算吞吐量最大化。集成转置引擎,实现零开销输入转置。累积结果的灵活精度转换。用于输入重用的内部缓冲区,替代 L1 缓存。集成地址生成单元(AGU),实现高效数据处理。( I: F$ D T( ^, b* }5 o! ~
" [0 C7 B% \7 U7 {8 a" a0 q
- q! S7 l7 l# X& ~4 R
jb5wmvfjrag6405754454.png
b3 y9 V2 e% M: }
图6显示了张量处理核心(TPC)的框图,这是 Gaudi 3 架构中另一个关键元素。5 v; A/ s {1 O* }
% J; B- {( q X+ }
张量处理核心(TPC)
8 n" M4 Z8 {# H/ t$ H. lTPC 通过处理非矩阵乘法运算来补充 MME:- q7 f; M" l) [0 n' S
1. 可编程性:使用增强的 C 语言,包含 TPC 内部函数。* A# z* n3 P4 Q) C# }
6 S6 ]) l$ L% _' U$ |( r- Z! r5 o# P
2. 结构:具有 4 个独立流水线槽的 VLIW(向量、标量、加载、存储)。
2 P' G2 ~3 J2 `9 w- S
% ?6 O# U% Q% b+ H- m+ P3. 特性: W, N2 Y- M9 M. f* U1 Q
256B 宽 SIMD,用于向量运算。集成 AGU,用于内存地址计算。支持主要的 1/2/4 字节数据类型(浮点和整数)。12KB 向量寄存器文件和 80KB 向量本地内存。
+ t) N( k5 R) A- N; E: W0 H5 q* t+ I' u) R
软件生态系统
2 O |" O6 H/ U; s2 y英特尔提供全面的软件套件,以有效利用 Gaudi 3 硬件:% X6 g5 ^( {7 d$ ~9 p
1. 框架集成:支持主要 AI 框架,包括 FP16/BF16 → FP8 量化。
: r* |% k$ s0 ~& N; C c9 p d7 ~7 Y% \# {
2. 专有层:" t9 p$ S& e# B# Q! }+ G7 i
图编译器,用于引擎依赖和调度。MME 的矩阵运算配置。用于非矩阵运算的 TPC 内核。Habana 集体通信库(HCCL)。! e5 A5 F1 ]% H
6 v; B! I4 r) |& {2 u
/ L ~! T" C. M3. TPC 内核源:7 }! A) F* h" Y6 i$ Q) P6 ]
包括 Habana 的优化库、自定义用户内核和基于 MLIR 的融合内核。4 t l n0 P! M5 e" Y
2 H0 \7 W6 i6 P
k9 v! G" X. g- x* M; }! ]) f
oqdiyx5avop6405754554.png
4 c2 C' E# m1 ]# D. A2 v$ }图7展示了英特尔 Gaudi 软件套件的分层视图,说明了不同组件如何相互作用以支持 AI 工作负载。
$ s5 y: s3 l9 G5 g0 b. z9 A
; |& m3 Q4 @' S* q6 H性能和可扩展性- |+ C/ y0 u# p* |5 \3 z/ o
Gaudi 3 AI 加速器在生成式 AI 推理基准测试中表现出色:
! c- M- a5 J4 P. m; a1. 模型支持:可与所有主要的 LLM 和生成式 AI 模型配合使用。, H# V" y- g; o- A1 n1 Y5 `
& @+ s9 m$ P2 u# `2. 性能提升:与 Gaudi 2 相比,性能提升最高可达 2.8 倍。) h) k. k9 N' V2 I q! @
g& D$ i, z0 q3. 可扩展性:设计用于各种规模的 AI 加速,从单卡到完整集群。+ I- Q# ?. v3 _7 n, p1 k
) R+ F' L% l( ~% R4 X: h9 E5 W6 F
5jmxlhvuj3n6405754655.png
$ x7 U. A1 Q$ `1 N
图8展示了 Gaudi 3 的可扩展性,显示了从单卡到完整机架和集群配置的部署方式。
7 E1 b0 U' P8 M. e" `. q$ q
. q7 f0 h9 p+ T E3 f' ~# d结论
( a7 s9 M {5 Q- i6 {: ~英特尔 Gaudi 3 AI 加速器代表了 AI 硬件技术的进步。其创新架构结合了强大的矩阵乘法引擎和多功能张量处理核心,加上高带宽内存和网络能力,使其成为处理复杂 AI 工作负载的强大工具。随着 AI 计算需求持续增长,特别是在生成式 AI 和大型语言模型等领域,Gaudi 3 在性能、可扩展性和软件生态系统支持方面的平衡使其成为希望推动 AI 研究和应用发展的组织的有力选择。
) D. R V( T* p4 z u( u
+ M- T' M& P2 p- }! N. }+ f) x$ T) a/ h' ^. r1 z$ m2 R
参考文献 H: O( ?! @/ U" ?( @% |; I" ]
[1] R. Kaplan, "Intel Gaudi 3 AI Accelerator: Architected for Gen AI Training and Inference," Intel Corporation, Aug. 2024.: ]1 [) C6 t( [- V" L
0 d6 _8 o5 j9 n2 o8 J- END -
3 h' m! D3 x( X3 k7 v
7 d2 C& T7 \6 W, d8 W7 x2 R2 ~
5 |2 N6 E. e, Y7 t2 I" o软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。6 H8 P8 d, p: X4 F a5 `, c+ s
点击左下角"阅读原文"马上申请; H4 i- n2 d# x& w+ y( }" W/ B
. C) g* t' S# `欢迎转载
4 g& F1 v! r) j, S. m) J/ X* ?
转载请注明出处,请勿修改内容和删除作者信息!
% `+ T+ c8 s0 l: W
! f* }6 K' V& r1 u6 D8 `* U- d9 M' C, _) z
$ K4 {/ e! ]% N1 D$ z+ T
xkywa0e1cop6405754755.gif
7 p/ l- ?6 j8 \7 R8 i" B
) k2 k! t% a( H- g3 i7 l5 c关注我们' `# ]5 U% ^0 ]" H
" y1 x& u0 K, e( S" d. y
7 Q. ^7 z) n) c" y+ n9 p9 U
ygc3fcceqe56405754855.png
# q+ S. L9 S1 _" T" k. i/ r3 s |
2 k, t q' v8 u* b
dujc2g2yqfc6405754955.png
) I$ m8 L) h9 o- Q' i. E9 l0 E
| ; S+ C n* P# V
atxvlpfevc16405755055.png
g: o5 Y& T9 |$ ?6 t
|
! e# Q$ _# O- t
. ]% ~1 {6 l( v1 y8 @1 n& f7 T' w" }- u' J1 i p
3 y( k6 q" q, l9 q关于我们:/ d' \' B4 J$ E& t8 b
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。1 d {8 b( H0 l0 S$ A6 o7 M
+ v2 P" d# Q& f! ~3 R* U% {7 n3 qhttp://www.latitudeda.com/+ R* k4 a( F0 ]. e3 R, N: X- M
(点击上方名片关注我们,发现更多精彩内容) |
|