电子产业一站式赋能平台

PCB联盟网

搜索
查看: 591|回复: 0
收起左侧

Hot Chips 2024 | 解析英特尔 Gaudi 3 AI 加速器:架构与性能

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-10-16 08:00:00 | 显示全部楼层 |阅读模式
引言7 i' R0 ^. l5 H* N- P" r& u  k
人工智能(AI)领域正在快速发展,需要越来越强大的硬件来支持复杂的模型和计算。英特尔的 Gaudi 3 AI 加速器代表了 AI 硬件技术的重大进步,旨在满足现代 AI 工作负载的挑战,特别是在生成式 AI 领域[1]。本文将探讨 Gaudi 3 AI 加速器的架构、主要特性和性能能力,为读者科普介绍这一先进 AI 硬件,帮助把握 AI 技术发展的最新动向。9 ~4 ~( |; u/ J3 j" i: {
: u: l4 T3 f' `5 Z" J

poklukt2mxy6405753953.png

poklukt2mxy6405753953.png
& W* D9 ]$ T  @1 Q" Y- {
图1展示了英特尔 Gaudi 产品系列的演进,突出显示了从 Gaudi 到 Gaudi 3 在性能和规格方面的显著提升。
& r  @* v5 e: P7 u& k
+ j% o# V) O+ Z; o. t% J) p  dGaudi 架构的演进
/ H, B$ j% T5 f- P2 nGaudi 3 AI 加速器是英特尔 Gaudi 产品线的最新迭代,继承了 Gaudi 和 Gaudi 2 的优势。每一代产品在关键性能指标上都有实质性提升:
  • 热设计功耗(TDP):从 Gaudi 的 400W 增加到 Gaudi 3 的 900W(风冷)或 1200W(液冷)。
  • 峰值计算能力(BF16):从 Gaudi 的 60 TFLOPs 大幅提升到 Gaudi 3 的 1835 TFLOPs。
  • HBM 容量:从 Gaudi 的 32 GB 扩展到 Gaudi 3 的 128 GB。
  • 峰值 HBM 带宽:从 900 GB/s 提高到 3.67 TB/s。
  • 嵌入式网卡带宽:从 2 Tb/s 增加到 9.6 Tb/s。; U, R9 u- `- B
    [/ol]6 ?! d- M6 v! ^( ~+ b+ C
    这些改进展示了 AI 加速器技术的快速进步,每一代产品都提供显著更高的性能能力。% C, n2 g. Z$ I

    zuctvk1aevh6405754053.png

    zuctvk1aevh6405754053.png

    3 }( d2 w4 g7 [+ G! l6 b3 S图2展示了英特尔 Gaudi 3 AI 加速器 OAM(开放计算平台加速模块),突出显示了其物理设计和主要组件。
    : d, L' b- n: c; r, e) c/ ]7 p* R% j6 I8 F" A; E
    Gaudi 3 硬件架构
    3 A% o5 G) P6 u! d3 {& ?! W3 VGaudi 3 AI 加速器采用 5nm 工艺技术,具有针对 AI 工作负载优化的复杂设计:
  • 计算芯片:通过插入桥连接的两个计算芯片。
  • 内存:8 个 HBM2e(高带宽内存)堆栈,提供 128 GB 容量。
  • 散热选项:支持风冷(最高 900W)或液冷(最高 1200W)。
  • 连接性:PCIe Gen5 x16 接口和 24x 200GbE RoCE(通过 48 个 112G PAM4 Serdes)实现高速网络连接。
    7 n! y, i% C$ e2 Z9 h( M& T/ }[/ol]
    6 r* D. \# i9 I2 k

    zuntf0rtfcb6405754153.png

    zuntf0rtfcb6405754153.png
    3 x4 T8 ?$ @1 {; r, U
    图3呈现了英特尔 Gaudi 3 AI 加速器的框图,展示了各种组件及其互连。" y5 ]5 y, a% T' Z
    3 q7 J* E7 W2 g" y$ O  m* D
    主要组件和特性3 O! [  R+ O! C
    1. 矩阵乘法引擎(MME):! ]& c* L) i; R2 T% p1 u2 [
  • 8 个 MME 单元,用于高效矩阵运算。
  • 在 BF16 和 FP8 精度下均可提供 1835 TFLOPs 性能。$ B2 z' G  I+ H) c. l! ^1 `7 c9 k0 l
    , @. t2 b/ m2 l: D9 S9 O
    2. 张量处理核心(TPC):/ N/ R7 ~6 v6 ]% s5 {
  • 64 个 TPC 单元,用于多样化的计算操作。
  • 提供 28.7 TFLOPs 的 BF16 向量性能。
    * ~; Y& @* c& t! w8 ]; i; q
    5 E7 P7 T% r- ~. M% @3 N# A" c
    3. 内存子系统:
    ! z9 f4 N) \4 G' n% {6 v
  • 128 GB HBM 容量,带宽为 3.67 TB/s。
  • 96 MB 片上 SRAM,带宽为 12.8 TB/s(L2 缓存)。
    1 T9 g) X1 w/ A% W3 z5 ~+ b

    - C2 e* s8 t, u+ v  C5 y  t4. 网络能力:
    + a* u4 A- f0 M: a1 ^/ S9 V, t
  • 1200 GB/s 双向网络带宽。
  • PCIe Gen5 x16 主机接口,峰值带宽为 128 GB/s 双向。
    ( }- J. t  w3 s6 V% M1 Z

    " z! S0 Z( O1 g5. 媒体引擎:, F0 t, Y. s6 c' a$ v3 K4 {
  • 包括一个旋转器和 14 个解码器,支持多种格式(HEVC、H.264、JPEG、VP9)。
    / v7 b: [2 Q: M" H7 p% T9 i9 n8 `
    ; Q" Y* E) k5 |: ]( C1 S

    qynitfd1b5x6405754254.png

    qynitfd1b5x6405754254.png
    7 Y/ ?1 l# T  A* I: M+ _
    图4提供了英特尔 Gaudi 3 AI 加速器架构的深入视图,详细说明了其核心组件的排列。. p7 K' y; T( b3 k+ H2 z# A
    4 X' u3 Q$ O7 i" K" O, n
    架构深度解析
    8 z! U, l( o+ r) L6 b6 xGaudi 3 架构针对 AI 工作负载的最佳性能进行了设计:6 W8 o$ J9 _; |7 H/ ^' e
    1. 内存管理:
    : `# ^( w+ ~8 S" C9 S: `- u* j' G
  • 由 MMU 进行 HBM 的统一内存映射。
  • L2 和 L3 数据缓存分布在深度学习核心(DCORE)中。
    , S' D5 c/ {6 L5 f6 y& Y

    0 @  g# W$ ^& a6 t' N2. 计算集群:* l! H) [; T: \
  • 4 个 DCORE,每个包含 2 个 MME、16 个 TPC 和 24MB 缓存。
    9 L% O5 B4 S. p" a' g

      @- Q* z- ^1 L3. 专用加速器:
    / I1 y% A" c# A* `" a
  • 用于解码和旋转任务的媒体加速器。
  • 具有 24 个 RDMA NIC 200GbE 端口的网络子系统。
    ! e6 M: w& q8 r/ o+ U
    2 g5 d$ o$ ~9 \
    4. 控制系统:' T$ `! v/ e' h- S( T8 N1 ~0 `
  • 独立的控制块和 NOC 结构,实现高效管理。  F3 W. ]- R; v" I; ]" [
    . s& o2 {( v7 l. l

    v0pe1htv0am6405754354.png

    v0pe1htv0am6405754354.png

    % {9 }/ j, e2 F图5展示了矩阵乘法引擎(MME)的框图,这是 Gaudi 3 AI 加速器架构中的关键组件。: z0 Y6 l, a: |2 E: l
      m2 t- w# @: b3 J/ B8 H6 I
    矩阵乘法引擎(MME)) p  y& J1 `- c4 c, r
    MME 是 AI 工作负载的核心组件:
    , X/ T1 T  a; K( t# s2 w: k1. 结构:256x256 MAC 结构,具有 FP32 累加器。
    ; y5 b- t: o8 G$ V3 f& h
    ' p# x1 w4 U5 ?! Y2. 性能:BF16 和 FP8 运算可达到每周期 64k MAC。
    0 |7 m% m) H' `( m/ U
    6 a3 F9 b4 G6 t' j" ^" q3. 特性:
    . Y5 V  e- `7 M1 l* r  J
  • 内部流水线,实现计算吞吐量最大化。
  • 集成转置引擎,实现零开销输入转置。
  • 累积结果的灵活精度转换。
  • 用于输入重用的内部缓冲区,替代 L1 缓存。
  • 集成地址生成单元(AGU),实现高效数据处理。( I: F$ D  T( ^, b* }5 o! ~
    " [0 C7 B% \7 U7 {8 a" a0 q

    - q! S7 l7 l# X& ~4 R

    jb5wmvfjrag6405754454.png

    jb5wmvfjrag6405754454.png
      b3 y9 V2 e% M: }
    图6显示了张量处理核心(TPC)的框图,这是 Gaudi 3 架构中另一个关键元素。5 v; A/ s  {1 O* }
    % J; B- {( q  X+ }
    张量处理核心(TPC)
    8 n" M4 Z8 {# H/ t$ H. lTPC 通过处理非矩阵乘法运算来补充 MME:- q7 f; M" l) [0 n' S
    1. 可编程性:使用增强的 C 语言,包含 TPC 内部函数。* A# z* n3 P4 Q) C# }
    6 S6 ]) l$ L% _' U$ |( r- Z! r5 o# P
    2. 结构:具有 4 个独立流水线槽的 VLIW(向量、标量、加载、存储)。
    2 P' G2 ~3 J2 `9 w- S
    % ?6 O# U% Q% b+ H- m+ P3. 特性:  W, N2 Y- M9 M. f* U1 Q
  • 256B 宽 SIMD,用于向量运算。
  • 集成 AGU,用于内存地址计算。
  • 支持主要的 1/2/4 字节数据类型(浮点和整数)。
  • 12KB 向量寄存器文件和 80KB 向量本地内存。
    + t) N( k5 R) A- N; E: W
    0 H5 q* t+ I' u) R
    软件生态系统
    2 O  |" O6 H/ U; s2 y英特尔提供全面的软件套件,以有效利用 Gaudi 3 硬件:% X6 g5 ^( {7 d$ ~9 p
    1. 框架集成:支持主要 AI 框架,包括 FP16/BF16 → FP8 量化。
    : r* |% k$ s0 ~& N; C  c9 p  d7 ~7 Y% \# {
    2. 专有层:" t9 p$ S& e# B# Q! }+ G7 i
  • 图编译器,用于引擎依赖和调度。
  • MME 的矩阵运算配置。
  • 用于非矩阵运算的 TPC 内核。
  • Habana 集体通信库(HCCL)。! e5 A5 F1 ]% H

    6 v; B! I4 r) |& {2 u

    / L  ~! T" C. M3. TPC 内核源:7 }! A) F* h" Y6 i$ Q) P6 ]
  • 包括 Habana 的优化库、自定义用户内核和基于 MLIR 的融合内核。4 t  l  n0 P! M5 e" Y
    2 H0 \7 W6 i6 P
      k9 v! G" X. g- x* M; }! ]) f

    oqdiyx5avop6405754554.png

    oqdiyx5avop6405754554.png

    4 c2 C' E# m1 ]# D. A2 v$ }图7展示了英特尔 Gaudi 软件套件的分层视图,说明了不同组件如何相互作用以支持 AI 工作负载。
    $ s5 y: s3 l9 G5 g0 b. z9 A
    ; |& m3 Q4 @' S* q6 H性能和可扩展性- |+ C/ y0 u# p* |5 \3 z/ o
    Gaudi 3 AI 加速器在生成式 AI 推理基准测试中表现出色:
    ! c- M- a5 J4 P. m; a1. 模型支持:可与所有主要的 LLM 和生成式 AI 模型配合使用。, H# V" y- g; o- A1 n1 Y5 `

    & @+ s9 m$ P2 u# `2. 性能提升:与 Gaudi 2 相比,性能提升最高可达 2.8 倍。) h) k. k9 N' V2 I  q! @

      g& D$ i, z0 q3. 可扩展性:设计用于各种规模的 AI 加速,从单卡到完整集群。+ I- Q# ?. v3 _7 n, p1 k
    ) R+ F' L% l( ~% R4 X: h9 E5 W6 F

    5jmxlhvuj3n6405754655.png

    5jmxlhvuj3n6405754655.png
    $ x7 U. A1 Q$ `1 N
    图8展示了 Gaudi 3 的可扩展性,显示了从单卡到完整机架和集群配置的部署方式。
    7 E1 b0 U' P8 M. e" `. q$ q
    . q7 f0 h9 p+ T  E3 f' ~# d结论
    ( a7 s9 M  {5 Q- i6 {: ~英特尔 Gaudi 3 AI 加速器代表了 AI 硬件技术的进步。其创新架构结合了强大的矩阵乘法引擎和多功能张量处理核心,加上高带宽内存和网络能力,使其成为处理复杂 AI 工作负载的强大工具。随着 AI 计算需求持续增长,特别是在生成式 AI 和大型语言模型等领域,Gaudi 3 在性能、可扩展性和软件生态系统支持方面的平衡使其成为希望推动 AI 研究和应用发展的组织的有力选择。
    ) D. R  V( T* p4 z  u( u
    + M- T' M& P2 p- }! N. }+ f
    ) x$ T) a/ h' ^. r1 z$ m2 R
    参考文献  H: O( ?! @/ U" ?( @% |; I" ]
    [1] R. Kaplan, "Intel Gaudi 3 AI Accelerator: Architected for Gen AI Training and Inference," Intel Corporation, Aug. 2024.: ]1 [) C6 t( [- V" L

    0 d6 _8 o5 j9 n2 o8 J- END -
    3 h' m! D3 x( X3 k7 v
    7 d2 C& T7 \6 W, d8 W7 x2 R2 ~
    5 |2 N6 E. e, Y7 t2 I" o软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。6 H8 P8 d, p: X4 F  a5 `, c+ s
    点击左下角"阅读原文"马上申请; H4 i- n2 d# x& w+ y( }" W/ B

    . C) g* t' S# `欢迎转载
    4 g& F1 v! r) j, S. m) J/ X* ?
    转载请注明出处,请勿修改内容和删除作者信息!
    % `+ T+ c8 s0 l: W
    ! f* }6 K' V& r1 u6 D8 `* U- d9 M' C, _) z

    $ K4 {/ e! ]% N1 D$ z+ T

    xkywa0e1cop6405754755.gif

    xkywa0e1cop6405754755.gif
    7 p/ l- ?6 j8 \7 R8 i" B

    ) k2 k! t% a( H- g3 i7 l5 c关注我们' `# ]5 U% ^0 ]" H
    " y1 x& u0 K, e( S" d. y
    7 Q. ^7 z) n) c" y+ n9 p9 U

    ygc3fcceqe56405754855.png

    ygc3fcceqe56405754855.png

    # q+ S. L9 S1 _" T" k. i/ r3 s

    2 k, t  q' v8 u* b

    dujc2g2yqfc6405754955.png

    dujc2g2yqfc6405754955.png
    ) I$ m8 L) h9 o- Q' i. E9 l0 E
    ; S+ C  n* P# V

    atxvlpfevc16405755055.png

    atxvlpfevc16405755055.png
      g: o5 Y& T9 |$ ?6 t
                         
    ! e# Q$ _# O- t
    . ]% ~1 {6 l( v1 y8 @1 n& f7 T
    ' w" }- u' J1 i  p

    3 y( k6 q" q, l9 q关于我们:/ d' \' B4 J$ E& t8 b
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。1 d  {8 b( H0 l0 S$ A6 o7 M

    + v2 P" d# Q& f! ~3 R* U% {7 n3 qhttp://www.latitudeda.com/+ R* k4 a( F0 ]. e3 R, N: X- M
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表