电子产业一站式赋能平台

PCB联盟网

搜索
查看: 979|回复: 0
收起左侧

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推动AI和高性能计算

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-9-29 08:02:00 | 显示全部楼层 |阅读模式
引言* ^* I) N4 n& T( ]  L8 r
本文旨在帮助读者了解AMD Instinct MI300X加速器,这款加速器代表了人工智能(AI)和高性能计算(HPC)技术的进步[1]。我们将探讨MI300X的架构、特性和性能,展示其如何满足生成式AI和大型语言模型(LLMs)不断增长的需求。. t+ {% ?( N; I7 @
8 l, J- b1 x  r# G7 @# F# g
AMD Instinct MI300X简介8 G" N" W8 b( z7 P  F
AMD Instinct MI300X是AMD持续推进HPC和AI计算能力的成果。在其前代产品的基础上,MI300X专注于统一内存、AI数据格式性能和节点内网络通信的改进。
' w( W- m) v$ @4 S5 O" h1 h" \' P  `* l& m- R. V( J

q2iowyshnqu64024937633.png

q2iowyshnqu64024937633.png
  K& f0 y3 v% E: Q2 c
图1:AMD Instinct加速器的演进历程,展示了从MI100到MI300X的技术发展重点。
; Y! E0 [- E7 v% J  S0 P2 z7 ~1 [+ @7 K' g0 K
架构概述
; C7 r5 j  B& G$ }; BMI300X的核心是AMD CDNA 3架构,采用多Chiplet设计,包含1530亿个晶体管,使用台积电5nm和6nm FinFET工艺制造。
  s5 A, D0 Y3 X: |: ~* W3 z" n

yh3125r1hyw64024937733.png

yh3125r1hyw64024937733.png
) z, c7 _! x( ^: U" j6 o" J# [
图2:详细展示了AMD Instinct MI300X多Chiplet加速器的结构,包括多个XCD(GPU Chiplet)、HBM3内存和互连设计。3 q& u& M8 b* f- [* x: U
  P9 c! \$ c- P, }1 B9 B! T
MI300X的主要特性包括:+ r: f; J/ [; `
  • 304个计算单元
  • 1,216个矩阵核心
  • 192GB HBM3内存,带宽达5.2 TB/s
  • 第四代Infinity Fabric,带宽高达896 GB/s, v) D7 r, d5 }  q9 B6 w/ Z

    * W$ u+ K$ O- M/ QMI300X的架构针对AI工作负载进行了优化,特别是在矩阵运算和低精度计算方面。2 E0 I( c! ?6 R7 M' U  C7 R# |  H
    . w1 r0 N# Q: M1 X8 g
    CDNA 3架构改进$ R6 m( G  Q# R8 Z/ y
    CDNA 3架构相比前代产品有显著提升:/ o/ C6 N$ x8 D! T& A
  • 每时钟周期每计算单元的低精度矩阵运算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4结构化稀疏性
  • 新增TF32和FP8数值格式支持
  • 支持各种浮点和整数运算的并发执行6 ^  F( h1 O  V! P+ D

    : {; s5 i0 V0 o+ Z5 l" x7 x8 z, ?
    & q8 e7 C. T) L' {- X

    ogek23y05in64024937833.png

    ogek23y05in64024937833.png
    9 {7 \/ z) P% U- L: \
    图3:MI300X与MI250X计算能力的详细对比,突显各种数据格式的性能提升。
    3 D9 a$ X- G8 _/ @3 t) ~2 w$ v: x* o  J+ K5 V4 Z
    : t4 t8 H: v- D1 G# z+ e
    内存系统
    8 f: Q+ d4 o" ~3 i# T0 P# t; UMI300X的一个突出特点是其内存系统:
    * l4 _. a- ^) ]9 m1 \2 A& t
  • 全球首个8堆栈HBM3内存架构
  • 每个加速器配备192GB HBM3内存
  • 5.2 TB/s的内存带宽
    + y' B4 `: E5 J! L, ^: X# y) \: Y- Y

    * w+ n! m; Q. h3 m. X这种大容量内存使MI300X能够处理比竞争对手更大的AI模型。例如,单个MI300X平台可以支持高达6800亿参数的LLM推理任务。
    & H1 y( G* m: n  l& ^3 p: ^

    abjx3vckule64024937933.png

    abjx3vckule64024937933.png
    1 k1 C7 ?, k5 l4 N2 ~9 V7 j. i, t6 J
    图4:AMD Instinct MI300X与NVIDIA H100内存容量和带宽的对比。7 _# {& b- X  B" z$ d1 }0 i

    9 U, }$ ?: }( g. P4 Z$ h缓存层级和Infinity Cache1 \1 i* V4 [$ C2 _7 q( ^
    MI300X具有复杂的缓存层级结构:# i  N" l: @* W8 R: `
  • 每个计算单元32 KiB L1数据缓存
  • 每两个计算单元共享64 KiB L1指令缓存
  • 每个XCD有4 MiB L2缓存
  • 256 MiB Infinity Cache) N$ X# f) U" [  ^- q0 d
    9 F0 }- A' w: a1 I

    8 w2 V' H3 S9 R9 J) y5 [

    4exaqyeliv064024938033.png

    4exaqyeliv064024938033.png

    $ t1 I% N/ J! S3 a. c9 r# D& I图5:MI300X的缓存和内存层级结构图。- R- T$ ~0 t" s/ ]1 }4 l

    3 V# g# t9 d5 ?4 P2 nInfinity Cache是一个亮点特性,提供256 MB缓存,峰值带宽达14.7 TB/s,在带宽放大、功耗降低和延迟改善方面带来显著益处。, O0 p: }8 M# O8 Z0 f+ J

    $ o9 j, l2 ~- l! u空间分区和虚拟化5 [$ I) q: F+ C2 Q3 Y
    MI300X支持灵活的空间分区,允许将GPU分为多个分区:
    4 E! ~' L. T  V0 M9 J8 F% }
  • 可以分为与XCD数量相等的分区
  • 支持单根I/O虚拟化(SR-IOV),每个平台最多64个虚拟功能(VF)
  • 支持动态重新分区以优化工作负载; E9 ^* [' p% G% a' ]6 v

    % v. }2 M( q. `' p7 Q+ A$ K0 c' s2 L3 Y

    ggm0g4zyhjz64024938133.png

    ggm0g4zyhjz64024938133.png
    5 o1 `0 B2 }* K. Y4 W
    图6:展示了AMD Instinct MI300X GPU的多种空间分区配置,突显其在不同工作负载和虚拟化场景下的灵活性。8 s: h+ c2 S4 A; w, W2 o6 A! C

    & D5 @" d* P7 T: n9 a$ R# DAMD Instinct MI300X平台
    ; L( z7 {+ t/ A% u" L& i; fMI300X设计为在平台配置中工作,通常包括:; j( ]5 V( P0 _+ z
  • 8个AMD Instinct MI300X加速器
  • BF16/FP16性能约为10.4 PetaFLOPS
  • 总计1.5 TB HBM3内存
  • Infinity Fabric带宽约为896 GB/s! L$ B3 j5 b6 b& g+ A* W& z" r

    5 Q6 T6 _! Y" v# x
    8 |& G+ @9 K$ x/ L7 y8 H

    fxyxxvy0tm164024938233.png

    fxyxxvy0tm164024938233.png

    7 K# R! b) ^* x  _! O图7:AMD Instinct MI300X平台的概览,展示其作为领先生成式AI平台的关键特性。% |! {9 U$ [& o+ S
    $ X. P0 d/ m; j" _* F3 E8 n: B
    Infinity平台和生态系统% r) ^8 |1 I" D' _1 ]7 b8 r
    MI300X Infinity平台通过AMD Infinity Fabric为8个OAM(开放加速器模块)提供直接连接:
    8 @, r, \- H0 ?# Y: o9 v
  • 七个双向链路,每个带宽为128 GB/s
  • 每个OAM配备PCIe Gen 5 x16,用于服务器连接和I/O
  • 192GB HBM用于RDMA(远程直接内存访问)& m. `" z2 y5 }+ T# A/ D0 n

    9 ^. q& R" l* Y. z7 U
    9 y/ E8 E( W- p

    bfmnlzuyiwz64024938334.png

    bfmnlzuyiwz64024938334.png
    5 q3 Y# f2 `+ V) C) D
    图8:展示了MI300X Infinity平台的结构,说明了多个MI300X加速器之间的互连以及与主机服务器的连接方式。
      W* d8 i' T1 n% S7 t4 @1 t9 h; y4 O+ u. V3 ]' S6 g$ X
    该平台还符合行业标准并提供高级特性:
    1 p. L* q; \3 c: ?
  • 符合UBB 2.0标准,实现快速部署和无缝数据中心集成
  • 增强的安全特性,包括SPDM认证
  • 全面的RAS(可靠性、可用性、可服务性)特性
  • 先进的遥测和固件管理功能$ W+ }9 m, o5 n6 L( p
    : G) [  I. ?0 a+ s
    软件生态系统6 D$ @# _: o' `0 s6 j
    AMD为支持MI300X开发了软件生态系统:6 _! d0 k9 i# b
  • ROCm(Radeon开放计算)平台用于GPU计算
  • 针对AI和HPC工作负载优化的库
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 扩展的开发者工具和运行时环境. Q9 l: }/ w( q

    4 J# f+ ?- C7 y; j4 U" f8 N; `7 T' q) \这个软件栈确保开发者能在各种应用中高效利用MI300X的能力。4 l( u* _1 A4 W6 `- l$ V6 Y

    5 `/ Z3 B; p8 `. Y% MAI工作负载性能* A; O/ A6 J/ q
    MI300X在各种AI任务中展现了令人印象深刻的性能:) ]- q/ \/ n" n3 w. ]5 d
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微调任务中表现出色* v, D6 o- G8 e  @
    2 W6 t+ J. i# C/ u# A& j8 D1 w# [- f

    / A" q$ {3 E0 A8 \) a

    qdmdth2s0oc64024938434.png

    qdmdth2s0oc64024938434.png
    3 ?1 n1 Y& v. Y) |
    图9:AMD Instinct MI300X与NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量对比。3 |# K( s/ x1 a/ u1 `) x# F3 T
    : k, f! O: e5 V9 o
    结论
    & X9 e! |* Z3 q( U& W$ G, e' ?( TAMD Instinct MI300X代表了AI和HPC工作负载加速器技术的进步。其创新架构、大容量内存和强大的计算能力使其成为高端AI加速器市场的有力竞争者。随着对更大、更复杂AI模型需求的不断增长,MI300X高效处理这些工作负载的能力使其成为推动AI研究和部署的理想选择。
    ; b9 w0 X. Y) h! T  T; g+ K" \8 b7 q1 d/ s& L/ ~
    凭借灵活的分区、先进的内存系统和强大的软件生态系统,MI300X完全有能力应对从训练大型语言模型到加速推理任务的各种AI挑战。随着AMD持续完善和扩展其AI产品线,MI300X彰显了该公司在快速发展的人工智能和高性能计算领域推动创新的承诺。
    ; e9 ~7 T* V, C. \! C; V) z$ _5 R* ?# P! c
    参考文献) G8 i8 K* a$ f$ T& l
    [1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
    * U0 J) `$ e2 x4 d0 V3 E$ N$ q0 j
    7 p5 D1 U) v  ~) X& ?- END -3 M7 @$ W6 e- u3 n
    5 j) K+ n) c9 j- n. P4 d
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    3 W2 `; h1 @. Q* Y点击左下角"阅读原文"马上申请
    # `* r0 g- t) q. [
    ; O5 N1 ]% @4 s* x: p# ^欢迎转载5 a4 f: F; v' i; T! }% A
    8 f9 F6 u* X% I( N  x! A5 g
    转载请注明出处,请勿修改内容和删除作者信息!
    & ?8 p2 X1 W5 Y( f" J) ^4 I1 p& S5 L6 H- ~. Y. ^

    7 ?4 C1 `# [3 i, t' b9 w; A! Y/ b
    : n1 P' W4 a/ V

    whraycy4pwq64024938534.gif

    whraycy4pwq64024938534.gif

    + j1 h2 H  ^% Y* c
    : z0 g% f$ r9 [  C/ v+ D: F' t关注我们
    ' l& b4 m! C: a, w3 s; X, c2 N- q" z
    . _3 u8 C2 R% c: }- S

    k5tkk1oi1r364024938634.png

    k5tkk1oi1r364024938634.png

    ) f* X+ K# J; a/ C% m4 I

    ( Z& h$ V; y! h5 H9 b  H! `/ @3 B

    an1bh1cylh464024938734.png

    an1bh1cylh464024938734.png

    8 E/ \0 F# f% j; h6 p% w' a4 ~
    9 I5 i+ A6 y( p& \% W: ~# L' c) q

    hktsuthux0d64024938834.png

    hktsuthux0d64024938834.png

    : W. O- _( u2 L0 k# `1 K0 Y7 O! j- |
                          8 r* Z5 @  ~% z% c
    8 k& F% h& B/ N9 k. y3 _
    : [# z+ |- b3 {# r) N" [7 L
    1 ]! R$ R$ h4 I' U& G2 `
    关于我们:; y3 z" g+ O" Y8 o
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。1 Q& v0 y5 N6 ?/ z

    ! E3 @. s' I- ]2 z0 Z! i& y5 Xhttp://www.latitudeda.com/
    + U/ A' e1 V* t2 i(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表