电子产业一站式赋能平台

PCB联盟网

搜索
查看: 209|回复: 0
收起左侧

Hot Chips 2024 | NVIDIA Blackwell平台推进生成式AI和加速计算

[复制链接]

1076

主题

1076

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11451
发表于 2024-9-23 08:01:00 | 显示全部楼层 |阅读模式
引言
5 i, o7 w$ y1 bNVIDIA Blackwell平台代表了生成式AI和加速计算领域的重大进步。本文将討論Blackwell平台的关键组件和创新,展示其如何应对AI工作负载的不断增长需求,并推动计算能力的极限[1]。/ v& S+ r7 ?6 m. b+ U
. G5 ?/ m# F2 n7 T, ~( t/ `
NVIDIA Blackwell平台简介
' k( m5 f& c  {- hBlackwell平台是NVIDIA最新推出的数据中心规模架构,旨在应对日益复杂的AI模型和加速计算任务带来的挑战。该平台的核心组件包括:
  I- r) c) F5 G% Z% z2 E
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3网络解决方案; t+ N: b2 a% {% ?

    5 D& H' D7 [' T' J4 ?

    xaz3mp4sar56402431047.png

    xaz3mp4sar56402431047.png
    " A0 l: |4 f  t. ~0 o6 [# C
    图1:NVIDIA Blackwell平台组件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和网络解决方案。4 c9 ]* K. S" f

    & U% p5 ^& _# r' Q; G+ a这些组件协同工作,为AI和高性能计算工作负载提供全面的解决方案。该平台建立在NVIDIA开发CUDA-X库的丰富经验基础上,这些库优化了各种应用领域的性能。/ A) F" o6 O8 p
    8 X2 r/ }$ E# c6 R2 X
    / r4 w' H2 y  X% f; R) T
    Blackwell GPU:AI计算的新时代
    : k- c* o1 a, ~+ CBlackwell GPU是Blackwell平台的核心,这项工程奇迹推动了AI计算的可能性边界。
    / ?" h' t9 u) B" A6 k+ s3 r$ V

    kvd42alc1cp6402431147.png

    kvd42alc1cp6402431147.png

    5 g! q; ]! J5 H. V- O1 e; c图2:NVIDIA Blackwell GPU,展示其主要特性和功能。( {* G! L: I+ c! f7 d) \
    4 U# y! m. @- ?5 O
    Blackwell GPU的主要特点包括:
    ( }9 H3 g1 z* e1 o2 t' X
  • 使用台积电4NP工艺制造的2080亿晶体管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s内存带宽,采用8位HBM3e
  • 1.8 TB/s双向NVLink带宽
  • 与Grace CPU的高速NVLink-C2C连接1 W9 J  B. B" B0 M
    ' P9 P/ X: ^3 E0 m. c0 S+ h
    Blackwell GPU相比其前代产品有显着进步,提供更强大的AI计算能力、内存带宽和互连能力。
    ' k9 ~- I+ d3 i9 w0 R$ M

    hrgzto5pnn46402431247.png

    hrgzto5pnn46402431247.png
    5 ~1 {: V! N6 b; ?
    图3:从Volta到Blackwell的NVIDIA GPU演进,展示晶体管数量和芯片面积的增加。( ~# E" P; j( H$ z
    ) _7 C0 ~, s) o/ y) e0 Y
    Blackwell GPU的一项关键创新是NVIDIA高带宽接口(NV-HBI),在单边提供10 TB/s的双向带宽。这个接口允许创建具有全面性能的统一GPU,不牺牲速度或效率。
    " M/ A, X& g& N9 ]
    8 n/ Y$ [0 D  ^4 ^NVIDIA GB200 Grace Blackwell超级芯片
    8 H/ L7 z/ x: \6 F' Q# ?GB200 Grace Blackwell超级芯片将Grace CPU和Blackwell GPU的性能结合在一个封装中,为AI工作负载提供无与伦比的性能。5 I1 V* e+ O; s9 A# S7 D6 G

    zpjgaokcfbe6402431348.png

    zpjgaokcfbe6402431348.png
      l7 x$ @( C( s
    图4:GB200 Grace Blackwell超级芯片,展示Grace CPU和Blackwell GPU的集成。$ k! |: b! G: L
    3 N, r- F$ D8 F5 ?$ k' B0 n( y
    GB200 Grace Blackwell超级芯片的主要特点包括:
    3 S3 ^- ?% A+ z& i8 K% G# c2 ]
  • 1个Grace CPU和2个Blackwell GPU
  • NVLink-C2C互连
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高带宽和低延迟通信
  • 针对AI工作负载中的键值(KV)缓存进行了优化
    8 H/ L) J# _& J9 J$ n/ p

    + u. U% x, l2 b6 G0 \( {* `. M# ^NVIDIA Quasar量化系统:实现低精度AI
    % A" ^( \& e' N9 X2 O* U' x" xBlackwell平台引入了NVIDIA Quasar量化系统,实现低精度AI计算而不牺牲准确性。该系统解决了与低精度计算相关的几个挑战:4 a" g3 F3 ^2 Q: v6 G. n
  • 精度损失
  • 非均匀层敏感性
  • 窄动态范围
  • 量化噪声0 ?' m' \: O+ Y, z% f4 ]4 u! w+ y
    : ?1 w" Q( J& ]1 M; k6 a9 R" k+ ]
    1 S) R" d2 j+ p9 U6 t+ T+ R6 _  E9 T

    m2i32vpsv536402431448.png

    m2i32vpsv536402431448.png
    ) Y- a: `0 \, a, u
    图5:NVIDIA Quasar量化系统,说明组件和研究领域。
    / E- k* n+ z: e. W5 D3 Q! p& X
    4 T! q1 j" ]2 VQuasar量化系统包括几个关键组件:
  • Transformer引擎:硬件和软件优化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度数值算法:基于敏感度的层选择、动态范围正则化等
    4 K7 b( z$ O- z  j# x[/ol]
    3 c6 v% D! i( z, z& W' yBlackwell GPU最显著的创新之一是第5代Tensor Core,引入了新的微张量缩放FP格式,包括FP4和FP6。, C( ?5 Z. V  J2 D* k

    jqzkjevoimk6402431548.png

    jqzkjevoimk6402431548.png
    3 M5 T: b/ E% I

    dph0fqkmada6402431648.png

    dph0fqkmada6402431648.png
      ]" y1 Z/ I& h" }
    图6:第5代Tensor Core支持的FP格式总结,比较Hopper和Blackwell的性能。
    / Y7 R1 W/ R: S, v, X. ^0 \
    6 s4 B# Q5 K; Q( o# ]8 t5 F, }$ _这些新格式提供了几个优势:& T) |: r2 a( M8 ?! d3 w
  • 更宽的FP范围
  • 放大的带宽
  • 更低的功耗
  • 更精细的量化粒度
    ; Z8 k' J  c( S! [5 O9 W. G

    8 t! k, S+ x, {7 \4 Z& u2 i4 G, G: k& {Quasar量化系统的有效性通过令人印象深刻的FP4推理准确性结果得到证明:; j$ V* r5 p5 \3 [8 ~
    8 _* O2 L! d: a$ e# b4 K

    ozl5hmaalel6402431748.png

    ozl5hmaalel6402431748.png

    $ V2 _! k# Q' B) C) `图7:各种模型的FP4推理准确性结果,比较BF16和量化FP4性能。# B* A# w  B- n- K% C4 A

    ( F% B, Z# Z# R9 `/ F7 q这些结果表明,即使是像Nemotron-4 340B这样的大型语言模型,使用量化FP4也能达到出色的MMLU(大规模多任务语言理解)分数,匹配甚至略微超过BF16模型的性能。
    ( c* P: \/ \0 f$ n. v9 c! q- O0 p3 J; m1 i% t4 A: ?" A3 y
    AI网络:端到端性能和功率扩展+ {2 A2 o- c: n& j2 P7 c' a' Q
    随着AI模型规模和复杂性的指数级增长,对大规模多GPU推理的需求变得越来越重要。Blackwell平台通过先进的网络解决方案应对这一挑战。
    9 m+ h( R; d  _0 j5 D. o  `

    2jbtw32ba3z6402431848.png

    2jbtw32ba3z6402431848.png

    3 n. z+ U2 H+ K8 D& Z/ E# ?4 e图8:AI模型规模随时间的增长,说明参数数量的指数级增加。
    " s- S" D* [1 Z' k7 J1 n  k/ v1 F1 r* k. o9 @( W; ]# j: R
    为满足这些不断增长的模型需求,NVIDIA开发了世界级的NVLink PHY性能:
    * B; O0 I( s1 Y7 w* K( |

    q4xfvrk3fa16402431948.png

    q4xfvrk3fa16402431948.png

    + |7 R7 B6 _: e# u1 v) S, }3 l图9:从Ampere到Blackwell的NVLink性能演进,展示带宽和链路速度的增加。% m" X: U. q: R6 ]9 f

      Q* `& T7 I( @1 o1 W6 N( ~1 rBlackwell平台引入了第5代NVLink PHY,通过18个NVLink提供1800GB/s的总带宽,每个NVLink能力达到100GB/s。
    ) D6 ~% V" h; K6 j
    ' _9 U; K7 c1 a, }, t& _) |网络解决方案的另一个关键组件是第4代NVLink Switch Chip和NVLink Switch Tray:
    / |% {( c/ t; G

    35kxgkqpwzv6402432049.png

    35kxgkqpwzv6402432049.png

    6 r$ n) N( e* b4 e! ~图10:第4代NVLink Switch Chip和NVLink Switch Tray,突出显示主要特性和功能。
    ' G% ]) }" `5 ~2 {' @& D2 j1 C. i$ D* W
    NVLink交换芯片的主要特点包括:' n" E- e6 A* w; p  E6 `" l/ @
  • 台积电4NP工艺中>800 mm2的芯片面积
  • 在GB200 NVL72上将NVLink扩展到72个GPU
  • 通过72个端口实现7.2 TB/s全双向带宽
  • SHARP(可扩展分层聚合和规约协议)网内计算,3.6 TFLOPS性能
    5 P; J. k- t$ ?8 l% r; F

    $ i" o$ G& @& ^NVLink交换托盘包含两个NVLink交换芯片,提供总计14.4 TB/s的带宽。& k) i2 o4 b4 I4 l

    7 P( e4 R: g2 L: r" `. AGB200 NVL72和NVL36:新的计算单元0 ^' L1 R; W' X, F$ U" ~6 ?6 J
    Blackwell平台引入了两种强大的配置:GB200 NVL72和GB200 NVL36,在单个机架中提供前所未有的计算能力。
    ) H; P) q; G# q3 V+ w

    eo3jvx51lyc6402432149.png

    eo3jvx51lyc6402432149.png
    / f8 Q: E! \# c0 e0 u( y  Z
    图11:GB200 NVL72和NVL36配置,展示每种设置中的GPU、CPU和NVLink交换托盘数量。
    5 s: {+ N% O* B" W" I1 V' M$ b3 M$ s
    GB200 NVL72配置提供:
    % e6 M* @2 G# i7 s" q
  • 36个Grace CPU
  • 72个Blackwell GPU
  • 9个NVL72 NVLink交换托盘
  • 720 PFLOPs的训练性能
  • 1,440 PFLOPs的推理性能
  • 支持27万亿参数的NVL模型大小
  • 130 TB/s的多节点带宽
  • 260 TB/s的多节点全规约
    & r5 c1 M5 ?* a2 `9 x4 `  |
    1 H* G* J( `3 F/ @7 x
    这种配置能够高效扩展大型AI模型,包括具有1.8T参数的GPT专家混合(MoE)等万亿参数架构。
    7 i* y, D. G7 o- o0 O

    imtnn4vne246402432249.png

    imtnn4vne246402432249.png

    ' _. H4 J, Q# C& i$ y图12:GB200 NVL72在万亿参数AI模型上的性能比较,展示吞吐量和能效的改进。9 r" M: {* s+ c

    4 _  W6 A  P! q2 T6 H- ]GB200 NVL72配置展示了令人印象深刻的性能提升:9 ^: b7 ^2 Q& o' B' W4 U
  • 与前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 总拥有成本(TCO)降低25倍9 W/ |, O9 H9 ~5 X
    0 I3 l9 Y, B( W! A9 Q" K& |1 j. K+ \
    结论:AI和加速计算的未来) r5 J$ s0 J3 E3 J
    NVIDIA Blackwell平台代表了AI和加速计算领域的重大进步。通过解决不断增长的模型规模、计算需求增加以及高效网络需求的挑战,Blackwell为性能和效率设立了新标准。
    . u( M% O' t: W! e( a  a9 N

    k5hui4llqno6402432349.png

    k5hui4llqno6402432349.png

    6 [/ ]- W; z1 @1 U$ }9 b6 \图13:NVIDIA数据中心规模架构的路线图,展示从Hopper到Blackwell及未来的演进。" {8 r" m7 y" r7 z9 ~3 ~" x
    & V; }2 j7 w" H. D1 T7 z
    Blackwell平台的主要成就包括:+ z* ^& O, v& }: q6 n  s
  • 全栈、数据中心规模平台,涵盖GPU、CPU、NVSwitch、DPU、NIC和网络交换机
  • NVIDIA Quasar量化系统实现低精度AI而不牺牲准确性
  • 实时万亿参数LLM推理性能提升超过一个数量级
  • AI训练、推理和加速计算的性能和功耗显著改善+ E# t& u7 u. G& Z
      ]& \% O. f) t
    通过提供必要的计算能力、内存带宽和网络能力,Blackwell使研究人员、开发人员和企业能够解决日益复杂的问题,在人工智能和高性能计算领域开启新的可能性。  J% c& {; b9 C0 ?

    ! j  V# B7 J" c  Y  H1 @7 e3 _参考文献$ |) D( y0 V' K. S/ N% x) T5 S' w
    [1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.
    " T5 J8 l( s0 D- Q5 a4 C7 C
    + a0 z( W0 T' y6 \- END -
    9 [2 R9 A! V5 b& I" r
    # B' W* l+ |) ]  i. X9 P软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。6 J9 T- A+ f/ @/ j
    点击左下角"阅读原文"马上申请8 ~) H4 H. C1 g+ `3 \& |0 o

    # J6 G/ [8 n! d+ b4 l& L1 _欢迎转载
    ' g2 ?# s/ [) p& |
    , f' u) y8 j: |4 t9 N( r/ J, B转载请注明出处,请勿修改内容和删除作者信息!9 _6 f) ^: S$ z2 Z$ _8 u  c
    6 G) _1 U+ ~" Z
    : _7 c0 t0 n* U! G$ q
    4 [, x, e# ^( H; l( K$ y; x

    51ru2ery2g36402432449.gif

    51ru2ery2g36402432449.gif
    " v; l* D8 @$ d/ R
    , w# y) x6 R5 Q- @& ~" f# z$ P
    关注我们
    ; Y+ \4 ^; T3 U
    8 H9 p% O9 i7 G

    2 h! A& X0 l1 N/ z0 b5 k1 `

    gslhxcf1eyg6402432549.png

    gslhxcf1eyg6402432549.png
    5 s7 \! `$ {' t6 j# i: `! a3 z. H
      m# ~# X- g' f% X9 g" F

    pks442qgcst6402432649.png

    pks442qgcst6402432649.png
    & Q% u% q/ [+ M: S

      s9 [+ W; [( U

    3u0h1j54xwh6402432749.png

    3u0h1j54xwh6402432749.png

    : ~$ s/ l/ G  A) a& [
                          " e$ l! O7 {+ j. e4 O2 k

    1 I# E9 s, [* D+ U  j
    / x  t- w7 E4 L( j7 Z6 o) O2 Y/ l2 I
    ' ~% x7 |) r1 p* S3 z0 m7 Q2 L9 G; F
    关于我们:# q5 s8 {$ i1 L9 ?) `+ Z
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    ! w1 I$ C$ b( h; m8 a3 T8 P( |# ^  e& W5 \6 ?) Q& U
    http://www.latitudeda.com/
    # O9 G, W: W, K; |4 h+ K4 ]1 ~* S(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表