|
引言
5 i, o7 w$ y1 bNVIDIA Blackwell平台代表了生成式AI和加速计算领域的重大进步。本文将討論Blackwell平台的关键组件和创新,展示其如何应对AI工作负载的不断增长需求,并推动计算能力的极限[1]。/ v& S+ r7 ?6 m. b+ U
. G5 ?/ m# F2 n7 T, ~( t/ `
NVIDIA Blackwell平台简介
' k( m5 f& c {- hBlackwell平台是NVIDIA最新推出的数据中心规模架构,旨在应对日益复杂的AI模型和加速计算任务带来的挑战。该平台的核心组件包括:
I- r) c) F5 G% Z% z2 EBlackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3网络解决方案; t+ N: b2 a% {% ?
5 D& H' D7 [' T' J4 ?
xaz3mp4sar56402431047.png
" A0 l: |4 f t. ~0 o6 [# C
图1:NVIDIA Blackwell平台组件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和网络解决方案。4 c9 ]* K. S" f
& U% p5 ^& _# r' Q; G+ a这些组件协同工作,为AI和高性能计算工作负载提供全面的解决方案。该平台建立在NVIDIA开发CUDA-X库的丰富经验基础上,这些库优化了各种应用领域的性能。/ A) F" o6 O8 p
8 X2 r/ }$ E# c6 R2 X
/ r4 w' H2 y X% f; R) T
Blackwell GPU:AI计算的新时代
: k- c* o1 a, ~+ CBlackwell GPU是Blackwell平台的核心,这项工程奇迹推动了AI计算的可能性边界。
/ ?" h' t9 u) B" A6 k+ s3 r$ V
kvd42alc1cp6402431147.png
5 g! q; ]! J5 H. V- O1 e; c图2:NVIDIA Blackwell GPU,展示其主要特性和功能。( {* G! L: I+ c! f7 d) \
4 U# y! m. @- ?5 O
Blackwell GPU的主要特点包括:
( }9 H3 g1 z* e1 o2 t' X使用台积电4NP工艺制造的2080亿晶体管20 PetaFLOPS FP4 AI性能8 TB/s内存带宽,采用8位HBM3e1.8 TB/s双向NVLink带宽与Grace CPU的高速NVLink-C2C连接1 W9 J B. B" B0 M
' P9 P/ X: ^3 E0 m. c0 S+ h
Blackwell GPU相比其前代产品有显着进步,提供更强大的AI计算能力、内存带宽和互连能力。
' k9 ~- I+ d3 i9 w0 R$ M
hrgzto5pnn46402431247.png
5 ~1 {: V! N6 b; ?
图3:从Volta到Blackwell的NVIDIA GPU演进,展示晶体管数量和芯片面积的增加。( ~# E" P; j( H$ z
) _7 C0 ~, s) o/ y) e0 Y
Blackwell GPU的一项关键创新是NVIDIA高带宽接口(NV-HBI),在单边提供10 TB/s的双向带宽。这个接口允许创建具有全面性能的统一GPU,不牺牲速度或效率。
" M/ A, X& g& N9 ]
8 n/ Y$ [0 D ^4 ^NVIDIA GB200 Grace Blackwell超级芯片
8 H/ L7 z/ x: \6 F' Q# ?GB200 Grace Blackwell超级芯片将Grace CPU和Blackwell GPU的性能结合在一个封装中,为AI工作负载提供无与伦比的性能。5 I1 V* e+ O; s9 A# S7 D6 G
zpjgaokcfbe6402431348.png
l7 x$ @( C( s
图4:GB200 Grace Blackwell超级芯片,展示Grace CPU和Blackwell GPU的集成。$ k! |: b! G: L
3 N, r- F$ D8 F5 ?$ k' B0 n( y
GB200 Grace Blackwell超级芯片的主要特点包括:
3 S3 ^- ?% A+ z& i8 K% G# c2 ]1个Grace CPU和2个Blackwell GPUNVLink-C2C互连40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高带宽和低延迟通信针对AI工作负载中的键值(KV)缓存进行了优化
8 H/ L) J# _& J9 J$ n/ p
+ u. U% x, l2 b6 G0 \( {* `. M# ^NVIDIA Quasar量化系统:实现低精度AI
% A" ^( \& e' N9 X2 O* U' x" xBlackwell平台引入了NVIDIA Quasar量化系统,实现低精度AI计算而不牺牲准确性。该系统解决了与低精度计算相关的几个挑战:4 a" g3 F3 ^2 Q: v6 G. n
精度损失非均匀层敏感性窄动态范围量化噪声0 ?' m' \: O+ Y, z% f4 ]4 u! w+ y
: ?1 w" Q( J& ]1 M; k6 a9 R" k+ ]
1 S) R" d2 j+ p9 U6 t+ T+ R6 _ E9 T
m2i32vpsv536402431448.png
) Y- a: `0 \, a, u
图5:NVIDIA Quasar量化系统,说明组件和研究领域。
/ E- k* n+ z: e. W5 D3 Q! p& X
4 T! q1 j" ]2 VQuasar量化系统包括几个关键组件:Transformer引擎:硬件和软件优化库:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度数值算法:基于敏感度的层选择、动态范围正则化等
4 K7 b( z$ O- z j# x[/ol]
3 c6 v% D! i( z, z& W' yBlackwell GPU最显著的创新之一是第5代Tensor Core,引入了新的微张量缩放FP格式,包括FP4和FP6。, C( ?5 Z. V J2 D* k
jqzkjevoimk6402431548.png
3 M5 T: b/ E% I
dph0fqkmada6402431648.png
]" y1 Z/ I& h" }
图6:第5代Tensor Core支持的FP格式总结,比较Hopper和Blackwell的性能。
/ Y7 R1 W/ R: S, v, X. ^0 \
6 s4 B# Q5 K; Q( o# ]8 t5 F, }$ _这些新格式提供了几个优势:& T) |: r2 a( M8 ?! d3 w
更宽的FP范围放大的带宽更低的功耗更精细的量化粒度
; Z8 k' J c( S! [5 O9 W. G
8 t! k, S+ x, {7 \4 Z& u2 i4 G, G: k& {Quasar量化系统的有效性通过令人印象深刻的FP4推理准确性结果得到证明:; j$ V* r5 p5 \3 [8 ~
8 _* O2 L! d: a$ e# b4 K
ozl5hmaalel6402431748.png
$ V2 _! k# Q' B) C) `图7:各种模型的FP4推理准确性结果,比较BF16和量化FP4性能。# B* A# w B- n- K% C4 A
( F% B, Z# Z# R9 `/ F7 q这些结果表明,即使是像Nemotron-4 340B这样的大型语言模型,使用量化FP4也能达到出色的MMLU(大规模多任务语言理解)分数,匹配甚至略微超过BF16模型的性能。
( c* P: \/ \0 f$ n. v9 c! q- O0 p3 J; m1 i% t4 A: ?" A3 y
AI网络:端到端性能和功率扩展+ {2 A2 o- c: n& j2 P7 c' a' Q
随着AI模型规模和复杂性的指数级增长,对大规模多GPU推理的需求变得越来越重要。Blackwell平台通过先进的网络解决方案应对这一挑战。
9 m+ h( R; d _0 j5 D. o `
2jbtw32ba3z6402431848.png
3 n. z+ U2 H+ K8 D& Z/ E# ?4 e图8:AI模型规模随时间的增长,说明参数数量的指数级增加。
" s- S" D* [1 Z' k7 J1 n k/ v1 F1 r* k. o9 @( W; ]# j: R
为满足这些不断增长的模型需求,NVIDIA开发了世界级的NVLink PHY性能:
* B; O0 I( s1 Y7 w* K( |
q4xfvrk3fa16402431948.png
+ |7 R7 B6 _: e# u1 v) S, }3 l图9:从Ampere到Blackwell的NVLink性能演进,展示带宽和链路速度的增加。% m" X: U. q: R6 ]9 f
Q* `& T7 I( @1 o1 W6 N( ~1 rBlackwell平台引入了第5代NVLink PHY,通过18个NVLink提供1800GB/s的总带宽,每个NVLink能力达到100GB/s。
) D6 ~% V" h; K6 j
' _9 U; K7 c1 a, }, t& _) |网络解决方案的另一个关键组件是第4代NVLink Switch Chip和NVLink Switch Tray:
/ |% {( c/ t; G
35kxgkqpwzv6402432049.png
6 r$ n) N( e* b4 e! ~图10:第4代NVLink Switch Chip和NVLink Switch Tray,突出显示主要特性和功能。
' G% ]) }" `5 ~2 {' @& D2 j1 C. i$ D* W
NVLink交换芯片的主要特点包括:' n" E- e6 A* w; p E6 `" l/ @
台积电4NP工艺中>800 mm2的芯片面积在GB200 NVL72上将NVLink扩展到72个GPU通过72个端口实现7.2 TB/s全双向带宽SHARP(可扩展分层聚合和规约协议)网内计算,3.6 TFLOPS性能
5 P; J. k- t$ ?8 l% r; F
$ i" o$ G& @& ^NVLink交换托盘包含两个NVLink交换芯片,提供总计14.4 TB/s的带宽。& k) i2 o4 b4 I4 l
7 P( e4 R: g2 L: r" `. AGB200 NVL72和NVL36:新的计算单元0 ^' L1 R; W' X, F$ U" ~6 ?6 J
Blackwell平台引入了两种强大的配置:GB200 NVL72和GB200 NVL36,在单个机架中提供前所未有的计算能力。
) H; P) q; G# q3 V+ w
eo3jvx51lyc6402432149.png
/ f8 Q: E! \# c0 e0 u( y Z
图11:GB200 NVL72和NVL36配置,展示每种设置中的GPU、CPU和NVLink交换托盘数量。
5 s: {+ N% O* B" W" I1 V' M$ b3 M$ s
GB200 NVL72配置提供:
% e6 M* @2 G# i7 s" q36个Grace CPU72个Blackwell GPU9个NVL72 NVLink交换托盘720 PFLOPs的训练性能1,440 PFLOPs的推理性能支持27万亿参数的NVL模型大小130 TB/s的多节点带宽260 TB/s的多节点全规约
& r5 c1 M5 ?* a2 `9 x4 ` |1 H* G* J( `3 F/ @7 x
这种配置能够高效扩展大型AI模型,包括具有1.8T参数的GPT专家混合(MoE)等万亿参数架构。
7 i* y, D. G7 o- o0 O
imtnn4vne246402432249.png
' _. H4 J, Q# C& i$ y图12:GB200 NVL72在万亿参数AI模型上的性能比较,展示吞吐量和能效的改进。9 r" M: {* s+ c
4 _ W6 A P! q2 T6 H- ]GB200 NVL72配置展示了令人印象深刻的性能提升:9 ^: b7 ^2 Q& o' B' W4 U
与前代相比,吞吐量提高30倍能效提升25倍总拥有成本(TCO)降低25倍9 W/ |, O9 H9 ~5 X
0 I3 l9 Y, B( W! A9 Q" K& |1 j. K+ \
结论:AI和加速计算的未来) r5 J$ s0 J3 E3 J
NVIDIA Blackwell平台代表了AI和加速计算领域的重大进步。通过解决不断增长的模型规模、计算需求增加以及高效网络需求的挑战,Blackwell为性能和效率设立了新标准。
. u( M% O' t: W! e( a a9 N
k5hui4llqno6402432349.png
6 [/ ]- W; z1 @1 U$ }9 b6 \图13:NVIDIA数据中心规模架构的路线图,展示从Hopper到Blackwell及未来的演进。" {8 r" m7 y" r7 z9 ~3 ~" x
& V; }2 j7 w" H. D1 T7 z
Blackwell平台的主要成就包括:+ z* ^& O, v& }: q6 n s
全栈、数据中心规模平台,涵盖GPU、CPU、NVSwitch、DPU、NIC和网络交换机NVIDIA Quasar量化系统实现低精度AI而不牺牲准确性实时万亿参数LLM推理性能提升超过一个数量级AI训练、推理和加速计算的性能和功耗显著改善+ E# t& u7 u. G& Z
]& \% O. f) t
通过提供必要的计算能力、内存带宽和网络能力,Blackwell使研究人员、开发人员和企业能够解决日益复杂的问题,在人工智能和高性能计算领域开启新的可能性。 J% c& {; b9 C0 ?
! j V# B7 J" c Y H1 @7 e3 _参考文献$ |) D( y0 V' K. S/ N% x) T5 S' w
[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.
" T5 J8 l( s0 D- Q5 a4 C7 C
+ a0 z( W0 T' y6 \- END -
9 [2 R9 A! V5 b& I" r
# B' W* l+ |) ] i. X9 P软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。6 J9 T- A+ f/ @/ j
点击左下角"阅读原文"马上申请8 ~) H4 H. C1 g+ `3 \& |0 o
# J6 G/ [8 n! d+ b4 l& L1 _欢迎转载
' g2 ?# s/ [) p& |
, f' u) y8 j: |4 t9 N( r/ J, B转载请注明出处,请勿修改内容和删除作者信息!9 _6 f) ^: S$ z2 Z$ _8 u c
6 G) _1 U+ ~" Z
: _7 c0 t0 n* U! G$ q
4 [, x, e# ^( H; l( K$ y; x
51ru2ery2g36402432449.gif
" v; l* D8 @$ d/ R
, w# y) x6 R5 Q- @& ~" f# z$ P
关注我们
; Y+ \4 ^; T3 U
8 H9 p% O9 i7 G
2 h! A& X0 l1 N/ z0 b5 k1 `
gslhxcf1eyg6402432549.png
5 s7 \! `$ {' t6 j# i: `! a3 z. H
| m# ~# X- g' f% X9 g" F
pks442qgcst6402432649.png
& Q% u% q/ [+ M: S
|
s9 [+ W; [( U
3u0h1j54xwh6402432749.png
: ~$ s/ l/ G A) a& [ | " e$ l! O7 {+ j. e4 O2 k
1 I# E9 s, [* D+ U j/ x t- w7 E4 L( j7 Z6 o) O2 Y/ l2 I
' ~% x7 |) r1 p* S3 z0 m7 Q2 L9 G; F
关于我们:# q5 s8 {$ i1 L9 ?) `+ Z
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
! w1 I$ C$ b( h; m8 a3 T8 P( |# ^ e& W5 \6 ?) Q& U
http://www.latitudeda.com/
# O9 G, W: W, K; |4 h+ K4 ]1 ~* S(点击上方名片关注我们,发现更多精彩内容) |
|