|
引言6 Y5 t. `& M9 B
在人工智能(AI)时代,计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术,以应对这些前所未有的挑战[1]。
. V# D# h5 t) D4 U! T, k3 H4 F% e2 n M0 N. n9 f- E0 |( _
先进冷却技术的需求
7 y- f7 n3 _3 R v) K6 v- e& Y' L5 [随着AI模型日益复杂和庞大,对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的:
. }$ ]( z* g9 ?$ o
ri4lul5wk5s64038196008.png
% O8 z( O! h6 H( W
图1:NVIDIA AI工厂的发展历程,从2021年的Selene(4,480个A100 GPU)到预计的下一代AI工厂(32,000个GPU,645 ExaFLOPs AI计算能力)。
, H2 m# N3 {7 }; t/ P; }& E& _" b& y9 o0 L# C
这些AI工厂正在推动训练和推理能力的极限。然而,强大的计算能力也意味着巨大的热量产生,因此需要先进的冷却解决方案来维持最佳性能和效率。 @( \# S6 c/ M1 m1 N) N) z
4 s) c2 q, N% K, v6 D# o6 d数据中心冷却技术:解决方案谱系% e" x" p" E7 M' y( g( X9 f, F
为满足不同数据中心设置的需求,NVIDIA开发了一系列冷却技术,从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术:2 y2 G6 {- n1 W' C W% N
0 k: v/ W6 C5 i* y" ]$ Q' }1. 空气冷却
I! \) Z8 `2 _. X空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法:, N/ b o# |9 C' k z+ T
a) CRAH/CRAC空气冷却:5 G8 D6 Z- S5 `# Y: N4 |# o: S8 l
适用于低密度机架的房间级冷却空气吸收的热量通过CRAH传递到设施冷却水使用架空或实心地板实施冷通道或热通道隔离, i. |$ w- @2 b* c$ O: Y
^# Y9 m/ c+ Y1 W
: ~: I* h. g" v
oijiwd2m2kc64038196109.png
, `8 @6 F' t1 V6 P* h图2:展示使用CRAH/CRAC单元的空气冷却设置,显示了气流模式和系统的关键组件。$ m; @$ R/ C! o/ b& u- p
! H+ ]0 f. v/ s0 f; B. B
b) 行间冷却器空气冷却:
4 g' u1 z) e! }1 c/ j适用于中密度机架的通道级冷却热量通过行间冷却器和CRAH单元传递到设施冷却水可使用架空或实心地板实施冷通道或热通道隔离
# W% [% n4 Q' C- v* G1 x4 R
" U; {' x! }# |& N' B! C6 S% gc) 后门热交换器(RDHX)空气冷却:
; b5 [# ~7 k0 I" y$ a0 Y8 }3 C1 ]' C适用于中密度机架的机架级局部冷却空气吸收的热量通过RDHX传递到设施冷却水可独立使用或与CRAH单元配合使用作为辅助冷却9 w' T) F! X1 ]' \7 w! E. k& ~/ }
$ I# [2 [6 g9 C9 G! q! f5 E2. 混合空气和液体冷却( a3 w" X, F2 L* L, g$ L; D
随着数据中心密度增加,结合空气和液体冷却的混合解决方案变得更具吸引力:/ h! G* A/ i1 H6 t) `1 o1 T
a) 液体到空气侧车(L2A)液体冷却:2 z3 v- m. |; Z+ j: @
适用于高密度机架的通道级空气/液体混合冷却适合传统空气冷却数据中心的空气辅助液体冷却无需额外的液体冷却基础设施过渡性解决方案,冷却能力有限
* X8 l6 z' R5 x% M6 p2 g: a1 I& H
5 X- R& _: E. T' F. P, S
% m8 s' j2 A J' X
lz0lpi20t2v64038196209.png
) Y3 a# T; @, o( J* v( K$ n' w
图3:液体到to Air Side Car(L2A)冷却设置,演示了如何与现有的空气冷却基础设施集成。# T3 S! t b8 Z0 l# V
% U, G7 y% y: ~; b' tb) 液体到液体CDU(L2L)液体冷却:
; L$ j) `6 K5 y适用于高密度机架的通道级空气/液体混合冷却行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量需要额外的液体冷却基础设施过渡性解决方案,单相液体冷却的极限0 n! w& R: d6 H( c9 x" Q" |
6 I! L9 u& G, s; U- ~
3. 直接芯片液体冷却
W0 A3 c1 s& F7 L2 y+ }0 J) ^2 f+ E对于最高密度的机架和最苛刻的冷却需求,直接芯片液体冷却提供了最高效的解决方案:
- Z0 ^9 n9 d" L) C液体到液体冷却分配单元在紧凑空间内提供约2MW冷却在2.75倍小的空间内产生6.5倍于CRAH的冷却能力功耗约为名义冷却能力的1%
l* v- {5 }8 w
0 N+ ~" {! S3 [! Z) b9 s
9 s7 p6 t3 m5 K8 F
paaeklfbdzd64038196309.png
6 U6 b/ E6 f/ ~5 X3 x/ L图4:Direct to Chip Liquid-to-Liquid CDU Solutions1 K/ n9 M2 N* t0 u/ _7 _2 B
& X+ M" H+ ]! `( V
冷却解决方案的评估和优化5 M( U6 y9 ~+ ]6 `" v7 \) \7 w
为确保这些冷却解决方案的有效性,NVIDIA采用了一系列评估标准和建模技术:
! ?3 N* b) J" m6 {1. L2A CDU评估:6 u0 \1 T1 i5 k0 S4 [: ?" @
设计和构建模拟液冷服务器的仿真器建立受控实验室环境根据产品要求进行性能评估使用CFD/FNM(计算流体动力学/流网络建模)构建数字孪生6 [ g; O9 U, w' i: ?9 E( ?- X% `
4 T# F6 J/ E/ Y% H7 o3 y2. L2L CDU评估:+ Q- x/ Q5 ~# g
设计和构建模拟液冷服务器的仿真器建立受控实验室设置评估L2L CDU的性能构建L2L CDU的物理感知数字孪生模型
( L7 G% C8 }* i ^$ k! J$ i1 Y
$ U3 W6 A' U, u2 D" ~. Z$ F X3. 液冷数据中心的Omniverse数字孪生:
& q8 `1 B$ r' q2 N: f3 s9 j' A+ DNVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许:& ~3 ^! [% {" R7 c6 s- F" ^
AI加速的数据中心设计和优化热流体动力学的实时推理虚拟测试环境预测性故障维护能源使用预测和碳足迹减少
/ W) b( U/ E: P- |7 B! X6 `4 B, M' l i% R/ ^" P5 @
1 r: q& |6 D; E b* b3 r
izjqjwuft5164038196409.png
1 f$ U/ Q! ^% r5 I) b' S3 p/ S u
图5:AI加速数据中心数字孪生,展示了如何整合各种技术以实现全面的数据中心建模和优化。! Z8 Q$ E$ c3 Q! y3 d f# g. S
( `' m1 c. ? r7 C5 Y
研究重点领域8 `7 j8 g9 V& l% q; k4 h
为继续推进冷却技术,NVIDIA正在几个关键领域进行研究:
F3 L! W4 P" w- H6 V& @" _7 l' c1. 次级流体、腐蚀和侵蚀研究:
$ H* @* b+ @% t% _9 H评估多种冷却液的热性能使用ASTM-D1384和D8040标准进行腐蚀测试分析冷却液中的生物生长进行侵蚀研究,确定ASHRAE侵蚀流体速度限制的适用性; i& p* X- r0 @3 {: ^1 T
# ^& r1 c$ }4 A2. 机架功率密度与DLC冷却技术路线图:
, p; n2 b' E! _0 C. j( d分析热限制和机械限制将冷却技术映射到功率密度范围探索超高密度机架的先进冷却技术 ^$ R L' O- i/ A' o
& j, x* G f! E+ g1 ] k
3. 数据中心效率和总拥有成本(TCO)分析:4 ~1 R0 \% A* ]* `# q" A$ A( r
比较空气冷却与混合空气和液体冷却分析能源效率和总拥有成本(TCO)评估可持续性策略# y' ], u5 I4 y% }" ^, l% B+ J
4 }$ Y% Q& o6 _4 Z
: ?9 Q- v: l) T% k: _
qof3nhjtbd564038196510.png
2 w) }9 ^1 L/ c9 e8 ^; g% ^9 G
图6:NVIDIA全面的数据中心可持续性方法,涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。- G1 y2 X; I3 N6 _, C3 Y" k
- I m0 a1 X! _; e4. 废热回收:
! e! ^. G. U2 O, C开发原型,从废热回收单元(WHRU)生成电力探索从液冷机架回收废热的可能性与研究中心合作优化废热利用! b2 Y& D& E) C/ T' \) z
- `& [# a/ G, ` m* y
5. ARPA-E COOLERCHIPS项目:OMNICOOL; H9 E2 q+ G5 x5 j1 `1 y
NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目,专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括:
4 Z9 N* J( ?+ E4 t& y2 k使用混合D2C两相和单相浸没冷却系统提高能源效率(目标:PUE 提高功率密度挑战(目标:>160 kW/机架)克服地理位置和天气限制(目标:适合ISO 40'集装箱,环境温度≥40 °C)强调环境影响和可持续性(目标:GWP
$ C/ i- W ?9 @. U ?6 L: K
3 Y6 y% l4 Y* z7 n& \" t该项目包含几项创新:
6 E+ w7 k- {7 E6 m( h5 I' G8 J1 y创新的两相多孔金属冷板技术用于紧凑型自由冷却器的非正交、互锁线圈阵列机架内分布式泵送和流分离系统利用分层架构的多尺度流分配系统
8 H; [3 A( t9 V& G9 K1 M6 S' }& s! H" z& V4 Z/ l+ x2 G2 Z
结论: z+ \; Z" E8 _- w
随着继续推动AI和加速计算的边界,冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法,从空气冷却到先进的液体冷却系统,确保数据中心能够满足AI工作负载日益增长的需求,同时保持效率和可持续性。
5 X9 ?- m3 n% W* y" c2 A% D" A+ G7 W5 E. T6 c
通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术,NVIDIA正在为数据中心冷却的未来奠定基础。展望未来,对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。& |3 r- D3 [# ?- }' C
# a( A8 C2 N1 J9 t) ^9 A
计算效率和性能的提升之路仍在继续,冷却技术将与之同步发展。通过保持在这些发展的前沿,数据中心运营商和AI研究人员可以确保拥有必要的基础设施,以推动人工智能和高性能计算的下一波创新。8 A5 r# y* p* b3 g/ Z" [
& k. S7 Z' R8 c5 I/ p. B* f" n3 d& }
参考文献
m% _* V* u3 b5 t* `; j4 @[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.. h$ n! Y; s% C; m# U4 n- Y' T
$ L% y) g" J% L8 Y2 u+ W8 W; a7 t# y- END -
2 `) F/ b( _6 @* M: y' b4 `/ ^
9 \( ~& h& l- t7 S软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。4 b6 R& [7 v1 X+ x, D. `
点击左下角"阅读原文"马上申请
+ N( H' ^; V9 T( w; G' \
0 X5 S' f, E( r( m欢迎转载
6 X3 c6 ~) p8 }2 p
9 g, l' M" `, T9 N) A转载请注明出处,请勿修改内容和删除作者信息!
7 Z u) r' S7 O, o
: {" x8 \( {! b# \: B+ |4 x
+ S; g/ X, m; n+ v/ F6 X s) |" N8 t, b2 S1 [# M1 C3 {
rpj52bnqmgr64038196610.gif
$ }1 V" n3 B- [7 z& Y8 p6 s5 M' r$ q$ {1 k8 {6 a s" @
关注我们$ R2 @& p: K5 N' N( b! Q z
a& p+ M& [+ R& J8 N$ L! R* P
+ x' O) P$ y: I9 Q/ j( S
et0tl4guaub64038196710.png
; u5 Q& ]# \2 s, h |
, \. N8 A$ l: k: G! T6 C
xklfdrehrcu64038196810.png
; b4 x6 x: D5 `% L1 l. u
| ( S3 G5 X- i6 X
a1aceo5ifow64038196910.png
% a! |: A; b3 `$ {
| 7 H5 h* _9 k: D4 i. y+ {
, Y8 {2 |* [, P: o$ \0 z( Z# F+ o
. Z8 w! v( R5 x9 h3 b/ V( n" ~* E: D5 J o+ I/ D+ ^0 g# w
关于我们:
5 ^6 y! S. N, v& F7 r5 c# W深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
6 S9 M! j$ b* y; m3 X, R' o& {8 [+ o
http://www.latitudeda.com/0 y7 Q7 V* v% V: L! F
(点击上方名片关注我们,发现更多精彩内容) |
|