电子产业一站式赋能平台

PCB联盟网

搜索
查看: 304|回复: 0
收起左侧

Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

[复制链接]

1121

主题

1121

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11999
发表于 2024-10-23 08:00:00 | 显示全部楼层 |阅读模式
引言6 Y5 t. `& M9 B
在人工智能(AI)时代,计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术,以应对这些前所未有的挑战[1]。
. V# D# h5 t) D4 U! T, k3 H4 F% e2 n  M0 N. n9 f- E0 |( _
先进冷却技术的需求
7 y- f7 n3 _3 R  v) K6 v- e& Y' L5 [随着AI模型日益复杂和庞大,对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的:
. }$ ]( z* g9 ?$ o

ri4lul5wk5s64038196008.png

ri4lul5wk5s64038196008.png
% O8 z( O! h6 H( W
图1:NVIDIA AI工厂的发展历程,从2021年的Selene(4,480个A100 GPU)到预计的下一代AI工厂(32,000个GPU,645 ExaFLOPs AI计算能力)。
, H2 m# N3 {7 }; t/ P; }& E& _" b& y9 o0 L# C
这些AI工厂正在推动训练和推理能力的极限。然而,强大的计算能力也意味着巨大的热量产生,因此需要先进的冷却解决方案来维持最佳性能和效率。  @( \# S6 c/ M1 m1 N) N) z

4 s) c2 q, N% K, v6 D# o6 d数据中心冷却技术:解决方案谱系% e" x" p" E7 M' y( g( X9 f, F
为满足不同数据中心设置的需求,NVIDIA开发了一系列冷却技术,从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术:2 y2 G6 {- n1 W' C  W% N

0 k: v/ W6 C5 i* y" ]$ Q' }1. 空气冷却
  I! \) Z8 `2 _. X空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法:, N/ b  o# |9 C' k  z+ T
a) CRAH/CRAC空气冷却:5 G8 D6 Z- S5 `# Y: N4 |# o: S8 l
  • 适用于低密度机架的房间级冷却
  • 空气吸收的热量通过CRAH传递到设施冷却水
  • 使用架空或实心地板
  • 实施冷通道或热通道隔离, i. |$ w- @2 b* c$ O: Y
      ^# Y9 m/ c+ Y1 W

    : ~: I* h. g" v

    oijiwd2m2kc64038196109.png

    oijiwd2m2kc64038196109.png

    , `8 @6 F' t1 V6 P* h图2:展示使用CRAH/CRAC单元的空气冷却设置,显示了气流模式和系统的关键组件。$ m; @$ R/ C! o/ b& u- p
    ! H+ ]0 f. v/ s0 f; B. B
    b) 行间冷却器空气冷却:
    4 g' u1 z) e! }1 c/ j
  • 适用于中密度机架的通道级冷却
  • 热量通过行间冷却器和CRAH单元传递到设施冷却水
  • 可使用架空或实心地板
  • 实施冷通道或热通道隔离
    # W% [% n4 Q' C- v* G1 x4 R

    " U; {' x! }# |& N' B! C6 S% gc) 后门热交换器(RDHX)空气冷却:
    ; b5 [# ~7 k0 I" y$ a0 Y8 }3 C1 ]' C
  • 适用于中密度机架的机架级局部冷却
  • 空气吸收的热量通过RDHX传递到设施冷却水
  • 可独立使用或与CRAH单元配合使用作为辅助冷却9 w' T) F! X1 ]' \7 w! E. k& ~/ }

    $ I# [2 [6 g9 C9 G! q! f5 E2. 混合空气和液体冷却( a3 w" X, F2 L* L, g$ L; D
    随着数据中心密度增加,结合空气和液体冷却的混合解决方案变得更具吸引力:/ h! G* A/ i1 H6 t) `1 o1 T
    a) 液体到空气侧车(L2A)液体冷却:2 z3 v- m. |; Z+ j: @
  • 适用于高密度机架的通道级空气/液体混合冷却
  • 适合传统空气冷却数据中心的空气辅助液体冷却
  • 无需额外的液体冷却基础设施
  • 过渡性解决方案,冷却能力有限
    * X8 l6 z' R5 x% M6 p2 g: a1 I& H

    5 X- R& _: E. T' F. P, S
    % m8 s' j2 A  J' X

    lz0lpi20t2v64038196209.png

    lz0lpi20t2v64038196209.png
    ) Y3 a# T; @, o( J* v( K$ n' w
    图3:液体到to Air Side Car(L2A)冷却设置,演示了如何与现有的空气冷却基础设施集成。# T3 S! t  b8 Z0 l# V

    % U, G7 y% y: ~; b' tb) 液体到液体CDU(L2L)液体冷却:
    ; L$ j) `6 K5 y
  • 适用于高密度机架的通道级空气/液体混合冷却
  • 行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量
  • 需要额外的液体冷却基础设施
  • 过渡性解决方案,单相液体冷却的极限0 n! w& R: d6 H( c9 x" Q" |
    6 I! L9 u& G, s; U- ~
    3. 直接芯片液体冷却
      W0 A3 c1 s& F7 L2 y+ }0 J) ^2 f+ E对于最高密度的机架和最苛刻的冷却需求,直接芯片液体冷却提供了最高效的解决方案:
    - Z0 ^9 n9 d" L) C
  • 液体到液体冷却分配单元在紧凑空间内提供约2MW冷却
  • 在2.75倍小的空间内产生6.5倍于CRAH的冷却能力
  • 功耗约为名义冷却能力的1%
      l* v- {5 }8 w

    0 N+ ~" {! S3 [! Z) b9 s
    9 s7 p6 t3 m5 K8 F

    paaeklfbdzd64038196309.png

    paaeklfbdzd64038196309.png

    6 U6 b/ E6 f/ ~5 X3 x/ L图4:Direct to Chip Liquid-to-Liquid CDU Solutions1 K/ n9 M2 N* t0 u/ _7 _2 B
    & X+ M" H+ ]! `( V
    冷却解决方案的评估和优化5 M( U6 y9 ~+ ]6 `" v7 \) \7 w
    为确保这些冷却解决方案的有效性,NVIDIA采用了一系列评估标准和建模技术:
    ! ?3 N* b) J" m6 {1. L2A CDU评估:6 u0 \1 T1 i5 k0 S4 [: ?" @
  • 设计和构建模拟液冷服务器的仿真器
  • 建立受控实验室环境
  • 根据产品要求进行性能评估
  • 使用CFD/FNM(计算流体动力学/流网络建模)构建数字孪生6 [  g; O9 U, w' i: ?9 E( ?- X% `

    4 T# F6 J/ E/ Y% H7 o3 y2. L2L CDU评估:+ Q- x/ Q5 ~# g
  • 设计和构建模拟液冷服务器的仿真器
  • 建立受控实验室设置
  • 评估L2L CDU的性能
  • 构建L2L CDU的物理感知数字孪生模型
    ( L7 G% C8 }* i  ^$ k! J$ i1 Y

    $ U3 W6 A' U, u2 D" ~. Z$ F  X3. 液冷数据中心的Omniverse数字孪生:
    & q8 `1 B$ r' q2 N: f3 s9 j' A+ DNVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许:& ~3 ^! [% {" R7 c6 s- F" ^
  • AI加速的数据中心设计和优化
  • 热流体动力学的实时推理
  • 虚拟测试环境
  • 预测性故障维护
  • 能源使用预测和碳足迹减少
    / W) b( U/ E: P- |7 B! X
    6 `4 B, M' l  i% R/ ^" P5 @
    1 r: q& |6 D; E  b* b3 r

    izjqjwuft5164038196409.png

    izjqjwuft5164038196409.png
    1 f$ U/ Q! ^% r5 I) b' S3 p/ S  u
    图5:AI加速数据中心数字孪生,展示了如何整合各种技术以实现全面的数据中心建模和优化。! Z8 Q$ E$ c3 Q! y3 d  f# g. S
    ( `' m1 c. ?  r7 C5 Y
    研究重点领域8 `7 j8 g9 V& l% q; k4 h
    为继续推进冷却技术,NVIDIA正在几个关键领域进行研究:
      F3 L! W4 P" w- H6 V& @" _7 l' c1. 次级流体、腐蚀和侵蚀研究:
    $ H* @* b+ @% t% _9 H
  • 评估多种冷却液的热性能
  • 使用ASTM-D1384和D8040标准进行腐蚀测试
  • 分析冷却液中的生物生长
  • 进行侵蚀研究,确定ASHRAE侵蚀流体速度限制的适用性; i& p* X- r0 @3 {: ^1 T

    # ^& r1 c$ }4 A2. 机架功率密度与DLC冷却技术路线图:
    , p; n2 b' E! _0 C. j( d
  • 分析热限制和机械限制
  • 将冷却技术映射到功率密度范围
  • 探索超高密度机架的先进冷却技术  ^$ R  L' O- i/ A' o
    & j, x* G  f! E+ g1 ]  k
    3. 数据中心效率和总拥有成本(TCO)分析:4 ~1 R0 \% A* ]* `# q" A$ A( r
  • 比较空气冷却与混合空气和液体冷却
  • 分析能源效率和总拥有成本(TCO)
  • 评估可持续性策略# y' ], u5 I4 y% }" ^, l% B+ J
    4 }$ Y% Q& o6 _4 Z
    : ?9 Q- v: l) T% k: _

    qof3nhjtbd564038196510.png

    qof3nhjtbd564038196510.png
    2 w) }9 ^1 L/ c9 e8 ^; g% ^9 G
    图6:NVIDIA全面的数据中心可持续性方法,涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。- G1 y2 X; I3 N6 _, C3 Y" k

    - I  m0 a1 X! _; e4. 废热回收:
    ! e! ^. G. U2 O, C
  • 开发原型,从废热回收单元(WHRU)生成电力
  • 探索从液冷机架回收废热的可能性
  • 与研究中心合作优化废热利用! b2 Y& D& E) C/ T' \) z
    - `& [# a/ G, `  m* y
    5. ARPA-E COOLERCHIPS项目:OMNICOOL; H9 E2 q+ G5 x5 j1 `1 y
    NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目,专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括:
    4 Z9 N* J( ?+ E4 t& y2 k
  • 使用混合D2C两相和单相浸没冷却系统提高能源效率(目标:PUE
  • 提高功率密度挑战(目标:>160 kW/机架)
  • 克服地理位置和天气限制(目标:适合ISO 40'集装箱,环境温度≥40 °C)
  • 强调环境影响和可持续性(目标:GWP
    $ C/ i- W  ?9 @. U  ?6 L: K

    3 Y6 y% l4 Y* z7 n& \" t该项目包含几项创新:
    6 E+ w7 k- {7 E6 m( h5 I' G8 J1 y
  • 创新的两相多孔金属冷板技术
  • 用于紧凑型自由冷却器的非正交、互锁线圈阵列
  • 机架内分布式泵送和流分离系统
  • 利用分层架构的多尺度流分配系统
    8 H; [3 A( t9 V& G9 K1 M
    6 S' }& s! H" z& V4 Z/ l+ x2 G2 Z
    结论: z+ \; Z" E8 _- w
    随着继续推动AI和加速计算的边界,冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法,从空气冷却到先进的液体冷却系统,确保数据中心能够满足AI工作负载日益增长的需求,同时保持效率和可持续性。
    5 X9 ?- m3 n% W* y" c2 A% D" A+ G7 W5 E. T6 c
    通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术,NVIDIA正在为数据中心冷却的未来奠定基础。展望未来,对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。& |3 r- D3 [# ?- }' C
    # a( A8 C2 N1 J9 t) ^9 A
    计算效率和性能的提升之路仍在继续,冷却技术将与之同步发展。通过保持在这些发展的前沿,数据中心运营商和AI研究人员可以确保拥有必要的基础设施,以推动人工智能和高性能计算的下一波创新。8 A5 r# y* p* b3 g/ Z" [

    & k. S7 Z' R8 c5 I/ p
    . B* f" n3 d& }
    参考文献
      m% _* V* u3 b5 t* `; j4 @[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.. h$ n! Y; s% C; m# U4 n- Y' T

    $ L% y) g" J% L8 Y2 u+ W8 W; a7 t# y- END -
    2 `) F/ b( _6 @* M: y' b4 `/ ^
    9 \( ~& h& l- t7 S软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。4 b6 R& [7 v1 X+ x, D. `
    点击左下角"阅读原文"马上申请
    + N( H' ^; V9 T( w; G' \
    0 X5 S' f, E( r( m欢迎转载
    6 X3 c6 ~) p8 }2 p
    9 g, l' M" `, T9 N) A转载请注明出处,请勿修改内容和删除作者信息!
    7 Z  u) r' S7 O, o
    : {" x8 \( {! b# \: B+ |4 x
    + S; g/ X, m; n+ v/ F6 X
      s) |" N8 t, b2 S1 [# M1 C3 {

    rpj52bnqmgr64038196610.gif

    rpj52bnqmgr64038196610.gif

    $ }1 V" n3 B- [7 z& Y8 p6 s5 M' r$ q$ {1 k8 {6 a  s" @
    关注我们$ R2 @& p: K5 N' N( b! Q  z
      a& p+ M& [+ R& J8 N$ L! R* P
    + x' O) P$ y: I9 Q/ j( S

    et0tl4guaub64038196710.png

    et0tl4guaub64038196710.png

    ; u5 Q& ]# \2 s, h

    , \. N8 A$ l: k: G! T6 C

    xklfdrehrcu64038196810.png

    xklfdrehrcu64038196810.png
    ; b4 x6 x: D5 `% L1 l. u
    ( S3 G5 X- i6 X

    a1aceo5ifow64038196910.png

    a1aceo5ifow64038196910.png
    % a! |: A; b3 `$ {
                          7 H5 h* _9 k: D4 i. y+ {

    , Y8 {2 |* [, P: o$ \0 z( Z# F+ o

    . Z8 w! v( R5 x9 h3 b/ V( n" ~* E: D5 J  o+ I/ D+ ^0 g# w
    关于我们:
    5 ^6 y! S. N, v& F7 r5 c# W深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    6 S9 M! j$ b* y; m3 X, R' o& {8 [+ o
    http://www.latitudeda.com/0 y7 Q7 V* v% V: L! F
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条


    联系客服 关注微信 下载APP 返回顶部 返回列表