引言 U% @7 T( ]$ N2 a8 l& @8 f
在人工智能和机器学习快速发展的背景下,对专用硬件基础设施的需求持续增长。本文探讨了创新的服务器设计方法,针对现代GPU工作负载进行优化,这些内容来自Nebius AI在定制服务器解决方案方面的突破性发展[1]。: v* f) X! A& {, F) ^4 T
2jmoly3ntj46404966139.png
* L3 e% R# ~% f3 e O- d
" X# G: w) c5 D1 x9 Z8 B
服务器架构的演进
7 n: f4 {4 f" @6 B& `传统服务器设计在托管现代GPU时面临诸多局限性,特别是在AI工作负载方面。主要挑战包括散热效率低下、部署程序复杂以及固件专有限制。这些限制推动了对专用解决方案的需求。
$ K2 s5 M7 P" p7 c1 p
- r8 A$ C! \5 R' B3 M针对AI工作负载的高级服务器规格
( y. E8 s7 X& ^3 u: _4 g% I( c新一代AI服务器引入了革命性的规格设计,专门用于高性能计算。这些服务器与最新的NVIDIA HGX H100/H200 GPU兼容,同时在散热、可访问性和维护方面融入多项创新。& Q' v5 y! k* J7 I. c1 X H
wbctvxarcwe6404966239.png
/ n) ~7 r5 Y5 a6 @" x
图1:全面的服务器规格,展示与NVIDIA HGX H100/H200的兼容性、免工具安装功能和先进的散热系统设计。; ?1 P+ c( T, O9 P
1 H% B7 P$ ?' E! R% P9 L5 \
革命性的无线缆设计; P3 E# o* ^; [ }& S# H* [. y# k
现代服务器设计中最显著的创新之一是消除了主板和GPU组件之间的传统线缆连接。这一进步解决了多个长期困扰服务器维护和可靠性的问题。
, K' J7 B! ], b1 j0 I
bs2a13aedc16404966340.png
* y4 b* {4 z U5 M7 M1 \6 D9 R
djntygu1ont6404966440.png
+ P( Y2 U, Q; S) [图2:传统线缆连接与新型无线缆设计的对比,突出显示改进的可靠性和维护优势。' U1 ?: \8 C6 U: r9 [
$ c, t) Y w& Y) b: P* n, U
优化的散热架构) ], B0 b7 E) m' O4 M k; x
散热管理在服务器设计中仍是核心因素,尤其是对于高性能AI工作负载。新设计实现了一个复杂的散热系统,为CPU和GPU组件设置独立区域。
. w) l1 [, Z3 m2 _
edco4ytxas16404966541.png
* O2 H6 A. x" y' ^
图3:先进的散热系统设计,具有独立风扇控制系统的分离式CPU和GPU区域。
! @2 w$ W }. Q" K% g4 [6 v+ k0 c" d
性能和效率指标 X8 r0 P& c( M
通过比较性能指标,特别是在不同运行温度下的功耗,清晰地展示了这些设计创新的效果。
, g% Y5 B( H1 B2 G
kdkl1vskv326404966641.png
% S. Y. e5 C( k# q+ v0 ~图4:不同进气温度下Nebius HGX与标准19" HGX服务器的功耗比较。
* F' N; R3 S \# s y" S4 f( a+ e* | y+ H8 k6 q/ h
维护和可访问性特点7 |4 C6 u. m% ?2 h0 x
现代服务器设计优先考虑维护便利性和组件快速访问,显著减少停机时间和运营成本。
, g- o& t8 G' `1 T3 O6 q
haefqxoj3uu6404966741.png
2 V. ]* M/ M" v5 Q" P% v6 |
图5:免工具设计特点,实现快速组件访问和维护程序。
$ n0 r2 V' @$ {3 N7 s0 K5 K
( G6 _1 s- v/ `" X, L5 K总拥有成本优势
. f$ b; N: z6 e) V; N这些设计创新的综合效果转化为显著的总拥有成本(TCO)优势。通过各种优化实现了资本支出和运营支出的双重优势:
! V7 Q* O; g! q& R9 t! ]
ezisqdw5yks6404966841.png
; z/ V; }* P+ A. L, r M图6:总拥有成本优势的全面分析,包括资本支出和运营支出的优势。
! D9 K0 E2 m3 G2 i) ?3 j4 O" S( J
* C& V6 X3 z0 b3 a3 S未来发展和应用
+ _) C( g' C6 O# n; \" V; O这里概述的服务器设计原则正在扩展到各种用例,包括推理和闪存存储应用。这些发展展示了新架构的多样性和可扩展性。5 ?5 p3 |, [6 x6 @: J2 |
jy0s24jl0246404966942.png
1 C/ F. K# _+ m图7:完整服务器系列概述,展示从ML/AI到计算和存储的各种应用。
+ q% I7 Q% Q; D" S- P$ M! ]6 B& B) T! _
结论
t# p+ n" m% l0 L5 Y3 ^* }' q用于AI工作负载的服务器设计进步代表了数据中心基础设施的突破。通过解决散热管理、维护和组件集成等关键挑战,这些新设计正在为AI计算基础设施的性能和效率制定新标准。随着组织继续扩展AI运营,这些专用解决方案将在快速发展的技术环境中变得更加重要。6 |, Z( O5 H9 R$ P; e: u
|5 j# o) Z9 g3 y7 M' K8 X4 v& ?) R' D
参考文献 \5 m( y/ [* O) b
[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.
! t3 ^2 t+ e& U- U+ m$ q1 c0 Z. w0 t3 _
END
+ x. K5 F( t; x+ ~, F! q# f
+ w$ U1 E d2 p# o0 ]9 j1 m% W ~9 D0 ^, x& ^4 l
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
5 P* F! u7 c, c9 {) d7 D点击左下角"阅读原文"马上申请2 ~% p. D7 ]. P/ C* B1 [4 R w' _+ E
! ?& v8 X( }2 n4 ~; n
欢迎转载; j3 }$ `. ^1 N( \) @8 d) }/ r
6 x' Z5 S: n& a7 e, f9 g
转载请注明出处,请勿修改内容和删除作者信息!/ h# n+ \, ~: V E$ A6 {
: [' W; x* n- A& g5 {
: E6 e2 D4 D: u) p* N* |# ^
' a# ?* q( k* l0 X
hikf1f4314y6404967042.gif
1 K' ?2 \ {, V, |: g
; ?6 i [5 ?! @$ P7 p/ O; C2 K" P关注我们2 P0 k2 a6 P% Z: R
3 @5 [& D; R2 d+ @; \, t
+ T% n" |3 }# d l8 o9 H/ q
rabmxlc5ffh6404967142.png
1 b1 ~1 \ ~ }# V: M | 5 L; F r! K3 q& w6 g" x
2wotga1zkko6404967242.png
" v+ B5 y6 e4 w# K! _4 t
|
0 y& n! p/ w- `: D$ b5 f' P+ T
lqwgpte4d326404967342.png
( U1 Q% X" y* p9 O9 i1 [0 b | ) z% D2 Z4 j, U1 L
7 q6 }3 ?" F" g9 Y6 W8 g
; t3 m, Y9 b3 o
& e F% G F; X/ _. A6 |2 N: k
关于我们:0 G9 m6 q9 D9 X' q. ^1 c" }5 A
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
5 T- r$ \2 B4 x& x, P7 `8 a/ K3 O. f' L( M
http://www.latitudeda.com/9 X; U# A0 }- [
(点击上方名片关注我们,发现更多精彩内容) |