|
引言# o$ o; C8 G. s7 y }
人工智能(AI)已成为现代技术的基石,推动着各个领域的创新。随着AI模型日益复杂和规模化,对更强大、更高效的计算系统的需求也在不断增加。在这些先进的AI系统中,组件之间的互连性是一个关键方面,尤其是在AI集群中。本文探讨了AI集群中光连接的特殊要求,重点关注下一代AI计算架构的挑战和潜在解决方案[1]。
* p; F! o# R X# R! l' }
lzyar5xasm264046210415.png
( q% E* \. E' L2 h# j" x$ [4 L4 Y) i5 I8 j9 F- a4 q: E
理解AI计算链路( y. J3 _: f* B* u$ J) f8 y
在AI集群中,不同类型的链路连接着系统的各个组件。可以根据功能、距离和性能要求对这些链路进行分类。* _! v- a1 o p7 @ ^, E
lfrovmpio1f64046210515.png
: t2 P2 i$ a* f' T/ H图1展示了AI计算架构的示例,突出显示了不同类型的链路,包括前端网络、后端计算和本地加速器互连。
. a* g. X0 z m- ]+ P& S. G1 r) G; M* l) e* k3 }2 C
AI集群中的关键链路包括:
2 v6 G9 Q+ G% |$ E5 H5 M3 N4 a1. 远程加速器链路:这些连接跨越100米或更长的距离,通常使用以太网(UEC)或InfiniBand协议。由于涉及的距离较长,已经在使用光技术。
& p7 D4 a5 o( O0 V+ U& F9 t+ i2. 本地加速器链路:覆盖1.5米或更长的距离(未来可能减少到10米以下),目前使用PCIe、CXL、UALink或NVLink等协议。主要基于铜线,但正在开始向光解决方案过渡。
1 u0 o2 M. U5 [7 x$ d' Q3. 高带宽内存(HBM)链路:这些是非常短距离的连接(约1厘米),使用HBM3或HBM3E等协议。需要极宽的接口,对延迟非常敏感。4 p s! o, |; d* \! `
2 a6 [% s* d: m# k; f本地加速器链路:创新的焦点& i' u3 v( s7 N) T
本文主要关注本地加速器链路,因为在AI集群中,这些链路呈现出独特的挑战和改进机会。* i7 _! z4 N/ T. y) ~, ~9 I; e0 ~
* C4 \5 @. ~) j. e3 y8 ]6 Q本地加速器链路的现状
7 O5 e- o! U% S7 u9 P" o
jmhhmfyhsrf64046210616.png
+ v3 p9 t% z, b5 J1 F/ ]( a图2描绘了当前最先进的系统,使用200G的铜基连接,显示了扩展电缆和NVLINK交换卡。
) F8 T, G. T' v) j
. J# }* X- k( C* k9 _最先进的AI系统目前在本地加速器链路中采用200G的铜基连接。机架内连接是无源的,有助于降低功耗和延迟。然而,随着AI系统的不断发展,需要至少将互连带宽翻倍,同时延长传输距离并连接更多的加速器。
1 g$ b# @0 X8 m) ?
6 A, v2 n* D. h* y) u$ ?例如,当前系统可能具有:
9 J2 C( |8 a+ Z. K. O4 ?4 ?每个GPU 72个数据路径每个GPU 7.2 Tbps带宽每个机架5,184个数据路径
/ v4 j; U: d1 @: ?0 W( f. j/ j% G$ X9 p1 ]! b# |
未来的GPU预计需要:& O; {) a* p5 K+ Q. ~0 T
每个GPU 51.2 Tbps每个系统72个GPU每个GPU 512个数据路径,速率为200G(发送和接收)每个机架36,864个数据路径: j8 ^) ]5 `: l. e4 C! U0 |/ y
1 `4 u+ u, e7 a0 y, l这种带宽和连接需求的显著增加对铜基解决方案构成了挑战,可能难以高效满足。
H- D" B0 @2 F( t3 h9 j8 D5 i9 ?& S9 _# c- G5 A& ~
本地加速器链路的特殊特性5 q8 N1 g6 Y1 V0 |8 n
本地加速器链路具有独特的特性,使其区别于AI集群中的其他类型连接:
9 E) C# V, O% y# q3 I0 E0 `% ^) |4 C$ L) f! @
( l# j! K2 G) H0 m8 F1. 协议适应:大多数本地加速器链路基于PCIe协议,该协议最初是为铜连接设计的。将此协议适应光链路需要解决几个挑战:
4 p. X. D0 d$ [7 Q: c* r修改接收器检测、侧带、电气空闲、超时、低频信号和扩频时钟等方面。) \/ V& b7 [6 e
业界采取两步法:首先保持向后兼容性,然后定义一个适合光的协议。
/ @4 T! A$ ?: c% x. a0 z- |5 U* j. C* I* }% b
2. 更严格的比特错误率(BER)要求:本地加速器链路要求最大帧错误率(FBER)小于1e-6,比典型的以太网要求更严格。然而,这可以通过当今的集成光技术实现。. I/ }0 v" V, _
9 L/ D1 o. H$ Y6 S: K+ D# b5 P& R$ B
3. 严格的延迟和功耗效率目标:这些链路需要满足非常苛刻的延迟和功耗效率要求。前面提到的"第二步"协议旨在解决这些需求。
7 k% i4 B, G: F8 X, n h; R e. Y$ T8 V4 J. b
4. 互操作性和可扩展性:确保不同组件之间的互操作性以及支持具有高基数(端口数)的大型集群很重要。8 f/ ^( c% }1 t' `
4xosdnfmhvq64046210716.png
' M; y8 ]. A+ b* `$ i图3显示了PCIe协议向光链路演进的过程,说明了当前的铜基方法和两个步骤朝向适合光的协议发展。* F' n* j& K4 i3 E
. ?" t$ _( v+ A8 J7 i3 x3 b硬件可靠性考虑
1 b D( o, B9 c) X ^; l# F. g% z& C可靠性是AI集群设计中的一个关键因素,特别是对于本地加速器互连。业界通常使用Telcordia SR-322标准作为预测可靠性的基础。
* m+ w% T- a1 @
- R5 M# n/ K7 l2 [$ T3 v; ^7 ]8 I$ Z关于硬件可靠性的要点:
- F# y" J. X8 m1. 故障率预测:可靠性通常分为三个阶段:早期故障、随机故障和老化故障。重点是在系统运行寿命期间最小化随机故障。
& J& M |" v1 \ }9 Y5 |8 _4 |' d# `- b& R" h. \) s. |* P
4 A& [/ \2 a0 k: |$ _& G; \/ P, a2. 集成解决方案:高度集成的IC解决方案预计更可靠。这一原则预计也适用于基于硅的光电集成芯片(SI-EPICs)。
; o F$ M* F+ t2 [5 U% a3 d
7 c+ E v3 ^# j6 Z6 u7 o% E' F) x9 B- {8 {' e) y
3. 激光器可靠性:激光器是光系统中的关键组件。激光器的最佳随机故障率约为1 FIT(每十亿器件小时一次故障)。* M% J6 E! H3 i
- k" u, x4 r4 C% O+ O& O+ {" R
$ N' V1 a- x9 o9 R9 _4. 集成策略:激光器可以集成在可插拔模块中(如OIF的ELSFP形状因子)以便于更换,或直接集成冗余以实现极低的故障率。( ~4 j3 i8 n, n9 m. b. b
; b6 c; ^2 g8 y' \! X- j1 D( }7 C* y
关键结论是,只有高度集成的光电子解决方案,通常称为光电共封装(CPO),才可能满足AI计算系统本地光互连的严格硬件可靠性要求。& ^; F o: O: P, m$ _
2 p9 l+ k# [: \: |9 s
向更高容量过渡5 @. C+ R6 ~) H
随着AI系统对带宽的需求不断增加,有几种潜在的路径可以实现容量翻倍:
, C/ X, W& o D4 j3 V' i* }+ x) E1 h! ^8 L
; S! d' D) p# K* S. I- x
1. 升级到400G电气链路:这种方法涉及从200G转移到400G电气链路。然而,这种转变预计会减少传输距离,并对功耗和延迟产生负面影响。
9 x( T, {) p' T$ v
0 H, j4 W8 [2 \- q2 X* h1 G+ ?+ Q, l$ i/ G) J) Y( _' [
2. 双通道200G链路:另一种选择是继续使用200G信号,但每个链路使用两个电气通道。这种方法需要更多的连接器面积,在密集封装的系统中可能成为限制因素。
$ r+ Z; Q0 n* ^* k0 V% N4 z# }% X* L( U# j. M' l% p
1 u8 J5 z, x, A& H3. 过渡到使用CPO的光链路:光电共封装为下一代系统提供了所需的更高密度,是一个有希望的解决方案。2 X! Y9 T+ f; J( K8 s$ P/ n* H
chfeln5c2bt64046210816.png
% `7 Y; \( h" H$ _, G9 \/ \图4说明了从当前200G板载铜连接到未来解决方案的过渡可能性,包括CPO光纤接口。' }3 _& g# y( y' d g& u
2 m: A9 ]$ l! u6 J, c! r$ K% X+ @2 z
比较解决方案:CPO vs 铜( Q4 |' ?8 v" n7 Z' o6 E& ~3 [3 D& [
在比较光电共封装(CPO)解决方案与传统铜缆解决方案时,需要考虑几个关键因素:
' P& p/ @' I' V0 Z$ f6 E$ D, N, _3 o( p1 W% d: D
1 F. [8 ^6 O$ n1. 密度:
8 l" L: }' w: j) b铜解决方案目前限于2D排列,通道间距为400微米。硅基光电子可以实现3D排列,通道间距小于50微米,使互连密度潜在地比铜高8倍。光电子技术还允许通过CWDM/DWDM等技术在每根光纤中传输多个通道,而铜线限于每根线一个通道。
4 _3 K9 q6 X8 o O$ t& p: _+ Z5 c: t* H* T1 Z( y+ [0 f8 p, m
2. 传输距离:
+ A- ?6 }5 P8 P( ?3 p% C2 n铜链路在200 Gbps时限制在约1米,在400 Gbps时更短(约0.7米)。硅基光电子可以在800 Gbps的速率下实现高达500米的传输距离。
7 h( V$ l% l2 L2 z0 b5 {
% n( q. Y3 o4 c9 D# I+ }# A3. 机械和热挑战:# u9 D: l4 w* h9 v6 ?6 j* q
铜解决方案通常需要垂直逃逸布线,可能限制散热器面积。铜缆通常更硬更厚,使安装和维护更具挑战性。
3 ~" W! M ^8 Y
; k, ]( W i, {0 t7 Y0 I
apid12vokew64046210916.png
5 X. B- w0 ~! Q8 b
图5展示了铜缆解决方案与CPO的比较,突出显示了在传输距离、密度和能源效率方面的差异。
4 ~9 d( A' T; i+ z/ f, X
; v& z8 `2 G! b; V4 J8 m8 x/ I结论" c! M$ K+ A% }: m5 G5 X2 G1 {/ Q
随着AI集群继续增加复杂性和规模,互连技术面临的需求变得越来越具有挑战性。传统的铜基解决方案在带宽、密度和能源效率方面正接近极限。光电共封装(CPO)作为一种有希望的解决方案出现,能够满足下一代AI计算系统的严格要求。3 Q& q5 S% |- n
9 D* K' u O+ |3 J$ y
CPO在传输距离、密度、可靠性和能源效率方面具有显著优势。可以实现最终用户针对未来AI系统所追求的高带宽密度(>1T/mm)和低功耗(
" P* j$ a) v" O- L8 N9 G E! F
6 f0 O+ b5 F" X, N1 K' V随着AI行业继续推动计算能力的边界,向光互连的过渡,特别是以CPO的形式,似乎不仅有益,而且必要。这种转变将使更强大、更高效和更可扩展的AI集群成为现实,为下一代人工智能应用和突破奠定基础。
; L' ?" x7 w, H; g, D; ~
; M- I, D$ u* e0 n: `: u' Z# A参考文献
+ S2 A) L0 t, w$ W[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.+ r: O3 J) L% q1 M' F
8 z* @$ | ?8 h8 ^. b/ T7 y8 e7 @END8 ?1 D! c7 | R) {" m
4 t1 Z' m: A2 {% I- N
* }- b* K8 f: E6 S7 G2 C
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
$ W v+ U9 g c% M! D, r点击左下角"阅读原文"马上申请
& Q1 K7 R1 }5 H* _: O
4 R$ M+ H. `- L( _. z6 J欢迎转载4 m8 z8 y( l/ I- @
7 g' [' m" O! n1 R) t# s2 }. h转载请注明出处,请勿修改内容和删除作者信息!
) u; h% l$ V+ ]# V* B$ A$ E3 \, H& ~) d) o+ I% }& `
$ H0 b' {: E5 D: ^
+ \$ g: A* U1 E+ T$ I8 L
k1s0z335ifo64046211016.gif
$ F2 i- b) x r% \: p, C
' o0 _3 k9 `" N/ S6 R& R* w+ y& I
关注我们
: L. X( U1 O7 [* ^0 F0 s" Y* S
0 V- Q8 W8 R0 q: d( F+ w: N- Y* i6 ^0 K: X% |
5ugombznhs064046211116.png
* i+ r' `. J1 U4 {
|
$ u0 @0 T, C" o5 f" k. H
ytllk0cvjok64046211216.png
) n( Q6 m2 @ c% O |
: _) b' Z! r" M6 T) U
gps5vugazuy64046211316.png
, _, }- G$ `1 \% u1 i* |: j |
9 q% n3 s, |% \8 Q2 r* ?3 k
7 m) u& K) C" P# v8 o; q' c: B" ?+ p* q6 t* i
8 d8 L4 z' B* I% m2 j) j
关于我们:
. e; V# a; y6 t& q! V深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
- w5 b) B% F" F ~; q! W8 j% R. d( o3 M+ w6 x* y
http://www.latitudeda.com/
]3 i4 z5 J. ](点击上方名片关注我们,发现更多精彩内容) |
|