引言
* a+ I4 \! m/ w随着人工智能(AI)技术迅速发展,对更强大、更高效计算系统的需求呈指数级增长。满足这一需求的主要挑战之一是确保互连技术能够跟上AI加速器(也称为XPU,极限处理单元)性能的提升步伐。互连是使系统不同部分之间能够通信的组件。本文探讨了AI系统中互连技术的现状和未来发展趋势,重点关注扩展性、功耗和潜在解决方案面临的挑战[1]。
0 B& k0 [4 S$ B0 V& V$ @5 f3 ~* p7 I' n! ^# s0 I4 B. ]- _7 F4 D
XPU性能和I/O带宽的扩展3 [8 U+ b- W( R7 V
预计未来几年XPU的性能将显著提升,这主要得益于芯片架构、工艺技术和散热解决方案的进步。根据作者预测,到2030年,XPU性能有望比2022年提高100倍[1]。
. K# f& o$ I) ~
hluz0ezoffr6402426028.png
# M ^9 W, N. c: Q D$ T5 S9 y
图1:展示了从2022年到2028年XPU性能的预期增长,显示由于芯片架构、工艺和基板技术的进步,性能将提高50倍。
; r! g7 C+ O7 R% [$ o: }. J( ^& O/ Y# g }$ V
这种计算能力的显着增长需要相应提高I/O带宽,以确保数据能在XPU和内存之间高效传输。作者提供了AI互连带宽需求的预测:5 B! Z4 N' Z! o0 |# i: X
lpdv5sfsqko6402426128.png
& [* Y7 @: r- w. B* [" \1 x图2:显示了从2022年到2028年AI互连带宽的预期增长,以及相应的1600G端口数量和功耗。
% W7 \8 e/ k5 r J5 x$ ?0 T
6 @5 i1 I5 l6 V+ a) H4 E3 Q% |2 c% b
互连扩展面临的挑战
+ d* _. X1 X0 u: h- F; a在追求更高带宽的过程中,出现了几个挑战:功耗:带宽增加通常会导致功耗增加。但即使带宽增加,SERDES(串行器/解串器)I/O功耗仍然只占XPU总功耗的一小部分。密度:随着XPU性能的提升,需要更高密度的互连以支持单个系统中不断增加的处理器数量。成本:互连技术的扩展通常会增加成本,特别是在向光互连等新技术过渡时。# ]6 r( M) O" t
[/ol]3 P/ |- f. B: E5 s: O
解决方案和新兴技术
2 p1 w7 X0 A' \' H V5 G% p为应对这些挑战,业界正在探索几种解决方案:
; h. @3 `: k4 D+ }* [! y* k( p3 m1. 高速SERDES/ _. Q1 w1 S0 ^9 \6 ? f& \) n | p
高速SERDES仍然是互连最实用和通用的电气接口。SERDES技术路线图显示,每通道速率将从112G发展到224G,最终达到448G。
- v+ J' Z. f) n: A; K: y0 Y
qyq25gkbo2s6402426228.png
% ^% u6 h7 R3 p/ |% r% g
图3:列出了高速SERDES的优势,包括通用电气接口性质和对各种媒体类型的支持。
1 C2 k0 P1 `; d' B5 w |7 ^
* }( z/ a* G9 L q5 O, A. [1 Z2. 铜缆与光互连
& ]: n$ _7 L1 `8 U% p" D- p对于短距离,特别是在机架或机箱内,铜缆互连仍然是最具成本效益和能效的解决方案。但随着距离增加和带宽需求增长,光互连变得必要。; w& A( r$ H& @9 Q/ p
bhr3z2kooq16402426328.png
4 O J8 W1 Y/ ~# c6 Z6 y
图4:讨论了在机箱或机架内使用无源铜缆互连的优势,突出了低成本、低功耗和高可靠性。1 b. r/ p7 ^* O. `" G4 E
1 q2 c M8 |8 g1 M# U3. 线性光学 k" ?: g ]: \0 e6 o& E( z
作者强烈倡导在AI集群中采用线性光学技术以解决功耗问题。讨论了三种主要的线性光学方法:5 d v9 {: ~1 C) t4 c9 M/ R
线性可插拔光学(LPO)近封装光学(NPO)光电共封装(CPO)
: X9 b4 ^! J+ N9 {4 l[/ol]
0 G' v$ c7 ?5 ^$ i# ~* v: ]
8 U. N# L3 Z% e5 R) v$ f
pdvvvrymm446402426428.png
& U& |* [9 N; z
图5:展示了线性接口光学的演进,显示了从线性可插拔光学(LPO)到近封装光学(NPO)和光电共封装(CPO)的发展过程。
; {& q& i3 }# V' P% K2 Q* W C
- q! y* v) J+ V在这些选项中,LPO被认为是最有前途的解决方案,可以显著节省功耗,同时避免了CPO和NPO在制造和维护方面的问题。
) o5 J0 R& M$ f* N) S1 ^! y; y6 R8 f3 r7 V, h0 S
4. LPO多源协议(MSA)
' Q2 D7 F, h+ @. X# r为加速LPO技术的采用,十二家行业领导者成立了LPO多源协议,以定义线性可插拔光学的规范。
: j/ j3 {% N/ `8 O0 i O6 O6 ^
obuozlxmpoj6402426528.png
7 z- ]) g7 h$ V( q( s, E* {
图6:列出了LPO多源协议的创始成员,包括AMD、Arista、Broadcom、Cisco、Intel和NVIDIA等行业主要参与者。8 x& y% ?- N% c4 |
9 q2 _- c/ i- D8 B' ~
5. 调制技术的进展
7 S/ \" [" O9 x, ~. |0 \ M4 E随着业界向每通道448G发展,正在讨论最合适的调制技术: v6 s8 U0 _/ H2 j
铜缆互连采用448G-PAM6光互连采用448G-PAM4
0 Z6 n) a& z! V0 H. R( ~1 S# K# i/ h
+ u9 D% F, I, ^每种选项在信号完整性和所需带宽方面都有优势和挑战。
4 o0 h0 d. ^. y5 p$ b
0 b! d/ A% |: d% I. R6. 新兴技术% g8 g8 a1 p: e3 P! s0 |
作者提到了一些潜在的未来技术,如:基于微型LED的光学技术微环谐振器 e# ?6 Z0 p f: L) M& ?3 \
[/ol]- }8 _: N- r: w$ U( u) u# d G" k- j" X
( g& V, p3 K' D$ G& I8 @" J
c0hxe3sjwet6402426628.png
5 ^% j+ ~2 m2 S6 @
图7:展示了使用4G微型LED的1600G-OSFP模块图,说明了未来光互连可能实现的低功耗。
) @8 y2 Q! `! T' |' j$ u8 Y1 z$ A1 D/ w8 b9 k
qztbhph3s4s6402426728.png
5 V3 H8 d9 g) @图8:展示了一个使用32G-NRZ微环的1600G-OSFP模块图,这是另一种潜在的未来光互连技术。
% j4 S H# G$ |5 r1 H0 A: |
$ N7 N8 ?! e6 U* n采用新技术面临的挑战1 s6 z a. W4 R1 C% d! [5 E
新的互连技术提供了潜在优势,但在采用过程中面临几个障碍:上市时间压力:XPU制造商无法承担等待新I/O技术成熟而延迟产品的风险。批量生产:新技术需要达到高容量制造(HVM)状态,才能被认真考虑集成到XPU中。风险管理:将未经验证的I/O技术集成到XPU设计中带来显著的财务风险。
, M5 h+ H9 t! w* y[/ol]
# U+ w3 m4 Z5 `2 v4 t8 T4 E2 S2 w8 [' J' F. [# G" Y1 j
xfpezqehe2x6402426829.png
X) t3 V# W2 A- P5 J! ^图9:讨论了采用新I/O技术时的先有鸡还是先有蛋问题,强调了在没有重大设计胜利的情况下开发和扩大新技术规模的挑战。# g" s5 [: V1 [7 g7 a4 j: }' N
P/ `. h( @; _3 l
未来互连发展策略
# f: v0 V0 g& w; O; e* i为应对这些挑战,提出了几种策略:风险分离:使用可插拔光学模块,将XPU和新互连技术的开发时间表分开。专注于高速SERDES:继续改进SERDES技术,作为支持铜缆和光互连的低风险选项。渐进式采用:通过可插拔模块逐步引入新技术,便于升级和降低风险。
& D( v$ r' z7 x' Y6 W6 k- j" x[/ol]. W9 ^3 r; S. ~( ?
+ W. ]8 e+ T7 A
1hz51dtmf446402426929.png
8 i4 D8 I* }. p0 S5 K
图10:强调了XPU上市时间的重要性,以及等待新I/O技术带来的风险。0 s* ?* d9 U+ d; |% S! V
' `# D7 {: }6 @5 n
结论' b7 V, R* j" t
AI系统中互连技术的未来既充满机遇,也面临重大挑战。随着XPU性能的快速提升,业界必须找到提高互连带宽和效率的方法,同时管理功耗、成本和可制造性等问题。1 {3 e; q+ u3 D3 f
, o) i$ g6 t+ r线性光学技术,特别是线性可插拔光学(LPO),成为解决许多这些挑战的有希望的解决方案。然而,前进的道路需要在技术创新与上市时间压力和风险管理等实际考虑因素之间谨慎平衡。
% r$ L: C5 @1 X6 f5 p& n l1 J5 J% c: F6 G
随着向每通道224G和448G的互连发展,像LPO多源协议这样的行业领导者之间的持续合作将在定义标准和推动新技术采用方面发挥关键作用。7 v/ j- }7 t3 I/ m
6 ~- c6 R4 [3 Q' p- h& h6 p
" B/ l7 v: Y/ O/ k
参考文献
2 U5 t9 d# w( }" T[1] Bechtolsheim, "Can Interconnects Keep up with AI? A System-Level Perspective," Presented at Hot Interconnects 2024, 2024.# S) A( H- m9 `
# @3 t! _" J% `6 Z9 H; `3 P& H/ I2 A3 |& U9 T
- END -
* H- i8 a! |) U* Y* V R* {2 B6 y; K2 Z! V
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。5 N( q, ^5 v% t0 j7 x# F9 }
点击左下角"阅读原文"马上申请
: J3 w; J* \; N3 C3 Y, F9 m$ f! ]* u; P0 n2 |- {/ D( \: X) Z( S
欢迎转载' ^0 A; }* W' s/ I1 e% @7 h
; M$ m6 |5 I' ?
转载请注明出处,请勿修改内容和删除作者信息!
7 f* _4 h8 E4 \6 q4 s
4 ?; {8 m5 H6 @4 Y8 V* q: S; A' @# P7 f
1 ~) T2 s8 k$ j/ i+ Y
ysflytspql46402427029.gif
& M- B5 J- z6 `9 S& k/ m. S
0 R6 s. I, b' v3 g; V' ~$ x关注我们
4 `& e5 o8 ^# L2 `6 G' |) _4 C( [6 C" N" s; ]* T8 `
* b: H0 \! t# c
fw4nktmtuhs6402427129.png
6 C; k( u2 e$ X: `6 K | $ f9 k( Z, n- \- C* V1 y1 j- {
st1bwox1e3e6402427229.png
4 z! d& l) z- a& g9 p8 k7 ~# { | + u& E" B- v2 h* L$ I- x( f" t
2ydi1hrdb3i6402427329.png
$ u, w1 ~/ ?" \2 Q: z( e
| * j- S' F7 y% J
) r- z8 j9 l/ u2 ~+ E2 f) W; E% ^; A$ p' n* ?
% ]* v- P- ^" \0 F1 k6 o关于我们:
Q. H# b" Y- O$ B2 b. m深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。- \ C. x7 @ z
/ n: j% O) [- U a/ }/ u2 J8 n
http://www.latitudeda.com/0 D" T5 U/ g( f, R3 V' D A; Z: c# J
(点击上方名片关注我们,发现更多精彩内容) |