|

引言
' G4 j1 X8 Y S% D1 R$ @在人工智能和高性能计算快速发展的今天,对更快、更高效数据传输的需求不断增长。本文探讨光电共封装(CPO)技术的发展历程、当前状态,以及其在规模化网络和计算架构中的应用潜力。介绍这一技术面临的技术挑战、创新解决方案及其在实际应用中的表现[1]。) w% |) ^8 N# k4 M3 L q, X/ U
4 D9 h4 P" x5 R1 j) A8 x5 N H4 `
光电共封装技术的必要性5 L. [6 L; m/ V1 K
随着数据传输速率不断提高,传统电子互连面临着重大挑战。串行器/解串器(SerDes)向200Gbps迁移的过程中,电气I/O传输距离的局限性日益凸显。
: b; _9 `3 q1 S: q7 g, j* D
/ [) [0 F' B# z$ q2 P( W. V
y5w4kbh0u5m6409976215.png
( D& s$ [2 K0 J图1展示了高数据速率下信号损耗的增加,说明了光电共封装与ASIC集成的必要性。
3 O2 r3 X: x& ~5 S0 D! t: z3 _2 s9 F
在这些高速率下,信号完整性成为主要问题,主要由于信号路径各个组件的损耗,包括:
& I2 e( K* X9 X$ l& _& LASIC通过基板的损耗PCB走线长度损耗过孔损耗Paddle card损耗
8 `/ @( c+ o8 N/ X8 B
4 @" r$ N% ^. z7 s' w2 I& I* o随着数据速率从53 Gbps增加到106 Gbps,甚至达到212 Gbps,这些损耗变得更加明显。图表清楚地显示了更高频率如何导致更大的信号衰减,使得通过电气互连维持可靠通信变得越来越困难。8 ^: ^" z1 h8 k9 B: G% L" b- C
9 d. D8 K3 Y7 e+ p8 }1 `: y这一挑战促使了光互连技术的发展,可以与ASIC共同封装,以克服这些限制并实现下一代高性能计算和网络系统。
. D4 E) }& C) \" M: N# N# L
5 Y5 H+ H" a+ C4 D/ n {光互连技术的演进
8 I2 Z6 n5 S2 G+ t* K9 n9 p* Z0 r) r开发具有CPO功能的AI ASIC的历程是渐进的演变过程,从分立元件逐步发展到高度集成的解决方案。, r( G0 B" y& y' i' O( M0 [1 k' X
7 j3 P( g9 X& f3 g
nhpp0ayfzm56409976315.png
# t( D+ O7 {& u" _1 q
5bqsdb3keye6409976415.png
- V, P% g# F( s5 _7 p$ c& P$ ]3 `( }2 [
图2展示了从传统模块设计到硅基光电子Chiplet模块的发展过程。1 l, U D5 N% f4 m6 K) ^
传统模块设计:最初的方法使用分立的III-V族元件,在可扩展性方面存在工程和制造限制。模块集成:提高规模的第一步涉及将组件集成到模块中,减小尺寸并提高制造性。硅基光电子模块:在模块中引入硅基光电子Chiplet标志着重大进步,实现了更高的集成度和更好的可扩展性。光电共封装:最后阶段涉及将光学组件直接附加到ASIC上,实现前所未有的集成度和性能水平。
+ V1 j% s: ~4 e[/ol]$ ]3 N& B3 V4 z" H4 K: n6 o
这一演变导致了CPO的两个主要应用:
; ^2 c5 F1 F4 u3 J( s* Y3 W; A, a
zzrytwsssqq6409976516.png
" F* _7 m% E) x; h$ H, p
图3对比了用于规模化网络的CPO(>50Tbps连接到交换ASIC)和用于规模化计算的CPO(>6.4Tbps连接到GPU)。
) k L) u8 s' V用于规模化网络的CPO:将超过50Tbps的光学直接连接到交换ASIC。用于规模化计算的CPO:将超过6.4Tbps的光学与GPU集成,用于高性能计算应用。
/ X1 Z- }* |. D# u& N m( B9 }[/ol]
6 }0 }& y; r) [Broadcom的CPO平台: m0 ]3 F- l, X# n) ]2 B, G" \; d
Broadcom在CPO开发方面处于领先地位,创建了一个全面的平台,解决了高速、高密度光互连的挑战。
3 e: M. P( U! X" E, ?& A# Y1 t. L3 s1 V @
qxlxrqockuq6409976616.png
0 F7 n. J; U! f+ b! A" \# [图4提供了Broadcom 51.2Tbps TH5交换CPO的示意图概览,展示了其关键组件。7 H6 t2 G+ \" |$ R" q1 R+ X
) n$ f1 k. A7 `+ w6 j2 QCPO平台的关键组件包括:
- W w4 S/ x, v9 f, J3 Y5 a51.2Tbps TH5交换CPO,配备8个6.4T光学引擎16个可插拔激光模块(可现场维修)光纤Cable Assembly前面板端口I/O连接CPO(光电共封装)Broadcom FAU连接器PLS盲插连接器(MPO)
, {/ h) x8 n% h7 Q& j1 K8 t/ Z
, B# p/ H3 T2 i% B6 e4 B
! j: \: _' x/ a/ c) Q; V
kaep0astv5m6409976716.png
. R% U* N6 V: I5 l图5突出显示了CPO的关键组件:光电子集成芯片(PIC)、电子集成线路(EIC)、先进封装和高密度光纤连接器。2 C) U ]7 ?$ P5 [$ S- E) H
5 p9 F5 o" s5 _/ w+ f( GCPO系统的核心包括:光电子集成芯片(PIC):包含用于光信号处理的调制器和光电二极管。电子集成线路(EIC):包括用于电信号处理的驱动器和跨阻放大器(TIA)。先进封装:实现光学和电子组件的紧密集成。高密度光纤连接器:便于连接外部光网络。: p+ x# ?, q- H
[/ol]3 W- Z+ W9 Z- i/ D; C
7 [' @% i: h6 y1 p# G使用CPO的规模化网络
9 s* d) l: b$ O$ L# R5 U; nBroadcom在实施CPO用于规模化网络应用方面取得了重大进展。让我们来看看两代交换系统:
O3 S$ H3 n& U! K. Y9 E/ b* C, X5 [# ^( [) [, v
第一代:TH4-Humboldt: x/ r5 z& X: k/ G6 M. M
avmpcmsuhs46409976816.png
: a" T0 Z9 U7 v* G& L2 l图6展示了TH4-Humboldt,Broadcom的第一代25.6T以太网交换机,部分实现了CPO。 o D; U; h6 k. C/ S; q
4 a ?8 u0 z, [/ c: y( ETH4-Humboldt的主要特点包括:; y3 @) ^# s# z+ |+ J) O
25.6T以太网交换机一半CPO,一半电气连接四个3.2T光学引擎(32x100Gbps DR连接)光学引擎:PIC与SiGe EIC键合每个光学引擎包含约250个光学组件
+ @4 I! V& F! `! a# o. e& v% g
$ ]0 U8 R: I2 q+ D& d! h: r1 J, K
# _! A1 S" Y7 q+ V3 W' e
0cbisbbttyw6409976917.png
1 R. V) x& N/ W+ D; s) C
图7说明了TH4-Humboldt设计中硅基光电子PIC、SiGe EIC和TSV(硅通孔)的集成。
6 h9 @( v! F3 x) N5 t6 o
, ]" C, {" o6 B第二代:TH5-Bailly
' V: `1 c y6 s
orlr4vbrlu26409977017.png
- u' X" K" L6 D, r
图8展示了TH5-Bailly,Broadcom的第二代51.2T以太网交换机,实现了全CPO连接。
. d: C' f9 G. W. a3 v8 `. X6 t G; U4 t
TH5-Bailly代表了重大进步,具有以下特点:3 {( g( D t N" z) V: S
51.2T以太网交换机全光学CPO连接八个6.4T光学引擎(64x100Gbps FR4连接)光学引擎:PIC与CMOS EIC键合每个光学引擎包含约1000个光学组件
" d, T" A4 C, K. q
7 q1 \% u) h# B4 q0 m* Y
' z: L7 l( k& S ?9 X/ O( t+ `8 [
fjz3bnm1hgg6409977117.png
& ?& d* Q/ u0 v图9显示了使用扇出晶圆级封装(FOWLP)技术改进的硅基光电子PIC与7nm CMOS EIC的集成。/ @$ |4 i6 s6 l0 l! W4 u
) A1 }) H' I/ ~
TH5-Bailly中使用的FOWLP技术实现了PIC到EIC键合的更好可扩展性,允许更高的密度和性能。7 N: D2 T0 ~3 s p
9 o/ u! x H" h. d性能和功耗效率5 a' S% R7 q! }9 o
TH5-Bailly展示了令人印象深刻的性能和功耗效率:2 m) p9 J# ?6 `, X
" H: x( j! e% G: f, ]* M. S- }& t# C
21fnm5r4zll6409977218.png
; r5 Q% P. g# e# j/ _" t, a! u+ p图10显示了完全集成的51.2T交换机72个端口的FEC(前向错误纠正)尾部分布,显示了无错误操作。
7 x1 D7 U8 u! ~! B! g
3 w+ S4 b! y! R9 {; R% m' I5 M图表显示FEC尾部快速衰减,表明所有端口都具有出色的信号完整性和错误纠正能力。
" m4 h$ g) O' v4 C6 N# Q9 D5 e; L6 y: \& l
qb3tntuhtr36409977318.png
2 m4 ~3 |2 k3 F图11比较了51T交换机盒中CPO和传统可插拔光学的功耗。5 O( Y8 B* ^* N: M- ~/ @- e
4 y t6 S1 [0 }5 N v( U主要发现:# Y2 G6 x' B' ^+ r
使用Bailly CPO的光互连比传统可插拔光学消耗少70%的功率使用Bailly CPO的总交换机盒功耗降低约30%对于32k GPU集群,CPO可实现超过1MW的功耗节省
, I8 s5 n. t4 w! h% n' @" s! A
8 w# ~/ D: r6 {5 h5 S使用CPO的规模化计算! |( u) k! M3 J+ C7 Z6 F/ l
CPO技术不仅限于网络应用;对于规模化计算架构,特别是在人工智能和高性能计算领域,也具有巨大潜力。* b. @% L" m8 Y5 x% n0 n6 E
9 @; }8 O, B7 f0 v# p4 r
dwhrn31bzjg6409977418.png
( f P& N; j) O; o& R
图12说明了具有CPO的计算ASIC,在2.5D多芯片封装中每个光学引擎具有6.4Tbps I/O带宽。$ @ G' y3 e, O' v& |, y- ^
) A$ B; y! i; m* _6 K% G这种先进的封装方法集成了:9 F/ ]' E) ~, T1 q
计算ASICHBM(高带宽内存)SerDes芯片6.4T光学引擎Chiplet+ K% @" {6 ^" I, j. C+ L, \% e# g+ v
6 u, F! `! t# b7 T5 t在计算ASIC中使用CPO实现了:( z* w( |2 i, G2 U* B
更高的带宽密度降低功耗改善信号完整性大型AI集群的可扩展性2 z: j7 l: Y) K1 B: ~' F& |, o
) [; h* v+ V3 q; ]. f: V! i
1 \( o! r2 F% g& H
uyxw340g0ov6409977518.png
. C& b1 z l" T" I. j1 ?0 V; `
图13显示了使用CPO的512个GPU全连接单级规模化架构。
' \5 i% [* V! r6 w; T- X" @8 F5 @) [2 A
这种架构展示了CPO实现大规模扩展领域的潜力:
; K! J2 X7 v% w9 }- P0 y单行连接中的512个GPU光链路范围从5m到30m(单层)64个高基数交换机每个GPU通过CPO光学连接到所有64个交换机
' W, F7 f" ]5 B! q3 i7 [( \
) O' C" D3 Z+ x% R$ `未来发展和路线图
; J2 `9 K: L5 d随着CPO技术不断发展,我们可以期待密度和性能的进一步提高:4 S3 o: K: w4 ]; s' k- X. E' D
9 R1 a) [3 e0 z0 A' m
eap4distaua6409977618.png
' n* B2 F% A& c! d$ u图14展示了规模化光学Rooftop密度路线图,显示从2025年到2028年从12.8T到102.4T的发展。
1 O: t( a0 k* B, a
( x- ^" x0 j2 |, E# O8 U路线图显示光互连密度快速增加:
& L4 O: a0 _8 n8 D: K* ^ z2025年:12.8T2027年:51.2T2028年:102.4T(发送+接收), j4 h( x7 I) Z+ w1 Q: a0 F
" h# j# I# g( P" I4 o4 `这一进展将在未来几年内实现更强大、更高效的AI和HPC系统。
* q0 T' a; `4 M! q7 H2 R9 S0 H% H6 {8 R( E1 k' d: h( W( g. {
结论
- {* Z* o$ u$ P" {& V光电共封装代表了光学和电子组件集成的重大进展,用于高性能计算和网络应用。通过克服传统电气互连的限制,CPO使更强大、更高效和可扩展的AI和数据中心应用系统的开发成为可能。* D5 D, T$ J. w9 z f s; x2 {
3 D L- Y1 j6 R9 r1 E
正如我们在Broadcom从TH4-Humboldt到TH5-Bailly及以后的发展历程中所看到的,CPO技术正在快速发展,以满足现代计算不断增长的需求。先进封装技术(如FOWLP)的集成,以及光学引擎密度和性能的持续提高,为下一代AI和网络架构奠定了基础。# u$ X4 b% N( Y7 M; H& d; `; O; w
+ B0 N! t9 j. k& F2 W7 [CPO的优势,包括降低功耗、改善信号完整性和提高带宽密度,使其成为应对网络和计算系统扩展挑战的关键技术。随着技术的不断成熟,我们可以期待看到更多创新应用和架构,利用集成光电子技术的力量推动高性能计算和AI世界的发展。 a. q" O; a* e; U1 s2 |" i0 b
: Z' D$ z$ X" R- X参考文献
( t6 s0 Z \3 z/ }9 B- Q[1] M. Mehta, "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures," Hot Chips 2024, Aug. 26, 2024.. B9 p2 V, p6 O: z; k0 E4 I4 w
u8 s0 ^! Z. }. W/ ~& d4 e& f- END -% ^- u L9 U, X- V1 f% h {! R
0 x2 U: m& m, M/ `* F7 a3 F6 B4 m
' m# z9 }9 X' J; F8 x, T软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
0 E% C! [$ T% \点击左下角"阅读原文"马上申请/ k2 o6 Y1 T' C2 m; V- [, r x
9 m8 \5 w% e0 T( t d. Q/ M
欢迎转载
6 T# ]" |! F) o
* U8 k/ G! I9 r转载请注明出处,请勿修改内容和删除作者信息!) F0 h1 l# H4 K% H
) ^ ]9 w* n- K C5 N6 U/ m- F
* h0 N8 L# n, |# u! ~ J8 e. C- ?; v. }
tl2y5mxgkdz6409977718.gif
+ G( g- p6 X; x- s- R' H$ I) N5 `7 o
1 m% Y& |" B+ U9 O, y) D
关注我们
& D1 s8 W" z. ~" T' h( v i& }/ j- Y8 O, X
J; x8 @4 ?3 I& e0 _
ji4uymkena16409977818.png
9 ~2 Q+ _9 l+ i& d$ k7 Q. I$ E | 3 i9 T( l+ y4 I
3jpatpf4vcv6409977918.png
! P A) `/ K" z( J! Z5 A
|
( {8 P5 F! X9 T. X- N3 O5 n3 R7 @5 d
5t2mrkpsbym6409978018.png
* S3 U* `1 d7 }7 g2 x C! i
| 7 b8 c! i" D, I7 w- L
; ~8 q/ V, n4 k2 f- w# B- t& D, ]/ ]3 S5 y5 C
# e! r7 b2 g* E1 }
关于我们:! s3 Z5 J. N; R$ G& n+ K- V' G
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。) M+ V2 g4 ?/ s( L9 ?$ s& R; ]
$ C! q' w) |; n' j3 ?1 l7 h
http://www.latitudeda.com/
$ G& L4 ~# |8 @/ K. `1 k3 R$ t; ^(点击上方名片关注我们,发现更多精彩内容) |
|