|

引言
5 G( S. }& H3 u( ^9 v随着人工智能(AI)的快速发展,现代数据中心对光互连组件的需求不断增长。目前,业界正在将SerDes(串行器/解串器)技术推向200Gb/s每通道,以满足这些日益增长的需求。本文探讨了一种创新的异构收发器架构,该架构解决了高速光通信中的关键挑战[1]。
' y- f7 R/ s$ }2 x
xse0yvpcgvj6403795348.png
. ^+ l! i% p$ Y2 g
2 l! O/ I- ^ ]0 q0 @0 q( v1" @: `: p" Q2 k% X! {' ]; a0 a
可插拔光学解决方案简介
( p7 {! n4 s* N/ d; [. ^ |( c- d9 Q- \AI技术的快速发展为数据中心的数据传输速度创造了极高需求。当前的光互连解决方案在扩展到200Gb/s每通道时面临重大挑战。目前主要有两种方法:
$ E l, f5 i- x# e
$ V f y. T) S) u线性驱动可插拔光学模块(LPO)由于其优越的能源效率,在100G/通道传输中获得了广泛应用。然而,当尝试扩展到200G/通道时,LPO面临可靠性问题,因为极短距离(VSR)电通道的插入损耗(IL)会显着增加——当数据速率翻倍时,大约增加14dB。
0 R+ ~6 I' M6 k* u
6 \7 T2 @/ B5 H+ O+ X/ h q: D M! f2 _另一方面,包含数字信号处理器(DSP)的重定时解决方案能够处理更高的插入损耗(约30dB),但会引入显着的延迟。这种延迟与对时间敏感的应用(如AI推理)不兼容,在这些应用中,毫秒级的延迟可能产生关键影响。
1 C1 H" l7 U( z+ I) z& \' P9 p. n1 \
本文探讨的异构架构提出了一种创新方法,使光侧能实现200G传输,同时避免电通道插入损耗加剧的问题。这种解决方案通过非ADC架构实现更低的延迟,同时保持与重定时解决方案相当的能源效率。
8 @( j: z8 n, b& q
& C+ W7 R0 z/ m' N# j2' R3 {, }3 Q- I& `
异构收发器架构9 ^* c4 a4 ]; g# O
异构收发器代表了一种新颖的方法,结合了两种不同的半导体技术以优化性能:0.13μm SiGe BiCMOS和28nm CMOS。这种混合设计允许在最有益的地方应用每种技术的优势。
, I' k8 e% S' s) C& M: a; T8 i7 Q( }% k. b; @* ~
论文中的图36.5.1显示了三种不同的光互连方法:- {; B# j5 y5 n9 E: s
(a) LPO解决方案,适用于100G但在200G时表现不佳 7 q% u- S" E6 M% d
(b) 带DSP的重定时解决方案,增加了延迟 8 a/ q/ Y! Y v$ F. d5 z" N' @
(c) 提出的异构解决方案,结合了两者的优点
z7 n3 Z @8 ?. B5 w5 B4 q
qxpfecxailb6403795449.png
+ V& D) z+ x% y D1 c1 e: M
图1:(a) LPO解决方案;(b) 重定时解决方案;(c) 提出的解决方案& P( S& e1 U5 p& b3 ]8 N5 j
, Y# z% q, t# z
该架构包括200Gb/s发射器(TX)和200Gb/s接收器(RX),每个都采用两种半导体技术。
3 b$ L: ` ]3 E0 U& W$ s
eqkdjzxl4n06403795549.png
1 |0 d/ j3 f) |3 x8 J
图2:200Gb/s收发器的发射器和接收器部分的框图。左侧显示了发射器架构,右侧显示了接收器设计。
4 s d |! d) X, y8 [- S4 j% J4 l8 n+ T4 k1 K/ l
3
2 z. N1 Z# o; i8 U$ M发射器设计与实现* R. v z* F3 S3 f# O! a
200G发射器由130nm SiGe BiCMOS制造的200Gb/s模拟多路复用器(AMUX)和28nm CMOS实现的两个100Gb/s PAM-4发射器组成。这种异构方法充分利用了每种技术的优势。
0 f+ k9 j' V0 @( G/ ?
: S% x5 n. ?+ ~3 v' T3 q在100G TX中,设计包含:
; H% _% F) Q, p) h6 PPRBS-Gen用于测试模式生成
4 V# N! c* t5 y8:4多路复用器和重定时线路
. E" r- [( k* Q$ {3 p10段前馈均衡器(FFE)
2 f3 `" [: ] M精细调整的低功耗准电压模式(QVM)驱动器
. {: J' {+ H- D: M
$ @7 X0 J, U4 ]$ a6 d" o一项关键创新是采用3抽头分数间隔FFE方案,用于锐化眼图,同时为200G应用提供50GHz带宽补偿。从TX传来的两路100Gb/s数据(延迟0.5UI,即10ps)通过传输线和CTLE,然后由带有2抽头FFE的MUX核心聚合为200Gb/s。$ o# ^6 f- H6 O, O; K7 }8 p) e7 `
4 ], A: q' C9 B; O h6 E
设计在CMOS TX的时钟路径中集成了4级可变延迟缓冲器,使100Gb/s数据的相位可变化,覆盖超过0.5UI延迟(12ps),通过每级3位可变电容阵列实现亚皮秒分辨率。" y. W, r5 ?' P! ]
nxvggcyg5kw6403795649.png
5 u; r" X, `* c7 ]$ M& E7 F. v图3:200Gb/s发射器中采用的设计技术。该图说明了各种方面,包括QVM驱动器设计、RZ数据生成和输出缓冲器实现。" q7 s7 W, a- k X* Q
! _, R! v# V q0 PCMOS QVM驱动器相比传统方法提供多项优势:9 _5 K5 r* q, x4 E3 p$ f
比CML设计减少30%功耗
* E% w" D6 ~8 X3 x' m+ T高电压效率' U6 Z& z0 ?- i( p! T- a" Z* O
超精细线性度调整,分辨率优于0.5%; l; G# k4 g! y* f6 N0 b# i
RLM(相对电平不匹配)调整范围从84%到100%
6 x. [* F) [9 G# {2 {+ ]. O
" M6 [/ g' [' X( w这种精细的线性度控制对补偿调制器驱动器和光调制器在实际应用中引入的非线性至为重要。5 f, k0 @- r( O, q+ E* f) S
" k/ d! g6 q( k* J9 K# i4) e+ \ o' \1 ?1 h
模拟多路复用器设计1 N' O) I7 n; b; H
基于归零(RZ)数据生成和求和的新型AMUX架构构成了发射器设计的核心。当RZ单元中CKP/CKN为高/低时,VOP/VON跟踪输入数据信号VIP/VIN;当CKP/CKN为低/高时,VOP/VON返回共模电压,产生零差分电压。& K4 I8 u* ]0 X" C7 p) g
" m& L5 | b" z9 ~3 A2 C采用并联电感峰化技术加速RZ稳定,并将零宽度从2.83ps扩展到4.96ps,增幅达75%。通过这种方法,主抽头RZ数据D1M和D2M分别通过采样时钟的相反相位从RZ1和RZ3提取。类似地,通过在RZ2和RZ4中反转采样时钟的极性,获得具有1-UI延迟的post1抽头RZ信号D1P和D2P。
& {2 L7 s v3 Q# p. B* {% G; @' U
具有0到11.2ps(>1UI)可调节延迟的相移器通过将时钟边沿与数据边沿对齐实现FFE抽头生成。两个Gm单元从四路RZ数据产生全速率主抽头和post1抽头数据,抽头系数由Vbp和Vbn之间的电压差确定,而20Ω负载电阻作为电流求和器。: h, [, [" J0 b# L* B5 w, B
: c' Y& x/ I2 G与先前设计相比,具有2抽头FFE的AMUX减少时钟功率需求约12%,同时减轻时钟驱动负载,与替代方法相比,时钟功率减少约35%。
, h, p# W! e' o8 |. O1 I/ _
emwhrzdsksm6403795750.png
3 a# g% q4 ^( d& F3 B, |7 ?7 n
图4:跟踪保持放大器(THA)的原理图和时序图。该图显示了模拟解复用线路的详细操作及其交叉馈通消除技术。3 R% ?8 ]# w. }+ t. ], s* \3 V$ @
7 y( Y0 {" S) }8 H5 w- U! X
5
% D) Z/ W* u8 b+ m% `接收器架构
/ U2 ]3 N2 V; c异构200G接收器由130nm SiGe BiCMOS制造的200Gb/s模拟解复用器(ADEMUX)和28nm CMOS实现的两个100Gb/s PAM-4 RX组成。ADEMUX将200Gb/s PAM-4输入数据下转换为两路100Gb/s PAM-4数据。8 ?& m4 @5 M8 a' T
3 w) Q2 ]/ d6 p, U( C. ^1 r! }; mADEMUX的核心线路采用两个跟踪保持放大器(THA)。当CKP为高时,THA1在跟踪阶段运行,Q5/Q10开启,Q6/Q9关闭。当CKP转为低时,VFP1/VFN1被拉低,保持电容CH在保持阶段保持VOP1/VON1的电压。* u" e" z* U7 K& I9 o% m( }/ J
- Q, y U8 ^! w此设计的一个重大挑战是馈通路径,在VOP1/VON1引入不需要的数据。例如,在THA1中,D11影响VFP1/VFN1处D10的保持阶段电压,从而影响解复用输出数据。为解决这个问题,引入了馈通消除路径,通过从THA2的输出向VFP1/VFN1提供负极性的D11来抑制馈通噪声。
7 g* W0 c0 ?0 ]: K. e# _+ t, n, J1 d& _
这种交叉馈通消除(CFC)技术显着提高了性能,如测量结果所示,眼图高度提高了2.68倍,眼图宽度提高了39.6%。* s. A; u& h" n9 W# O5 S9 V* s
$ m1 _2 z5 u! M7 H6 F3 s6 [ADEMUX接收50GHz外部采样时钟,也可通过片上注入锁定四分频器从12.5GHz恢复时钟生成,由2选1时钟多路复用器选择。如需要,系统可配备50GHz片上低抖动清洁锁相环。可调节延迟超过1UI的相移器确保THA中数据和采样时钟正确对齐。# Z, q/ @6 n. D/ x4 _
# Z k! t. Y- X! q% \
THA前后的输入和输出CTLE提供约6dB的中等通道损耗补偿。100Gb/s PAM-4解复用数据由1/4速率混合信号RX恢复,具有2ns低延迟和1.08pJ/b的最小功率效率。, a0 Z( j+ g8 M+ V$ O7 T6 [" `
5 u1 Y/ K: U+ ]/ P6 f
6$ @! S2 f2 Y- Z. L" F2 D _
性能结果和测量
2 C z: v6 D4 ]2 d/ i
obz1xbj34su6403795850.png
; c- t$ Q5 N( K3 H图5:200Gb/s收发器的全面测量结果。该图显示了眼图、恢复时钟抖动测量和BER曲线,展示了系统的性能。
2 G( D- f- I' K, b0 @5 w
5 R% K" Q7 G7 d200G收发器总功耗为1350mW(TX:664mW,RX:686mW),28nm CMOS供电0.9V,130nm SiGe BiCMOS供电3.3V。测量结果展示了令人印象深刻的性能:* j; m+ d8 W0 _& F" C. `- x; t/ I& F/ X" A
独立100G CMOS TX在80Gb/s时展示RLM线性度优化从90.3%到99.6%,证明了光链路线性预失真能力0 A7 O+ y6 j( E/ _6 y
使用0.5-T间隔3抽头FFE在约4dB通道损耗后实现了RLM为99.5%的宽开口100Gb/s PAM-4眼图$ P& U) o: @2 u$ z2 E9 w
通过启用2抽头FFE成功打开200Gb/s PAM-4眼图,在约6dB插入损耗后输出摆幅为340mVppd5 h# M( A" O2 G' a4 y, f/ A
恢复时钟测量显示出色的抖动性能,随机抖动为328fs,总抖动为5.7ps& S9 d: Q. A1 S) R8 {$ m- t% |
使用PRBS-7模式的200Gb/s PAM-4输入BER测量显示BER=10^-12时水平开口为0.2UI& _* \* m! C3 B& y* D* h$ B2 ~
" b9 ?* m" I; x: E7 ]9 I4 S
zaj2zdrmq556403795951.png
0 U6 d2 o9 R' b* S. e
图6:200Gb/s收发器的芯片照片。图像展示了发射器和接收器芯片的物理实现,突出了SiGe BiCMOS和CMOS技术的异构集成。
6 A! b" z" N4 e) D9 l2 P G
) P: h; C A. R/ b. b) E( }7
/ N5 f7 ~( ^3 ]% N/ n" B( G; l8 E功率效率和延迟优势
6 h3 B7 t7 G: n* t% C. h: `) c; d0 u4 u异构设计的一个特别吸引人的方面是功率效率。提出的解决方案实现了10.75pJ/b的能量效率,优于消耗12.69-13pJ/b的同类重定时解决方案。这代表了约15-17%的能源效率提升。
+ d) f3 r5 M# n, j* j8 x; w* G( Y a& ^+ D' q6 ^
更重要的是延迟优势。传统重定时解决方案引入65-70ns的延迟,而异构方法将其减少到10ns以下——对于延迟敏感的应用如AI推理而言,这是至为关键的改进。$ O) Y/ O$ v ^+ l3 F, X* P: R
' X. [9 |1 l; i) x5 Z8
+ m8 i$ S) F8 {0 m9 ?/ x结论
2 s2 Z1 L& o2 ^' c0 U. c$ `2 g$ Z! h本文介绍的异构200Gb/s PAM-4收发器展示了一种平衡带宽、功率效率和延迟竞争需求的高速光互连新方法。通过结合0.13μm SiGe BiCMOS和28nm CMOS技术,该设计利用每种技术的优势克服了传统方法中遇到的限制。
6 Z2 b! w) c0 @+ f! X: \& H' l
; s: d8 K1 l* T' _! E这种创新架构实现了200G传输,避免了基于DSP解决方案的严重延迟损失或线性驱动可插拔光学在如此高数据速率下面临的可靠性挑战。通过全面测量验证了收发器的性能,展示了优异的眼图开口、抖动性能和误码率。
9 o. H8 y+ Y7 V3 `
C! u ~5 v7 {* y# K) w随着AI和其他数据密集型应用的持续增长,这种异构方法在满足下一代数据中心的严格要求方面可能变得越来越重要。这项工作代表了实现实用200Gb/s光互连的重要一步,能够支持未来计算基础设施的带宽需求,同时保持时间关键应用所需的低延迟。; Y, }2 Q# F# p0 N. Z; m3 U
6 `: z2 ~5 z$ ?$ _参考文献& c0 D$ c/ z# a% B9 Y
[1] R. Tang, K. Wang, S. Xiang, Y. Su, C. Cao, Y. He, and X. Gui, "A Low-Latency 200Gb/s PAM-4 Heterogeneous Transceiver in 0.13μm SiGe BiCMOS and 28nm CMOS for Retimed Pluggable Optics," in 2025 IEEE International Solid-State Circuits Conference (ISSCC), Feb. 2025, pp. 594-595.4 v q! r' s! [1 q# m* Q
END
) v! f" v6 `3 [6 b& I
% n y8 S4 h* @. a软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
) i+ C" k$ w+ R' e点击左下角"阅读原文"马上申请
' l4 y5 T4 g4 Q7 n& w6 {+ i: J* [
0 w Y( l; t# x7 x N8 ]欢迎转载' z) D- F0 ^5 [' D, l* E
; T7 G! C' H5 S转载请注明出处,请勿修改内容和删除作者信息!2 Z7 X3 |! C& P% n4 P$ G
( L' i! ~9 d: O* m# H4 P- p
z% a" V4 I. }' j* I) F4 p( m/ b- I! g% K9 P5 B( c$ o3 e
zxyritcgbfz6403796051.gif
- f* N: Q4 c9 h6 s7 o
( m5 K% [/ L, X2 f, F7 `关注我们
5 v! H; `/ W$ e2 P9 N9 {; J' c# f1 A* h
" ^6 u) j v( g
22khmwrmj3x6403796151.png
; t+ R* N. ? I) `
| 7 q! E+ S- o$ ~. j
l0wwcxgpjkd6403796251.png
. Z6 a* E5 V h# I4 R% | |
' A6 _* X* Y4 g; |
av1bygzdukb6403796351.png
$ {: ^* D9 X$ j6 i. a | : u% h; w" T) l9 {
Y" w5 U( R2 C2 N* v: e8 a
% t$ }4 a1 r [7 v2 S7 u
& b& |) s# I0 @& C4 R. X# E' l7 j关于我们:
6 u' \1 U) Z6 M/ C, E深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
3 [3 p7 L6 y6 X) J* \
. }' e0 v& a' ~http://www.latitudeda.com/
0 V) l/ F' z3 w7 k( ^(点击上方名片关注我们,发现更多精彩内容) |
|