|

引言
# ~8 p; A2 J& G9 z在现代数据中心中,对更高I/O带宽的需求持续推动串行链路数据速率超过100Gb/s。虽然基于ADC的接收器具有强大的DSP均衡能力,可以补偿显著的信道损耗,但其功耗在大于16nm的工艺节点上仍然是一个挑战。本文探讨了Lin等人在28nm CMOS工艺中设计的106.25Gb/s PAM-4接收器中实现的创新方法。0 N6 i6 u/ @5 E5 M" K) p
- p! z$ y- ] v) S$ @* z% [该接收器实现了2.06pJ/b的优异功耗效率,同时在不需要发送端均衡的情况下补偿了21.2dB的损耗。* d$ r \% H1 G$ [8 D2 @3 r
, S6 W7 H/ q% X
这一设计的关键创新在于使用1+0.5D脉冲整形结合1抽头推测性判决反馈均衡器(DFE)。这种方法显著降低了通常与PAM-4信号解码相关的硬件复杂度和功耗。接收器在接收端集成了3抽头前馈均衡器(FFE),以自适应地生成所需的1+0.5D响应,消除了对发送端均衡的需求,同时保持了优异的误码率(BER)性能[1]。6 a' Y+ t9 \6 ]. i5 ]1 I' g
gbkwkgm2njq64021043406.png
# E! k6 c$ b; \" _0 n9 s/ m" b: p) c5 R5 B
1+ z9 H7 k$ L$ v9 l7 a
1+0.5D脉冲整形概念! r7 [: V' c0 m* F3 m5 t
1+0.5D脉冲整形概念为降低复杂度的PAM-4信号检测提供了巧妙的解决方案。在传统PAM-4接收器中,实现1抽头推测性DFE需要12个判决电平。然而,当第一个后游码间干扰(h1)等于主游标(h0)的一半时,即h1=0.5h0,这12个推测电平中的4个与其他电平重叠。这一特性将所需的切片电平数量减少到仅8个。
( b1 L9 J9 ]& k# d
gic3qpdy3ik64021043506.png
P5 N7 C& D- O$ F图1所示,这八个切片电平位于-3.5h0、-2.5h0、-1.5h0、-0.5h0、0.5h0、1.5h0、2.5h0和3.5h0。这种减少的切片电平数显著简化了接收器架构。此外,用于数据检测的相同切片电平可以重新用于提取均衡器自适应和定时恢复所需的误差信息,实现额外的硬件节省。/ @4 _- Q4 ?* u* j2 H7 u
7 }, h5 K4 p. V$ f6 m" x. M+ U) j不同于实现八个专用切片器(这会消耗大量功率并降低模拟前端(AFE)带宽),该设计采用了更高效的时间交错结构,配合3位SAR ADC。这些ADC提供八个所需切片电平中的七个,第八个电平(-3.5h0)由独立的切片器提供。
" K/ `+ C7 H' n( R+ F, O5 f+ u. [6 k6 H$ z/ ^
电压预移位电路生成等于0.5h0的移位电压(Vshift),将切片电平移动到更适合ADC的位置,位于-3h0、-2h0、-1h0、0、1h0、2h0和3h0。这种方法使1+0.5D PAM-4信号能够通过时间交错的3位+1位ADC结构与自适应参考电压完全解析。1 q: N! `6 i) c& N. y
1 r; }) A- ?/ S$ v) R! a2, ~+ E. a O0 l% `. `% d$ V
接收器架构
; w9 \- s7 A# _; R3 v' q
4ekjperpaut64021043606.png
" A: j2 U5 U2 X: L1 ]6 R
图2所示的接收器架构,首先是一个片上终端(ODT)电路,集成了T型线圈以优化回波损耗和输入带宽。连续时间线性均衡器(CTLE)采用串联RC和并联RC退化网络,分别用于提升低频和中频成分。由于1+0.5D脉冲整形方法不需要消除h1,CTLE的设计约束得到放宽,从而改善了噪声性能。! T! u; ^' U# Y! c% c6 g: s. ?% n
% V! K# v. O% J4 `6 C9 O
CTLE自适应在数字域中实现,使用符号-符号最小均方(LMS)算法。通过最小化特定的后游码间干扰项,CTLE独立调整中频和低频RC网络。在CTLE之后,缓冲级将其与4路跟踪保持器(T/H)隔离,并将信号分成奇偶路径。每个缓冲驱动两个具有互补时钟的T/H,以防止重叠访问。3 t, z7 G) c( D
& Q* {6 o1 E1 W# {& t3抽头FFE求和器将当前数据与来自相邻T/H输出的前一个和下一个数据相结合。这个FFE消除残余码间干扰,同时在不同信道条件下保持所需的1+0.5D脉冲整形。T/H使用50%占空比时钟操作,这对3抽头FFE求和操作提出了时序挑战。为解决这个问题,FFE求和器包含三个具有不同延迟的路径:前抽头数据的快速路径,主抽头的中等延迟,以及后抽头数据的慢速路径。 l; Q5 u2 \ g0 E* q A0 E
4 j( j$ W, T. u" E- [5 u电压预移位电路直接集成到FFE求和器中。随后是可变增益放大器(VGA),用于调整送至ADC的信号摆幅。一个源极跟随器驱动六个时间交错的3位+1位ADC,解码推测性PAM-4数据并提取误差信号。数字后端评估1抽头推测性DFE并实现CTLE、FFE、电压移位和参考电压的各种自适应环路。
7 d$ R( Y. [! k3 B6 g
: S6 M f- w2 M2 b4 w3
, s5 {* s* Z" J rFFE求和器设计$ s0 S/ x% _: Z4 ^
xeo3y4yc0a264021043706.png
9 _! _3 C0 _/ @/ |0 c; \图3所示的3抽头FFE求和器,使用跨导-跨阻抗(TAS-TIS)拓扑以改善线性度。这一设计优雅地集成了电压预移位和可变增益功能,减少了硬件开销。电压预移位通过在TAS输出节点添加偏置电流实现,该电流还用于抵消来自AFE和时间交错器的整体DC偏置。预移位代码在数字域中与偏置代码组合,控制7位电流DAC产生移位电流。4 i. f8 k3 B' S( O0 w; ]" u
$ `8 J" p X# z! u. k% s
TIS级通过调整其反馈电阻作为VGA功能。TAS中的跨导(gm)增强技术提供双倍跨导,同时仅消耗1.5倍功率。RC退化补偿由rank-1 T/H引起的建立损失。
7 l+ v' z' y' n5 W8 E8 a4 d4 [0 r
P* c4 L) g, @1 K- A3 Igm增强结构包含具有不同延迟特性的内部和外部TAS级。由于直接连接到输出,外部TAS具有最小延迟,而内部级通过有源负载将电流路由到输出,导致较大延迟。主抽头结合了快速和慢速路径,产生中等延迟。通过在不同节点连接前抽头和后抽头单元,该设计为前抽头创建快速路径,为后抽头创建慢速路径,无需额外电路即可增加FFE求和的时序重叠。
/ `, a1 T2 r9 l- K$ T! b6 \4 _& N
6 D8 ?1 ]2 K) E* z( ~4 f5 \图3中显示的仿真结果展示了20dB损耗信道的统计位响应(SBR)。当时钟数据恢复(CDR)逻辑将采样时钟锁定在h1=0.5h0时,残余码间干扰(特别是h-1和h2)被3抽头FFE有效消除,产生所需的1+0.5D脉冲形状。值得注意的是,仿真表明电压预移位电路提供宽带响应且不损害带宽,有无预移位的SBR之间的变化小于2.5mV。1 }8 Y2 A( T" }2 Y
" C6 y4 j+ ^5 p
4$ B, c/ a" W0 r/ g7 u3 z# [( l
推测性DFE实现
& I: H! X+ M' T- x, G- N* L
u10w2304ycx64021043806.png
6 P, L8 L# b% }9 ]; z1 w9 w7 U图4说明了1抽头前瞻DFE的框图。来自1位和3位ADC的输出用于解析四种可能的前一个符号(+3、+1、-1和-3)的推测性PAM-4 MSB/LSB数据。该图包括MSB路径的真值表和布尔表达式。这种解码方法无需使用加法器生成推测性PAM-4二进制数据,从而放宽时序要求并减少功耗。
! H# s/ W; j$ z2 M5 F6 e& `, l; h( b/ U
为使DFE前瞻逻辑以1/24速率运行,六个4选1多路复用器形成一个前瞻DFE单元(LA6)。四个相同的LA6单元完成24路推测性PAM-4数据选择,使1抽头DFE的关键时序约束为tckq+4tmux+tsetup1 I! h+ Y$ u/ ^/ _+ `
1 ~6 f3 _7 c+ w0 v( E+ B) i6 P5+ i& @3 x# f$ R& B
测量结果* ~0 J% `# M7 ^
接收器在28nm CMOS技术中制造,并使用GSSG探针在探针站上测试。性能测量结果显示在图5和图6中。接收器从1.2V、1V和0.9V电源消耗总功率219.2mW,实现了令人印象深刻的2.06pJ/b功耗效率。/ Q) D4 L; q, r g
* h2 c4 _. I6 z; g
测试使用了两种不同损耗特性的带状线信道:11.2英寸信道,用于106.25Gb/s PAM-4信号,Nyquist损耗为21.2dB;以及20.1英寸信道,用于56Gb/s NRZ信号,Nyquist损耗为34.6dB。输入数据使用Anritsu MP1900A模式生成器生成的PRBS7模式,无任何均衡。
' m4 k, Q( u# N: x
i0qrbxtdpry64021043907.png
- G* i5 d5 {+ X e" y1 O9 \4 T* G图5所示的浴盆曲线通过从标称CDR锁定点调整相位插值器(PI)代码测量。启用3抽头RX FFE后,106.25Gb/s PAM-4和56Gb/s NRZ信号的误码率分别从约10^-6和10^-8显著改善至优于10^-12。得益于CTLE、FFE和DFE的自适应环路,接收器在10^-12 BER下实现了106.25Gb/s PAM-4的0.03UI和56Gb/s NRZ的0.19UI水平裕度。
6 p+ ]& j) D# }3 t; G0 i3 T. `, q! ~& l
抖动容忍度(JTOL)结果也显示在图7.6.5中。高频抖动容忍度在10^-6 BER下对106.25Gb/s PAM-4为0.06UIpp,在10^-12 BER下对56Gb/s NRZ为0.17UIpp。' j4 o4 Z7 g' V$ ~/ W
wtlsgfd03cn64021044007.png
% G4 ~% |% S/ u* w
图6显示了接收器的芯片照片和功耗分布。有效面积占0.27×0.77mm2。功耗分布显示了功率如何在不同电路模块之间分配,其中模拟前端、时钟生成和数字逻辑是主要消耗者。
% t$ u0 i- v% a; j# {0 f+ q; U" a a, i" x& U& e* l
6! z$ V+ y6 Y+ C& j; \
结论2 l; ]. b! @0 P
本文介绍的106.25Gb/s PAM-4接收器展示了高速串行链路设计的创新方法。通过利用1+0.5D脉冲整形与1抽头推测性DFE,该设计与传统PAM-4接收器相比,在显著降低复杂度的同时实现了优异性能。3抽头RX FFE自适应生成所需的1+0.5D响应,消除了对发送端均衡的需求。
|# M! V: @7 s2 B6 W
5 Z2 ~- a0 b) T' Y% B) J3 B1 Y# {( w) f在28nm CMOS技术中的实现达到了2.06pJ/b的功耗效率,同时补偿了21.2dB信道损耗,使其与更先进的工艺节点具有竞争力。设计创新包括集成的电压预移位电路、具有延迟匹配路径的跨导-跨阻抗FFE求和器以及高效的1抽头前瞻DFE,这些都为接收器的优异性能做出了贡献。+ e: W* X2 s' L
: F4 H4 f- w# Y' N. `* M这项工作代表了高速串行链路设计的重要进步,特别是对于数据中心应用,其中功耗效率和信道损耗补偿是关键要求。这里展示的方法为该领域的未来发展提供了有效思路。
# u) v, Q% [8 y/ N4 V9 Y4 R' R0 `8 t& a) \* x* V c0 M2 K
参考文献2 q2 g7 x. o6 P% Y7 m8 T I
[1] Y.-P. Lin, Y.-C. Jao, W.-H. Hsieh, and P.-J. Peng, "A 2.06pJ/b 106.25Gb/s PAM-4 Receiver with 3-Tap FFE and 1-Tap Speculative DFE in 28nm CMOS," in 2025 IEEE International Solid-State Circuits Conference (ISSCC), Feb. 2025
- c. n1 c% O; M0 x! x, c; a1 \END
1 k* {0 Q5 P$ [) K0 c [2 @3 V; a# R/ J" ~
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
! U* g: O/ o4 O2 l0 D点击左下角"阅读原文"马上申请
5 n f2 T! I. s3 D( P( u2 |+ M3 g7 r( R/ I0 |' |- E5 {) o! g( u
欢迎转载7 x+ J! ^' _: U1 { Z" ?
& R5 K8 h+ m# D, [) H8 K4 T
转载请注明出处,请勿修改内容和删除作者信息!4 S9 u3 Z9 F$ q* f- K) [$ Z
/ S( a4 A) _9 G
. S: d: N9 Q4 U( ^; ~& R1 W1 e$ P/ J: w( }! `
u2dsffofgne64021044107.gif
. {: v4 v4 X6 y# W$ K4 l
' Y0 `$ B: K) v) y( D+ L8 H关注我们# }" Y7 L1 Q1 P$ S& H
/ Z/ P, T8 N" L6 c
/ L3 {0 _ r0 u
kyecefle3ub64021044207.png
, z) O2 B6 r! E, L7 G* P3 n | 8 X1 |% p; |: g4 ~* w' M; u
uepj3xomr2064021044307.png
& [3 d, |4 i% T X" I2 X |
k9 S4 t, G2 l, \
frwgvgdbyn464021044407.png
1 g" K& Z+ F6 B8 e7 ]
|
6 a9 y1 j \8 ]/ b6 A
) L" {5 ^( i, p1 C* b. k6 Z4 j% H' [) y
- C( R: o- p0 z* y- i
关于我们:
- K. O! J) y2 `& p1 l* @$ H9 O4 R深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。3 ^3 J* B9 i/ [+ C- P3 c" C& Y
& J) G2 c6 S. [" n- g5 b7 `http://www.latitudeda.com/, C1 W( L; ?4 c9 w! t
(点击上方名片关注我们,发现更多精彩内容) |
|