|
引言6 _0 S6 T$ t/ B
数据密集型应用,如人工智能(AI)和高性能计算(HPC)的快速发展为数据传输能力带来了重大挑战。随着这些系统规模和复杂度的增长,高速可靠的互连变得极为重要。引用论文介绍了一种突破性的212.5Gb/s基于DSP的PAM-4收发器,该收发器采用4nm FinFET工艺制造,专为满足大型AI系统互连的严苛需求而设计。
. W7 I1 k; ^1 [% g" g5 a0 ^0 _! F# J; M. v9 B' Z9 e
这款收发器的特别之处在于能在插入损耗超过50dB的信道上实现2.5e-6的误码率(BER)。这在严酷条件下的信号完整性方面代表了显著进步。该设计结合了先进的数字信号处理技术和创新的模拟前端架构,以克服在大型复杂封装环境中常见的严重信号完整性问题。
6 I& N2 U4 ?& G5 A! y6 c
atq0e1mfbuw64026550552.png
- b2 W0 c4 ?; e w2 K! l6 |. }8 Z( ?2 G; g
1
+ D1 L% M, m- J, k发射器架构' [$ }% k1 P# F9 t
发射器(TX)设计采用多种创新技术,以实现AI系统互连所需的高数据率。其核心是TX DSP向TXFIR数字模块传输64位并行PAM-4 MSB和LSB数据。该模块将2位PAM-4数据转换为带有6抽头预加重的7位编码,为后续的64-to-1数据路径串行器准备信号。
% S6 s# D1 O/ N8 Y6 o2 p F `
( f' Y9 u4 p: q% k9 ^- B0 ~驱动器由电流模式逻辑(CML)7位数模转换器(DAC)构成,每个DAC切片包含一个4-to-1多路复用器。该多路复用器使用1UI脉冲宽度的4相时钟将数据串行化至112GBaud。为最大化带宽并减轻输出数据依赖性抖动,一个2抽头前馈均衡器(FFE)被集成到这个高速多路复用器中,在高速操作期间(56Gbaud及以上)激活。# l4 t- c t! e
* j' U; y i" F' I9 ^0 xTX输出网络具有四对电感,有效分散来自终端电阻、驱动器、ESD二极管和C4凸点的负载。这种L-C网络专门设计用于最小化反射,同时保持宽带宽,优化整体链路性能。
: c$ O1 u0 J( P! s
ilaez4zblbb64026550652.png
1 G! A: E1 h4 T3 J4 D! U" h* p
图1展示了发射器模块图,包括TXFIR数字模块、64-to-1数据路径串行器和CML 7b DAC驱动器架构。
$ J% ]# d. J- H" w$ n0 H# `8 B3 k( c+ G% i' ]4 B1 W' K
2
- q/ @1 `" O- ]+ [: k* ]3 o先进时钟系统6 p8 W- s- a# V6 Q$ d; k% u
收发器采用了复杂的时钟系统,首先是抖动清除PLL(JCPLL),它生成一个干净的低频参考时钟,路由到每通道的TX/RX PLL。这种方法对于较大的芯片很重要,因为在这些芯片中参考时钟质量无法保证,从而允许TX/RX PLL的宽带宽操作。) p8 P% a5 R% h3 f
/ v4 L" h7 e% w8 Q9 N$ H" i- K7 s+ _
每个TX和RX通道集成了一个专用数字PLL,面积紧凑,便于灵活的每通道TX/RX速度编程。该设计包含一个20至28GHz的LC VCO,配有高Q值电感和二次谐波LC滤波器,以实现低相位噪声性能。优化阈值的时-数转换器(TDC)包括一个时间放大电路,增强时域增益,降低输入参考抖动和偏移。
+ L8 |& O' L" k, e4 \) k+ W% G! e# i6 m2 T7 e1 C7 w+ n" q4 u
正交时钟由VCO输出处的IQ生成电路产生。在Q路径中,所需延迟由一个电流匮乏反相器产生,与一个小反相器插值,最小化抖动影响。电流匮乏反相器的偏置通过背景校准环路维持,确保精确的90度相移。
4 I* o J* O4 h' k4 R, p t
kbt3goszep364026550752.png
. J7 n) T" A. A" D" @
图2说明了数字PLL架构,包括20-28GHz LC VCO、优化阈值TDC和用于正交时钟生成的IQ生成电路。 b: ^. s5 F1 F! ]# ~9 d) x5 T
. V8 \ T& u# k1 n$ |/ f \9 N4 \3. F$ L1 C8 u* ?) N: s& M% |
接收器架构
) s' t. p2 A& i( {1 P2 v7 M: J2 [接收器(RX)设计同样精密,首先是一个输入网络,包括紧凑的T线圈和一个与200V CDM兼容ESD二极管调谐的并联峰值电感。RX终端电阻通常为50Ω,但可编程下调至20Ω以适应大幅度的输入信号。9 t( F; R# |8 G* d @3 q+ e- E
; ]1 Y6 l9 }; u s3 V/ B
具有小输入负载的源跟随器缓冲器作为RX前端的第一级,最小化信号反射。缓冲器的输出信号通过连续时间线性均衡器(CTLE),均衡后的信号分配到四个跟踪保持(T/H)缓冲器。每个T/H缓冲器由四个T/H开关以28GS/s的速率采样,每个交错路径随后由翻转源跟随器(FSF)缓冲。
" E, W$ K+ `- n8 f2 U% x& _
8 X% L) ^& }% ?9 Z% U- ]0 j! X每个FSF缓冲器驱动八个7位875MS/s逐次逼近寄存器(SAR)模数转换器(ADC),导致每个RX通道总共有128个ADC单元。为管理ADC输出接口的复杂性,采用2-to-1串行器将数据从128×875MS/s上转换为64×1.75GS/s。) ~' C g% w) T$ e* x. q* n/ b9 R
7 N4 F( A/ Q" D8 T: q$ x1 b+ L
RX DSP均衡器路径具有32抽头FFE用于码间干扰(ISI)和近端反射,32抽头浮动决策反馈均衡器(DFE)用于远端反射,以及1抽头DFE或最大似然序列检测(MLSD)用于最终数据决策。8 W, D, I' ], Y" E( B
alzmn2zjdrs64026550852.png
9 b; E/ \/ E+ \; z( o- Q* V图3展示了接收器模块图,显示带有CTLE的模拟前端、T/H缓冲器、SAR ADC以及具有复杂均衡技术的数字后端。' ~/ [8 e# V0 j) J
2 d- J$ e1 ^2 ?* O$ }( L
4. q+ M- }# s) C) G1 h( K* L
跟踪保持架构
+ L" g7 {7 e- x$ z2 m% S. _接收器的跟踪保持(T/H)系统采用创新架构以优化性能。第一级T/H系统由带串联峰值的源跟随器组成,驱动四个由CK7G控制的P型T/H开关。每对开关配备数据馈通消除电容和时钟馈通消除电容,以及基于FSF的ADC缓冲器。. P+ S1 D. X+ P& T4 {9 P
+ D% i0 X- d A: r$ f
基于FSF的ADC缓冲器负载较重,包含八个SAR ADC,将其输出带宽限制在20GHz以下。当T/H开关启用时,ADC缓冲器输出无法跟踪超过20GHz的高频输入信号。在保持状态下禁用时,缓冲器输出稳定在存储的输入电压电平(VTHP/VTHN)。
( t: l w" \8 j0 a; l1 D/ m$ n* F1 V. f0 Y" S, r
该设计的独特之处在于保持状态下的输出摆幅通过耦合电容CC反馈到VTHP/VTHN,创建一个环路增益小于1的正反馈环路。这种正反馈使净T/H响应在20GHz以上产生峰值增益,增强高频性能。- H1 [+ r3 Y7 t' y
. ?0 Q, z5 B; Q2 h( RCC的大小必须仔细平衡 – 如果过大,可能导致先前采样信号的不完全重置,产生记忆效应,在缓冲器输出带宽在较慢角落受限时更为明显。如果主抽头和第16后置游标极性相反,这将导致7GHz整数倍处出现周期性交流增益下降。
: l9 z9 I2 T( g& O/ M1 \" r
glurqx40erw64026550952.png
9 o& ]0 H' K( R/ G3 Q; p* b5 w' ^2 Y
图4显示了通过耦合电容CC的正反馈T/H架构,以及模拟时域和频域响应,展示了大CC值的记忆效应。, r1 E2 I* B$ A$ P" C& ]6 Y Q4 Y
% d. ^- |# {8 @+ X/ m6 V
5
& Y5 H3 V3 x5 G7 V! N W性能结果
y& D9 @8 ?5 S6 m. e" x P3 f0 K8 l该收发器采用4nm FinFET工艺制造,凸点设计兼容FCBGA和CoWoS封装。测量结果验证了该设计的卓越性能。
" ^1 `% l# `6 ]- f- i
" @9 N) f: o9 p212.5Gb/s QPRBS13 TX眼图在9dB损耗信道后展示了出色的信号质量,相对电平裕度(RLM)和信噪比失真比(SNDR)分别为98.5和35.5dB。当TX 4-to-1 MUX FFE停用时,SNDR恶化至30dB以下,突显了这种均衡技术的重要性。
5 e: [6 z2 Z8 J9 _6 t f; T L* J- \4 C
在最大峰值设置下,去嵌入信道损耗后测得的RX模拟前端频率响应在56GHz处显示约14dB增益。测得的RX SNDR在低频(1GHz)为35dB,而在高频则受RX时钟路径中随机抖动的限制。6 \" C: j5 y+ s6 I
wj40jsw0juy64026551052.png
& p/ |+ y. V. ]7 `1 V* F' ]图5展示了测量结果,包括TX眼图、RX模拟前端频率响应、单音测试结果和抖动容限测量。
/ n8 R( N0 S: I) ^ U% i
& B, I9 G. p) Q% ~7 E60 F- t8 L- q* X" Y3 a$ g& k
性能比较和结论4 A7 G j& c2 C; l$ F# r
在各种迹线长度的单通道测试中,在40dB和50.5dB插入损耗上分别显示BER
! A+ {. R& S, F7 l& `; N9 P5 o# Z% ]6 h, R" x( C3 U5 q
这种紧凑设计实现了非常高密度的前端集成,适合最先进的AI芯片,在超过200Gb/s的可比收发器中代表了最小的前端宽度。图7.1.6中的比较表将本研究与其他最先进的收发器进行了对比,突出其在数据率、功耗效率和面积效率方面的优越性能。
+ a/ ^( ~, z% B6 h! G! H
wc1vr2bjc5z64026551152.png
5 X) i$ D4 ^: l5 O5 _' \: j: x2 \图6说明了BER性能与信道损耗的关系,并提供了与其他超过200Gb/s的先进收发器的比较表。! j# u2 j# r) y0 e& B4 x
qcu4zfoyhlu64026551252.png
: j. r' B- V7 e; X9 a
图7显示了采用4nm FinFET工艺制造的212.5Gb/s基于DSP的PAM-4收发器的芯片照片。
8 x9 n4 v9 d- G! J4 V4 v
! c/ M/ I! A+ G* q4 A所介绍的212.5Gb/s基于DSP的PAM-4收发器代表了AI系统高速互连技术的重大进步。其能够在极高损耗(>50dB)的信道上实现可靠通信,同时保持紧凑尺寸和合理功耗,证明了在模拟和数字领域采用的创新技术的有效性。该收发器作为下一代大规模AI系统的关键组件,高带宽、高密度芯片间通信是这些系统的基本需求。8 f- u" C5 e4 R& k* S& {
" n- K: n4 o0 `* ?* b
参考文献
% ?5 \. J. M: C# m[1] J. Q. Wang et al., “A 2.69pJ/b 212Gb/s DSP-Based PAM-4 Transceiver for Optical Direct-Detect Application in 5nm FinFET,” ISSCC, pp. 123-125, Feb. 2024.
7 G0 D" @: r- S- V4 F& o
! ~! g4 |% T" Z4 ^7 J[2] D. Pfaff et al., “A 224Gb/s 3pJ/b 40dB Insertion Loss Transceiver in 3nm FinFET CMOS,” ISSCC, pp. 128-130, Feb. 2024.% Z! Y+ v6 `* V: h
) G8 h1 k( j2 v" k[3] J. Kim et al., “A 224Gb/s DAC-Based PAM-4 Transmitter with 8-Tap FFE in 10nm CMOS,” ISSCC, pp. 126-128, Feb. 2021.
* l* Q9 W; i3 @3 B
# A. G7 w+ o6 E! x* ?* m[5] H. Park et al., “A 4.63pJ/b 112Gb/s DSP-Based PAM-4 Transceiver for a Large-Scale Switch in 5nm FinFET,” ISSCC, pp. 5-7, Feb. 2023.
( X0 O2 b3 j# S# H* `
! P) K, o1 Y9 U* f[6] B. Yang et al., “A high-PSR LDO using a feedforward supply-noise cancellation technique,” IEEE CICC, pp. 1-4, May 2011.
, N% k/ W9 k9 OM. Cusmai et al., “A 224Gb/s sub pJ/b PAM-4 and PAM-6 DAC-Based Transmitter in 3nm FinFET,” ISSCC, pp. 126-128, Feb. 2024. [7] Y. Segal et al., “A 1.41pJ/b 224Gb/s PAM-4 SerDes Receiver with 31dB Loss Compensation,” ISSCC, pp. 114-116, Feb. 2022.7 Q* N1 B; t( ^* X* u2 r R
END
5 d2 V1 l- G8 X/ A4 L9 f g/ Q7 g& D& m: ?
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。' }) }; ]9 c' F5 _; f
点击左下角"阅读原文"马上申请
5 X6 T0 R2 m1 N$ K. Q' p4 r
" m+ O3 I, Q; z! ~7 N6 j. X欢迎转载
, p s) F" T9 W; y; g8 L+ Z [3 k' R$ q
转载请注明出处,请勿修改内容和删除作者信息!0 ^3 c3 K! X8 H9 U5 X7 |; E
4 K0 u, c5 p5 j2 p% e9 E8 S8 w3 g+ l
5 ]& S4 J% F) u+ l$ F3 J7 t: {% I% ~, F
elfh0xkrh0n64026551352.gif
A% n* t5 w0 L6 i/ }7 O
* d( }! r2 r8 ]% Z关注我们
- |: v) N& W3 Q' k2 b- f3 J- R( v4 l3 v p$ F8 B' T
4 I2 o: w' I) v. Z. L. ?* @
p4wwsa5innl64026551452.png
( G$ x* Z' V- f& O0 E
| 2 `# J7 b! l7 v8 [3 k' {
u2wnm0drnu364026551552.png
& p" u# F( a& t6 ~$ n |
$ a" I' d* F* [
kthqfn4n53o64026551652.png
9 ~4 n( i k$ g A: x4 G0 V |
' ~% J2 P& F* j7 s0 c7 C+ o! R D! ~+ ?) X3 m! z5 ^: f7 D
/ }+ g* I8 ^1 w8 u; `# D6 b' i7 c4 v8 b, _9 [
关于我们:( \5 d. u, y0 ?3 d: X0 I P
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
# k0 o) e& z1 B, I
$ h) g9 ~" F2 h9 e5 A0 b nhttp://www.latitudeda.com/
- G4 A9 l, H" P1 i- r(点击上方名片关注我们,发现更多精彩内容) |
|