电子产业一站式赋能平台

PCB联盟网

搜索
查看: 231|回复: 0
收起左侧

ISSCC2025 | 高带宽高效低功耗芯片间互连技术

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2025-3-7 08:00:00 | 显示全部楼层 |阅读模式
引言6 J# N3 q6 T( L
半导体行业正经历数据处理需求的快速增长,需要创新的芯片设计和集成方法。芯片间(Die-to-Die,D2D)互连技术已成为解决这些挑战的关键解决方案,通过将传统的片上系统(SoC)设计分解为更灵活、更高效的封装内系统(SiP)实现。本文探讨高带宽、高能效芯片间互连技术的关键方面,重点关注通用Chiplet互连标准(Universal Chiplet Interconnect Express,UCIe)技术。2 B. d" q8 T" w. k. C
2 ]1 Y" k% H0 M  Z9 c
1
& D  r# r7 x# x指数增长时代% A* ^5 v* w; E  u' I* i
我们正处于数据处理需求真正的"指数增长时代"。行业趋势显示各种标准的数据传输速率显著增加。如图1所示,自2000年以来,PCIe、SATA、DDR、GDDR等协议的每通道传输速率呈指数级增长。最引人注目的是,CEI等标准在2024年达到的速率接近每通道256 Gb/s。
! ^0 g' }+ j$ `; b0 E# B/ d9 t

pc3fw2mpay26401776651.png

pc3fw2mpay26401776651.png
: n1 f: I( _8 P# t1 d( V; C/ z
图1:展示2000年至2024年不同标准每通道增长率的图表,CEI达到接近256 Gb/s的最高速度! L1 S; A% H6 W  P
0 O$ l% l+ Y% o- l
这种增长与全球数据量的爆炸性增长直接相关,预计到2025年将达到惊人的181泽字节(10^21字节)。这比2010年的仅2泽字节增长了近百倍,展示了推动更快、更高效互连技术需求的持续数据增长速度。
) ]: S# n, \7 d9 o4 k# a" E2 n; l* {, W
2
4 Q0 ?, {, m4 w5 d. q从SoC分解到SiP# c1 t% @$ F7 t" N1 F
先进计算中最重要的架构转变之一是从单片片上系统(SoC)设计向分解式封装内系统(SiP)实现的转变。这种方法提供了许多优势,包括改善良率、优化工艺和增强可扩展性。7 K* U3 W. F# U  [# w, U# ^, ]

1ah2xi0kjzu6401776751.png

1ah2xi0kjzu6401776751.png
7 T" U' A2 V) o6 k3 h% G* ^, Y
图2:展示从SoC到通过D2D链路连接的多个Chiplet的分解式SiP设计演变的图表: m/ j/ K' I0 E' o' K/ |

1 W7 U2 X1 g; f- ?: l如图2所示,传统SoC设计将CPU、GPU、内存、加速器和SerDes I/O组件集成在使用相同工艺节点(如7nm)的单个芯片上。分解方法将这些组件分离,允许每个组件使用最合适的工艺技术制造:CPU使用3nm,GPU使用2nm,内存使用7nm,加速器使用4nm,SerDes I/O使用5nm。这些独立芯片然后通过高速、低延迟的UCIe链路在单个封装内连接。
" Q- R- S0 l/ T1 Y
$ b; o/ s; a( l: J! w这种异构集成策略通过为每个组件使用最合适的工艺节点来优化成本、性能和能效,同时保持紧密连接组件的带宽和延迟优势。
1 t1 O- S) }2 Z- |  f
# @5 U( O0 A% o% N, E: l% ]3; u: ?6 u. u2 Q, v3 l
D2D标准化! ~9 t  [  ~6 t2 F2 r2 s. r
芯片间互连领域从专有解决方案演变为标准化方法,UCIe成为领先标准。如图3所示,行业最初依赖Cadence的Ultralink、Nvidia的NVLink和Blue Cheetah的Blue Lynx等专有技术。$ R# w6 }/ D+ b7 j! L# H$ f. k

ey4hqm4vnkm6401776851.png

ey4hqm4vnkm6401776851.png
+ p  b/ G1 e: F9 J
图3:行业专有解决方案和新兴标准(包括UCIe)列表
2 R4 a5 M; B- d
; r, F  X/ M9 _  X然而,互操作性和生态系统发展的需求推动了AIB、BoW、OpenHBI等标准的出现,其中UCIe最为突出。通用Chiplet互连标准(UCIe)代表了行业协作努力,建立芯片间连接的通用规范,促进基于Chiplet设计的广泛采用。# J1 i- [7 m3 n; i& Y; b" C( s6 c

: j- v- ^! R8 q8 O9 _" z4
+ E6 h2 F5 m  x8 i  ?UCIe性能目标和架构! q4 }% O0 N2 O7 E4 w
UCIe定义了两种具有不同性能目标的封装:高级封装(Advanced Package,AP)和标准封装(Standard Package,SP)。图4概述了关键性能规范,强调了这些方法之间的显著差异。
! u0 [7 ?4 q) E0 }2 J! F7 t5 }" s

gjkbscqstrc6401776951.png

gjkbscqstrc6401776951.png
8 S9 A) G! F/ J; E
图4:比较AP和SP UCIe目标的表格,包括数据速率、通道数量、延迟、能效、带宽密度等规范
0 w  _! L( s3 ~' J* w
% Q5 u% d9 X, o  Q9 h高级封装(AP)设计目标是极高带宽密度(5.267 Tbps/mm),具有64个数据通道和超低功耗(16Gbps时≤0.3pJ/bit)。这些实现使用小间距凸点(25-55μm)且无终端匹配。相比之下,标准封装(SP)设计提供更适中的带宽密度(0.45 Tbps/mm),16个数据通道和略高功耗(≤0.5pJ/bit)。SP实现使用更大间距凸点(100-130μm),可以选择有终端匹配或无终端匹配。
3 A2 y! m2 d3 @5 d9 e% ]- m# m
AP和SP解决方案都支持每通道4至32 Gbps的数据速率,并保持极低延迟(≤2ns),这对于分解设计中维持性能至关重要。两者还在不需要前向错误纠正(FEC)或循环冗余校验(CRC)的情况下实现了令人印象深刻的位错误率(BER)。7 B, w& X, G, ?: }7 F+ r
8 S' R/ f5 u# C3 s. {
5* Y6 _5 ]" ?2 |- y* j  n
UCIe架构要点和挑战
- S0 K5 N8 L. A8 SUCIe标准做出了特定的架构选择,平衡性能、能效和实现复杂性。图5详细说明了这些架构决策及其优势和挑战。6 \" \" y* M+ e

gomndqugan06401777051.png

gomndqugan06401777051.png
7 Q- f$ b$ H" d- f$ A
图5:展示UCIe架构规范及其在信号传输、发送/接收接口、时钟、采样率等参数方面的挑战和优势的表格6 a3 A: E& z1 \/ U( d# ]

; H( V( {7 C0 yUCIe采用NRZ(非归零)信号传输,提供更大信号电平,但面临更高奈奎斯特频率要求和通道损耗挑战。采用单端发送输出和接收输入,实现更高通道密度,但增加了对电源噪声的敏感性。时钟前向传输消除了复杂时钟恢复线路的需求,但需要专用时钟通道。
" u! o  Z$ p, M
! y- s7 H8 u' f对于高速操作(24和32 Gbps),UCIe支持四分频和二分频采样方法。虽然这需要多个采样器和时钟相位,但允许时钟以较低速度运行。该架构还实现全双工通信以最大化带宽密度,并使用没有时钟数据恢复(CDR)的全局相位插值来减少功耗和面积需求。
. O% [2 J& G6 C$ {) ]
. N1 m5 c0 b' b6
6 D' ?. `9 F# \* V链路性能挑战和亮点. Y. d% s; o  u" y# d9 c2 s
实现UCIe链路面临几个关键挑战,必须解决这些挑战才能达到所需性能目标。如图6所详述,这些挑战涵盖带宽密度、延迟、位错误率、能效和物理约束。# N! Z+ t" M  Y

nj0vrcje2rb6401777151.png

nj0vrcje2rb6401777151.png

7 U% y+ E- s& t2 ?" E$ ]. j4 K0 q图6:UCIe链路性能挑战和亮点概述,包括带宽密度、延迟、BER、功耗和物理约束6 H- `1 I) A1 B$ f$ o0 _
6 W5 S3 ^. A0 W/ O9 O0 f0 q
高带宽密度带来显著的串扰和电源噪声挑战。严格的低延迟要求(≤2ns)阻止使用深FIFO和复杂数字信号处理技术,这些技术常用于更长距离标准。实现规定的低位错误率需要优秀的噪声消除和最小化确定性和随机抖动。
  |$ ]3 u  R  Y# e; _9 Q+ f9 a% i, u& j& }: z: `3 e3 l9 S7 H
能效目标迫使设计者接受"简单即复杂"的原则—避免使用耗电线路技术,同时仍满足性能要求。减少物理距离(AP≤2mm,SP≤25mm)通过限制通道损耗提供帮助,而高速I/O不离开封装的较低ESD要求允许在发送器和接收器使用更小的ESD保护器件。* u# F6 ?; j6 E
$ Q$ o/ l/ \0 g8 a9 K$ z: ?) A
7
7 f$ |7 H. b4 I* SUCIe的封装设计& u5 P! {/ P8 F" T  _4 _# @
成功实现UCIe需要精心封装设计,以满足信号完整性(SI)和电源完整性(PI)规范。图7概述了UCIe规范定义的关键封装要求。8 `$ |( r; w6 v

4nsjfluew046401777252.png

4nsjfluew046401777252.png

9 T# c& @% {9 z; [; Y  P图7:UCIe实现的封装设计指南和要求,包括SI和PI规范
1 l8 \6 P$ q; {8 {, V" B: n/ g1 m) O" M8 `
信号完整性规范包括通道特性阻抗、电压传递函数(VTF)通道损耗、VTF串扰、通道间偏差,以及接收器输入处的水平和垂直眼图开口要求。电源完整性规范涉及自感应电源噪声和封装IR压降。
- g0 h) S+ J" r! X$ _& E' Q: _( C" G' ^. b+ I7 n, D
设计过程通常涉及使用从封装设计提取的s参数模型进行迭代仿真和优化。图8和9说明了高级封装实现的信号完整性和电源完整性设计流程,强调了满足UCIe规范的迭代优化过程。
$ {# W. E( Z5 V* I

lx21axrnacv6401777352.png

lx21axrnacv6401777352.png

+ _3 x( m5 J3 h) _! U- X; a图8:AP的SI流程图,显示中间层设计/布线、S参数提取和验证UCIe规范的过程0 h& S8 T& y) d& z+ h4 [8 r

qwtmor10dlx6401777452.png

qwtmor10dlx6401777452.png
8 Y. W3 ]' G: `. X, S/ s0 O
图9:AP的PI流程图,显示中间层PI和组合中间层与封装PI分析的两步过程
+ A' h, ^4 k7 I- H) `6 [$ a8 I4 e( q
: [9 y2 L- _4 K* Z: m6 ^8# ?4 _' F5 w; n3 K
通道性能分析. t7 Y; N8 X( y4 H1 U# d
通道性能分析对确保实现满足UCIe规范至关重要。图10和11显示了AP和SP实现在各种通道长度上的VTF损耗和VTF串扰测量结果。
2 d+ R+ E$ G" `9 d

2f1lne21f506401777552.png

2f1lne21f506401777552.png

7 u2 T% C' Z5 h* X6 J* r图10:比较AP和SP实现VTF损耗与UCIe规范的图表
  z! C! i- v2 Y2 i; C

b2v2a2f3r1x6401777652.png

b2v2a2f3r1x6401777652.png
* p4 U2 ~# j4 q3 d' g# A
图11:比较AP和SP实现VTF串扰与UCIe规范的图表
! n2 X$ H# W. ?  B
2 D2 @9 H% A7 e5 a/ b& S对于AP实现,16Gbps时测量的VTF损耗为Cadence CoWoS-S通道的-3.90dB,与UCIe参考通道值-2.57dB相比。16Gbps时测量的VTF串扰为-23.95dB,满足小于-23dB的规范。$ O& F& |+ u6 n
6 x& o* j2 ?' @5 M' E& L  c" X0 A
对于SP实现,16Gbps时测量的VTF损耗从5mm通道的-5.39dB到15mm通道的-5.73dB,以及25mm通道的-5.63dB,均满足大于-6.5dB的规范。16Gbps时测量的VTF串扰范围从-32.01dB到-33.37dB,轻松满足终端匹配实现小于-25dB的规范。
- d6 i1 K, C5 g3 V0 w/ O0 K9 W4 P$ ^. B# g7 f
9# }/ ~1 {( q" R) c$ g; R
Cadence UCIe收发器架构+ B2 M; f9 s5 q2 i4 W
Cadence UCIe收发器实现提供了满足所有UCIe规范并实现卓越能效的完整解决方案。图12说明了Cadence UCIe SP实现的顶层架构。
& b. L* F$ S! o" q* z, O( H0 q5 H

azjtsqm434j6401777752.png

azjtsqm434j6401777752.png

! g# O2 F: O$ f- H图12:Cadence UCIe SP收发器框图,显示TX、RX和数字组件
8 q3 m3 y! U4 W8 L
1 h. C+ m" |4 C& R' h该设计特点是单端、半速率、NRZ收发器PHY,带时钟前向传输。采用延迟匹配架构,支持终端匹配和无终端匹配操作。收发器集成PLL、带隙和偏置电路,创建自包含解决方案。相位定位通过相位插值和偏移调整实现,训练和校准通过链路训练状态机(LTSM)由PHY数字逻辑处理。
2 n: @/ [% W' `
' S0 C/ M, M$ |$ p7 \图13显示UCIe SP设计的顶层实现和凸点图,突出显示130μm凸点间距以及TX、RX、电源/地、数字和侧带接口的组织。
% g0 ?$ T: Q" b' M

dcnbhis0d2k6401777852.png

dcnbhis0d2k6401777852.png
3 L, s' e. T! F
图13:Cadence UCIe SP实现的顶层图和凸点图,显示TX、RX、PG和数字组件的排列
; `8 B1 g; Q% H, R9 \* W- c$ Y: H
9 R8 _& B4 A7 A6 d* ?8 V10
; }6 \6 z) l8 K( \, j5 A& W" L! S发送器和接收器设计
2 m: s. u1 X" c8 L/ w) M/ {发送器(TX)和接收器(RX)设计对满足UCIe性能目标至关重要。图14显示TX通道实现,具有8:2串行化、占空比失真(DCD)检测和校正,以及去偏移能力。) e" U6 D9 O* Q* x5 L5 \* w) w

3inncgcz1yl6401777952.png

3inncgcz1yl6401777952.png
) w& l3 I- s# P; F9 K! U
图14:UCIe SP TX通道框图,显示串行化、DCD校正和输出级
$ f6 @. b8 i3 l* |4 F. i4 D1 l7 r9 v, L1 Q. p% d* r5 v/ Q6 N
发送器输出驱动器支持使用P/N操作的高摆幅模式和使用(P+N)/N操作的低摆幅模式,为不同通道特性优化信号幅度和功耗。
5 K4 e, j, R2 p; [' J! S( M4 l( w& ~# `
图15说明接收器(RX)架构,实现半速率设计,具有延迟匹配、单通道去偏移、单相CMOS时钟分配和全局DCD校正。
2 ?; S$ G: G3 N# ]( l

ytfnewpfghz6401778052.png

ytfnewpfghz6401778052.png
% N" e1 l7 X2 u
图15:UCIe SP RX框图,显示模拟前端、去偏移、采样器和解串器级
! c; U6 f( g% f, i
- U( p, P1 `7 X& c0 E* G& |; I# z图16详细描述的接收器模拟前端(AFE)使用乒乓架构,通过两组采样器实现时间交错操作的功耗节省,同时保持所需灵敏度和带宽。8 t' }7 S4 A4 T: ~4 n# @

rw1lheobqhw6401778152.png

rw1lheobqhw6401778152.png
6 u) r" z# H+ f2 Z4 s' U9 `
图16:接收器模拟前端详细电路图及其显示乒乓操作的时序图7 \( x1 H5 B1 m  O
8 B0 z9 _. j/ T+ j
11
1 E" [5 K6 z* S测量结果
; \- C$ V; Y1 C1 g硅片测量展示了Cadence UCIe实现的卓越性能。在不同数据速率和通道长度下捕获了所有通道的眼图。图17-18显示16个通道在5mm、15mm和25mm通道上以16Gbps运行的眼图。7 _9 `5 ?8 ~, z+ y7 _* a7 H. m

nl3zjabxfu56401778252.png

nl3zjabxfu56401778252.png

, N/ E, V0 H  I4 @/ e1 w图17:16个通道在25mm通道上以16Gbps运行的眼图,显示优秀眼图开口6 }5 M; a3 X7 I5 [/ g% ~4 J

rcsrq2srxai6401778353.png

rcsrq2srxai6401778353.png

2 U" @: W% \3 Q# H2 N图18:16个通道在15mm和5mm通道上以16Gbps运行的眼图9 a, c. o# l0 q: x- C, P+ v! g9 X
/ B  \+ B# l0 T# q8 F1 X0 Q+ K
图19所示的位错误率(BER)测量确认实现满足BER 4 E/ _- j/ Q- ?, c- j" f

k5dvfpkkssv6401778453.png

k5dvfpkkssv6401778453.png

5 w% v3 F! U5 u" M1 K图19:显示16Gbps时水平和垂直裕度超过UCIe规范的BER图
0 z: |4 J( B9 _/ y$ K; {* X0 r3 \! T7 N% o- ~7 e. [
该设计通过运行时重校准展示了优秀的VT漂移补偿,如图20所示。在电压变化(±5%)和温度变化(-40°C至125°C)下的测量表明,维护模式在极端条件下有效保持眼图宽度。; B" l8 Y* O* W* i2 n1 l: K+ C. h

1ved333it0q6401778553.png

1ved333it0q6401778553.png

5 F& Z% R% U3 v图20:在电压变化(±5%)和温度变化(-40°C至125°C)下的测量。6 `0 |% v4 r# D0 Y; n, B/ ]

) [4 l2 _) E) t* Z, o图21:显示Cadence实现与其他已发表D2D链路比较的性能表3 e; B+ N7 m7 e+ x; J) F' I
! T" u8 U; q& E1 w
与其他已发表设计相比,性能表现优秀,实现0.29 pJ/bit的能效和5.27 Tbps/mm的带宽密度。计算为[Tbps/mm]/[pJ/bit]的性能指标(FoM)为18.17,是文献中报道的最佳性能之一。
4 I: L1 D: j1 }0 i4 P# T3 l9 Y( D. a4 L/ `
122 B# w* J8 T  W
未来方向:32G和64G UCIe* d: ^; ], a& T9 x: ^
展望未来,UCIe正在发展以支持更高数据速率。图22说明32Gbps UCIe架构,在发送器和接收器路径中添加均衡,以补偿高频下增加的通道损耗。4 x! |0 a2 z* l, q1 |
8 d* U( C) {4 e2 O9 {. \
图22:32Gbps UCIe框图,显示TX和RX路径中添加的均衡阶段
" o3 z4 S& L, h8 {! D& q1 [5 g0 ~: V0 Y
对于32Gbps及以上数据速率,UCIe面临图23概述的几个挑战,包括更高通道损耗、更严格时序裕度、更复杂时钟要求以及需要更复杂均衡技术。" @8 h6 Q. W( ]8 C8 c$ _" {- S  P
6 R7 Z: R, W' ^
图23:32Gbps UCIe操作在信号传输、通道、时钟和均衡领域面临的挑战表: O9 _; L% a9 e
4 A5 N$ y! k. ?
13" E% v( R3 n: S6 P
结论) G# B; S8 m! [5 t0 c
使用UCIe标准的芯片间链路代表Chiplet集成技术的重大进步。Cadence UCIe实现证明带宽密度、能效和位错误率的性能目标可在硅片上实现。
2 [+ Z  @& B$ _4 Y0 g2 r+ b# h
. a. W( ^( C6 z0 H# ^4 L如图24所总结,UCIe性能挑战已通过精心封装设计、优化收发器架构和全面验证得到解决。展望未来,向32Gbps乃至64Gbps的演进将需要均衡、信号传输和线路设计方面的额外创新。( ]9 Z3 D# e$ d

9 ~4 O& Y6 b% S0 C0 \图24:结论突出UCIe实现的关键成就和未来挑战
9 Z+ C0 q7 b% d9 o; R( R
# N* u" L$ D% ?. c0 }4 c7 t$ P"最简为最佳"原则对成功UCIe实现特别有价值,因为不必要复杂的解决方案常导致功耗、面积和可靠性问题。通过保持这种优雅简洁性的关注,同时解决不断增加的性能要求,UCIe将继续支持Chiplet革命,为下一代计算架构提供基础。/ ?5 j1 \" a8 |3 R# u) @3 x
+ q- P4 N; P% F+ `/ h) I6 E% y7 Z
参考文献6 `2 T+ O6 Z5 Y/ i6 {& M
[1] K. Geary, "High Bandwidth Efficient Low Power Die-to-Die Links," in International Solid-State Circuits Conference (ISSCC), 2025, pp. 1-52.
) e( q# G7 a4 C0 ]. y4 `( _: `END
- D4 ~' {1 L0 W( R3 Q+ W9 \+ _2 M9 D
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。- k/ a' b2 y% S) w1 ^
点击左下角"阅读原文"马上申请4 r1 R- g2 {, h4 P! b/ b
% v5 @2 u# e  O2 A3 W& e/ e
欢迎转载6 u' N1 Y/ L7 B* c

# c: u8 H0 m) u; p5 L转载请注明出处,请勿修改内容和删除作者信息!
+ W9 g; f  a1 ]" m; h& @% K
4 G# N& ^. U7 E& \/ M6 c& J+ d- N* V; v# \2 E9 D/ Z
# T  F* z. K4 h
1 A: N  |  a) [8 o- ]( V$ J* a

$ D+ x; O5 B& D" d- V" U7 R0 R/ w关注我们
/ J; x) O1 C& b3 _4 r0 y# @0 t3 X7 @& u

9 I: c$ l/ n! f+ A: n& e  v$ M4 h' R6 U+ u' {4 K/ Z# Z& U% i8 l, c

! q5 J6 C- P) t4 m9 x- X3 [  v. p7 a- ~% D
+ L: e3 D( y7 `6 z3 C6 d. [
' m& v8 E' O7 \) ~3 |
                      ; e+ W5 z/ p1 P; g( F. }! [" Y, `  y

; g: l' W3 ]- H' @
  _5 v3 T, F# E5 u. z, K" V, L8 c

7 ?" C& _  U4 k" n5 r* R关于我们:
& D3 j# W8 _$ A5 q7 J* |深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。  _0 W% p: f. G  a2 y

& t% |9 n: j2 K; l9 m  q. rhttp://www.latitudeda.com/
$ c8 E7 l5 b. x( Z7 W0 K(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表