电子产业一站式赋能平台

PCB联盟网

搜索
查看: 354|回复: 0
收起左侧

人工智能时代的互连技术如何演进以应对指数级增长的挑战

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-10-11 08:00:00 | 显示全部楼层 |阅读模式
引言, ], N  Q  H; ~, F8 |6 G
人工智能(AI)正以惊人的速度革新科技领域。随着AI模型规模和复杂度的增长,对计算基础设施提出了极高的要求。本文探讨互连技术如何演进以应对这些挑战,确保AI系统的基础架构能够跟上创新的步伐[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!
1 E7 h2 A6 q6 z0 ]% B, o) A) z- h) ]( `* U$ x: I0 u# M5 `' ^
AI模型的指数级增长  k* p+ {3 r0 \  o# ^5 f
要理解互连技术面临的挑战规模,首先需要了解AI模型的爆炸性增长。$ s; F* S0 V1 P

vyp1tfrps3i64077134228.png

vyp1tfrps3i64077134228.png

2 h- A$ ^" Y" z8 U图1:AI模型参数数量随时间的指数级增长,显示每年大约增长10倍。
: J  u  Y  R3 m' _  s
# m& K2 `/ f) s: _; l如图1所示,AI模型的规模(以参数数量衡量)每年增长约10倍。这一增长速度远远超过了硅技术性能的提升,后者通常遵循摩尔定律每两年翻一番。结果导致对计算能力的需求不断增加,因此需要更高效的互连技术来连接这些庞大的系统。2 B( O" J7 l' @- {8 m

* `9 d1 H$ q" c硅技术的进步
/ E6 X3 [, R" M为了应对这一挑战,芯片制造商正在推动硅技术的极限。台积电(TSMC)作为领先的半导体代工厂,在这一领域处于前沿:- l; S+ j9 _! V7 n! a+ E

he2wgdix0bs64077134328.png

he2wgdix0bs64077134328.png
) x* C/ F/ |# B7 k+ O
图2:台积电从5纳米到2纳米工艺节点的改进,突出了在功耗效率、性能和芯片密度方面的提升。
6 H" C) x2 O; n/ z4 o
( E( r# X! l  h: x从5纳米到2纳米工艺的过渡中,我们看到几个关键指标有显著改善:
  • 功耗效率:在相同速度下,从5纳米到2纳米,功耗降低了50%。
  • 性能:在相同功耗下,从5纳米到2纳米,性能提升了33%。
  • 芯片密度:从5纳米到2纳米,晶体管密度提高了50%。
    8 s+ [. A2 N4 [' o+ I[/ol]! w* W/ x- z/ e
    这些进步对满足AI系统的计算需求非常重要,使得生产更强大、更高效的芯片成为可能。然而,仅靠硅技术的改进还不足以跟上AI的需求。
    : J3 n8 _) ]; K5 `8 {) m, a) E5 \) A, A. f3 ]
    先进封装技术4 Z( e. X) A* V% }1 A5 {, v- I
    为了充分利用这些硅技术进步,业界正转向先进的封装技术。台积电的CoWoS(晶圆上芯片上基板)技术就是一个典型例子:
    $ {' K! C* L( y- T3 o# o

    m1thw5ndpcl64077134429.png

    m1thw5ndpcl64077134429.png

    6 N! g! |; H& }* r5 h图3:台积电的CoWoS(晶圆上芯片上基板)2.5D/3D封装技术,说明了如何将多个芯片和HBM内存集成到单个封装中。' F' J. |  z% S7 e7 ~

    0 L+ W* x! V' fCoWoS技术允许将多个芯片和高带宽内存(HBM)集成到单个封装中。这种方法可以实现组件之间更高的带宽,并且与传统封装方法相比,可以有效地将可用硅面积翻倍。
    7 G* g! P% b  P, D* \- @+ {. O9 M. \/ I( }
    高速互连:AI性能的关键
    0 s8 K% G" P4 w  ~% v2 ~4 w为了最大化AI性能,高速互连技术必不可少。封装内和封装外接口都在快速发展以满足这些需求:
  • 封装内芯片间接口:速度达到32-64 Gbps NRZ,能量效率低于0.5 pJ/Bit。提供5到10 Terabits/mm的边缘密度,允许同一封装内芯片之间实现极高带宽的连接。
  • 封装外高速SERDES:当前技术支持224G-PAM4,448G-PAM4正在研发中。这些接口实现了低于3 pJ/Bit的能量效率,提供1到2 Terabits/mm的边缘密度,可在不同封装或板之间实现高速连接。
    8 X0 ~6 k8 m3 G0 d% Y( A) K[/ol]
    ' z' C3 K9 T& d3 @* v6 \2 \这些高速SERDES的功耗效率也随着每一代硅工艺技术的进步而提高:
    ( D* X- |( Q4 r; O

    03tlcbxmtp264077134529.png

    03tlcbxmtp264077134529.png
    " p* a+ @1 `2 v
    图4:高速SERDES功耗效率在不同工艺节点和数据速率下的演进。
    ! r2 e: O! [/ U1 y% ^6 h; p5 c. v5 Z
    从图4可以看出,高速SERDES的能量效率随着每个新工艺节点的出现而显著提高。例如,从5纳米到2纳米的过渡预计将使200G SERDES的每比特能耗减少近一半。
    * i( }1 r2 R- O& M1 R* M3 a
    ) `4 S% ^0 d6 J$ ^" `3 r带宽挑战
    ; I# G% j6 `' m) T随着AI模型持续增长,互连技术的带宽需求正在飙升。为了说明这一点,让我们看看使用200G SERDES在不同基板尺寸上可能实现的带宽:
    3 v8 ^# y. }# [+ O/ {- M  C  y

    wq1jzuwokag64077134629.png

    wq1jzuwokag64077134629.png

    : V! s! H. y3 t' D, h图5:使用200G SERDES在不同基板尺寸上可能实现的单向和双向带宽,从单个芯片到多芯片基板。2 u; T# ]1 U! z

    0 v, C7 ^$ C; F) V+ v. [9 o如图5所示,使用200G SERDES,一个25x25毫米的单个芯片可能支持高达100T/200T的单向/双向带宽。扩展到100x100毫米的多芯片基板,这可能增加到惊人的400T/800T带宽。5 D6 U9 @' f6 x5 H5 P1 h( Q; f0 e9 a/ h
    % U; _3 V1 l. P" z
    向更高速互连的快速过渡5 r9 u" Z$ ~8 a) i
    AI网络行业正在快速向更高速的互连技术过渡,以满足这些带宽需求:' h2 ?% M' C/ |

    mqjgckzx4m164077134729.png

    mqjgckzx4m164077134729.png
    * ^1 K0 y1 E. O4 g5 D" I
    图6:AI网络中高速互连的快速采用,2025年800G端口将占主导地位,2027年1600G端口将成为主流。% c% p+ v1 l* y3 ^7 _
    * }6 X* S( i7 a; w7 W& c3 ~
    如图6所示,AI网络行业正在快速向更高速的互连技术过渡。到2025年,800G(8x100G)端口预计将主导市场。这一趋势将继续,1600G(8x200G)端口将在2026年开始增长,并在2027年成为主导技术。+ o6 O5 Q3 d6 f9 O, b2 c0 S0 H3 _

    % Y8 _) D1 h5 X% k功耗挑战与线性光学技术  C5 z$ u# z9 {# n$ l
    随着我们追求更高带宽,功耗成为关键问题。对于大型AI集群,光学器件的功耗需求可能相当可观。为了说明这一点,让我们考虑一下大规模AI集群的功耗影响:
    , e" m7 H( {2 X" k0 K$ `: u

    mgdrmipyafe64077134829.png

    mgdrmipyafe64077134829.png
    + x$ ]9 V" \1 ~7 r
    图7:比较大型AI集群中不同光学技术的功耗,突显了LPO提供的显著功耗节省。
    ' V7 A: }- Q' D$ p% x6 [9 B" j0 c6 i9 J- w5 E! b
    如图7所示,在一个拥有648个1600G端口的机架中,选择不同的光学技术会对功耗产生显著影响:
    7 |2 F' ]" y7 t3 E% }
  • 铜互连(用于短距离)消耗最少的功率。
  • 线性可插拔光学模块(LPO)与铜相比,功耗增加5.4%。
  • 线性只接收(LRO)光学技术功耗增加10.8%。
  • 数字信号处理(DSP)光学技术功耗增加16.2%。+ ]! q4 w; r; X( O1 b& A

    - m7 @2 p* [& q! l$ ^9 J当扩展到100,000个XPU(AI加速器)的集群时,功耗影响变得更加显著。这样的集群可能需要640万个1600G光学接口。使用LPO可以比DSP光学技术节省128 MW的功率 - 光学功耗降低32%。# g7 ^, R: t  `1 c6 o  u

    " y. h1 w7 s' i2 \+ N% b这些数据突显了为什么线性光学技术,特别是LPO,正成为解决AI互连功耗挑战的重要解决方案。
    + `6 X7 o1 i5 ^3 ^( G5 x  T& H0 v$ ~. t9 @  K
    光学互连的演进- z$ w3 _' P1 Z" O1 @4 W
    向更高效的光学互连技术的演进已经持续多年。让我们简要回顾一下光学集成的一些历史尝试:
    ' S- n, M; l" L

    xykbqedq1fi64077134930.png

    xykbqedq1fi64077134930.png
    8 e3 s% Q' _; c: c& O" F
    图8:2010年左右的IBM Power 775系统,这是最早使用光电共封装的系统之一。3 N5 O& _' _+ P/ ?$ I9 J
    8 G9 e; u. D% m2 }; b& f
    图8所示的IBM Power 775是一个创新性的系统,早在2010年就采用了光电共封装技术。虽然它展示了集成光学互连的潜力,但这类技术的广泛采用一直受到可制造性和可维护性挑战的阻碍。
    9 h) u- ?( l) m& L. _+ g0 A, G& Q; ?% S, b( ?2 y/ R9 p: b
    线性可插拔光学模块(LPO)的兴起
    , L5 b4 }% |% B5 g鉴于这些挑战,业界现在正转向线性可插拔光学模块(LPO)作为更实用的解决方案。与基于DSP的光学技术相比,LPO提供了显著的功耗节省,同时保持了可插拔模块的灵活性和可维护性。$ O+ V: |0 X1 f& J
    3 S' {4 o9 Y; @+ r# _- q  f% X' T
    为了加速LPO的开发和采用,十二家行业领导者组成了LPO多源协议(MSA)。这一合作旨在为线性可插拔光学模块制定规范,112G LPO MSA规范即将完成,预计将在2024年ECOC大会之前发布。6 i! N$ i/ v: x+ d; [

    0 [( v$ N# F# r互连技术的未来:超越112G
    1 q2 x3 |' M$ }# D/ S9 G! v虽然112G LPO即将面世,但业界已经在展望224G-PAM4 LPO。这一下一代技术面临一些挑战:+ D* P) m, o% o1 h, f
    1. 通道要求:224G LPO需要干净、低损耗的电气通道,理想情况下从芯片到模块的损耗应小于15 dB。3 ~, `7 I* q( p  S
    2. Fly-over Cables:为了满足这些严格的通道要求,Fly-over Cables可能会发挥关键作用。这些电缆可以显著减少通道损耗和干扰。
    3 X# z! j  p0 m' K

    skuplzrpfgf64077135030.png

    skuplzrpfgf64077135030.png

    2 P" W: ]* i) F) @图9:Fly-over Cables的示例,包括NVLink交换机刀片到NVL72背板的连接,以及Luxshare 224 / 448G CPC互连。. \. c# j$ U  R4 \
    ) L3 N. F# E1 f! N
    3. 高性能组件:224G LPO将需要先进的高性能跨阻放大器(TIA)和线性驱动器。许多这些组件已经在开发中。# J7 R. o2 h0 C6 u! E% a0 n
    " f: x- t, p1 b" z: @7 ]9 |
    业界正在快速发展,预计在2025年的OFC大会上将有多家厂商展示224G-LPO。这项技术可能特别适用于网络接口卡(NIC)和AI加速器(XPU),因为这些场景中较短的电气通道使实施更为简单。
    . T  A% i9 m  c* w) [6 p
    . M$ r) U. A( a2 }# W对于交换机,较长的电气通道带来了更多挑战,但模拟结果表明,使用飞越电缆可以实现224G-LPO。目前正在进行大量测试,以验证这些模拟结果并为实际部署做准备。' U0 y6 M, k9 e; r

    + d+ E1 H9 a  P% Q结论# ]; a2 y3 e9 A9 D! B
    展望AI互连技术的未来,很明显线性接口光学技术 - 包括LPO、近封装光学(NPO)和光电共封装(CPO) - 代表了前进的方向。这些技术提供了支持下一代AI系统所需的高带宽和低功耗。& i" ]9 O% ?6 a2 K
    ! X- ~, ?* _9 P- K8 k9 E7 m, ]
    在这些选项中,LPO因其性能、功耗效率和实用性的结合而脱颖而出。LPO提供了几乎所有更集成解决方案(如CPO)的功耗优势,同时避免了这些技术在制造和可维护性方面的挑战,这些挑战在过去阻碍了其广泛采用。% y, D2 Z, B8 D2 X0 E4 c' N& J* f4 y

    6 b, ~& M% r/ m) M, M4 yAI的快速创新步伐正在推动互连技术的同步快速进步。随着我们向更快、更高效的系统迈进,硅工艺、高速接口和光学技术的创新将在塑造AI基础设施的未来中发挥关键作用。+ _2 y1 e+ x" k( r
    2 q! i* x8 k( i
    让互连技术跟上AI指数级增长的挑战是巨大的,但业界正在迎接这一挑战。通过像LPO MSA这样的协作努力以及持续的研发,我们正在看到新一代互连技术的出现,这些技术有望释放AI系统的全部潜力。
    8 F3 }" o& c0 D6 d2 {! h0 l
    % |& C/ D& {1 ]随着我们向前发展,很明显AI的未来不仅将由算法和计算能力的进步塑造,还将由将这些系统连接在一起的关键互连技术塑造。通过继续推动高速、低功耗互连的可能性边界,可以确保基础设施能够支持下一代AI突破。& g. L1 @" L! B/ Z+ L
    & p3 x! `  ?! u8 d
    未来展望1 [2 J! p* D* G; V3 X
    进一步的工艺改进:随着半导体工艺继续向更小的节点发展,我们可以期待看到更高的能效和更高的集成度。这将为AI系统提供更强大的计算能力,同时保持或降低功耗。
  • 3D集成:三维集成技术可能成为未来互连技术的一个重要方向。通过垂直堆叠芯片,可以显著减少信号传输距离,提高带宽,降低延迟。
  • 新材料的应用:除了硅,其他材料如氮化镓(GaN)或碳纳米管可能在未来的互连技术中发挥重要作用,提供更高的性能和能效。
  • 光学技术的进一步集成:虽然LPO目前看来是最实用的解决方案,但长期来看,我们可能会看到更深度集成的光学解决方案,如硅基光电子技术的广泛应用。
  • AI辅助设计:AI不仅是这些互连技术的最终用户,还可能成为设计和优化这些技术的工具。AI辅助的电子设计自动化(EDA)工具可能会加速新一代互连技术的开发。
  • 量子互连:随着量子计算的发展,量子互连技术可能成为一个新的研究方向,为未来的量子AI系统提供必要的通信基础。* A4 b  D) w. z' b& v
    [/ol]
    2 ^$ V0 c4 c0 x* I" X9 f参考文献
    + l; I0 y, H# ^0 L[1] Bechtolsheim, "Can Interconnects Keep up with AI?," Arista Networks, Jul. 2024.7 q0 ?4 A& [# r! P# y
    ' N2 {# d2 L9 |/ F3 i' X7 n0 l  m
    - END -" F+ J7 j( F$ z& j% T" H

    3 r6 p7 }' z3 Q5 S' ]0 {1 _软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。6 I4 F2 p+ x8 u6 k7 `1 e% h3 F
    点击左下角"阅读原文"马上申请$ P% u! m$ V) H1 N" O& Q
    , Q, c  r5 J# h
    欢迎转载. }9 Q7 s( H+ C4 u

    ) g' g$ f- U, @" e. D, c转载请注明出处,请勿修改内容和删除作者信息!; J) n8 C1 l2 v6 p  N

    ; o  S% Y; h+ r6 B" G' _* a
    $ |! E0 P1 q3 B  p/ @& J! w
    6 R8 @( Z: s& l/ m0 f6 k

    5nkf3xkvxf164077135130.gif

    5nkf3xkvxf164077135130.gif
    ( G3 X. b9 F1 s0 @  _% s) `6 J$ c
    7 _' l, H  S4 f) i
    关注我们
    - k) J+ x/ s3 p8 X& \) C9 X: `( V% i3 r

    6 \, o; o  P4 p0 L

    qemuvwuxqwr64077135230.png

    qemuvwuxqwr64077135230.png

    + Y6 m2 W: Z$ s" `- H/ M$ p
    # d: s* ^3 N+ d/ k/ |

    dn1nffibzgg64077135331.png

    dn1nffibzgg64077135331.png
    1 ^/ O2 a4 y& ]

    , d" o; h! c& E& l- F

    touqzlsyh0o64077135431.png

    touqzlsyh0o64077135431.png

    * P6 V7 x! J8 o% R9 o2 |7 ?
                         
    ' Q% f; s3 a7 s* \. W' I! H. o  b. y
    " x- x' x% U% @, q! [
    0 X8 `+ j7 F/ {1 E1 E
    关于我们:
    ' H/ j! W6 [0 @+ c# D& u! k深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。$ W8 h* y" U. S9 S9 H5 A. Z

    . G$ d$ G( h5 q. t2 M" j; ihttp://www.latitudeda.com/% M! G9 j/ e' j- L1 _8 Z% \" j
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表