电子产业一站式赋能平台

PCB联盟网

搜索
查看: 140|回复: 0
收起左侧

Ranovus | 人工智能集群中光连接的特殊要求

[复制链接]

1073

主题

1073

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11353
发表于 2024-11-29 08:01:00 | 显示全部楼层 |阅读模式
引言# o$ o; C8 G. s7 y  }
人工智能(AI)已成为现代技术的基石,推动着各个领域的创新。随着AI模型日益复杂和规模化,对更强大、更高效的计算系统的需求也在不断增加。在这些先进的AI系统中,组件之间的互连性是一个关键方面,尤其是在AI集群中。本文探讨了AI集群中光连接的特殊要求,重点关注下一代AI计算架构的挑战和潜在解决方案[1]。
* p; F! o# R  X# R! l' }

lzyar5xasm264046210415.png

lzyar5xasm264046210415.png

( q% E* \. E' L2 h# j" x$ [4 L4 Y) i5 I8 j9 F- a4 q: E
理解AI计算链路( y. J3 _: f* B* u$ J) f8 y
在AI集群中,不同类型的链路连接着系统的各个组件。可以根据功能、距离和性能要求对这些链路进行分类。* _! v- a1 o  p7 @  ^, E

lfrovmpio1f64046210515.png

lfrovmpio1f64046210515.png

: t2 P2 i$ a* f' T/ H图1展示了AI计算架构的示例,突出显示了不同类型的链路,包括前端网络、后端计算和本地加速器互连。
. a* g. X0 z  m- ]+ P& S. G1 r) G; M* l) e* k3 }2 C
AI集群中的关键链路包括:
2 v6 G9 Q+ G% |$ E5 H5 M3 N4 a1. 远程加速器链路:这些连接跨越100米或更长的距离,通常使用以太网(UEC)或InfiniBand协议。由于涉及的距离较长,已经在使用光技术。
& p7 D4 a5 o( O0 V+ U& F9 t+ i2. 本地加速器链路:覆盖1.5米或更长的距离(未来可能减少到10米以下),目前使用PCIe、CXL、UALink或NVLink等协议。主要基于铜线,但正在开始向光解决方案过渡。
1 u0 o2 M. U5 [7 x$ d' Q3. 高带宽内存(HBM)链路:这些是非常短距离的连接(约1厘米),使用HBM3或HBM3E等协议。需要极宽的接口,对延迟非常敏感。4 p  s! o, |; d* \! `

2 a6 [% s* d: m# k; f本地加速器链路:创新的焦点& i' u3 v( s7 N) T
本文主要关注本地加速器链路,因为在AI集群中,这些链路呈现出独特的挑战和改进机会。* i7 _! z4 N/ T. y) ~, ~9 I; e0 ~

* C4 \5 @. ~) j. e3 y8 ]6 Q本地加速器链路的现状
7 O5 e- o! U% S7 u9 P" o

jmhhmfyhsrf64046210616.png

jmhhmfyhsrf64046210616.png

+ v3 p9 t% z, b5 J1 F/ ]( a图2描绘了当前最先进的系统,使用200G的铜基连接,显示了扩展电缆和NVLINK交换卡。
) F8 T, G. T' v) j
. J# }* X- k( C* k9 _最先进的AI系统目前在本地加速器链路中采用200G的铜基连接。机架内连接是无源的,有助于降低功耗和延迟。然而,随着AI系统的不断发展,需要至少将互连带宽翻倍,同时延长传输距离并连接更多的加速器。
1 g$ b# @0 X8 m) ?
6 A, v2 n* D. h* y) u$ ?例如,当前系统可能具有:
9 J2 C( |8 a+ Z. K. O4 ?4 ?
  • 每个GPU 72个数据路径
  • 每个GPU 7.2 Tbps带宽
  • 每个机架5,184个数据路径
    / v4 j; U: d1 @: ?0 W( f. j
    / j% G$ X9 p1 ]! b# |
    未来的GPU预计需要:& O; {) a* p5 K+ Q. ~0 T
  • 每个GPU 51.2 Tbps
  • 每个系统72个GPU
  • 每个GPU 512个数据路径,速率为200G(发送和接收)
  • 每个机架36,864个数据路径: j8 ^) ]5 `: l. e4 C! U0 |/ y

    1 `4 u+ u, e7 a0 y, l这种带宽和连接需求的显著增加对铜基解决方案构成了挑战,可能难以高效满足。
      H- D" B0 @2 F( t3 h9 j8 D5 i9 ?& S9 _# c- G5 A& ~
    本地加速器链路的特殊特性5 q8 N1 g6 Y1 V0 |8 n
    本地加速器链路具有独特的特性,使其区别于AI集群中的其他类型连接:
    9 E) C# V, O% y# q3 I0 E0 `% ^) |4 C$ L) f! @

    ( l# j! K2 G) H0 m8 F1. 协议适应:大多数本地加速器链路基于PCIe协议,该协议最初是为铜连接设计的。将此协议适应光链路需要解决几个挑战:
    4 p. X. D0 d$ [7 Q: c* r修改接收器检测、侧带、电气空闲、超时、低频信号和扩频时钟等方面。) \/ V& b7 [6 e
    业界采取两步法:首先保持向后兼容性,然后定义一个适合光的协议。
    / @4 T! A$ ?: c% x. a0 z- |5 U* j. C* I* }% b
    2. 更严格的比特错误率(BER)要求:本地加速器链路要求最大帧错误率(FBER)小于1e-6,比典型的以太网要求更严格。然而,这可以通过当今的集成光技术实现。. I/ }0 v" V, _
    9 L/ D1 o. H$ Y6 S: K+ D# b5 P& R$ B
    3. 严格的延迟和功耗效率目标:这些链路需要满足非常苛刻的延迟和功耗效率要求。前面提到的"第二步"协议旨在解决这些需求。
    7 k% i4 B, G: F8 X, n  h; R  e. Y$ T8 V4 J. b
    4. 互操作性和可扩展性:确保不同组件之间的互操作性以及支持具有高基数(端口数)的大型集群很重要。8 f/ ^( c% }1 t' `

    4xosdnfmhvq64046210716.png

    4xosdnfmhvq64046210716.png

    ' M; y8 ]. A+ b* `$ i图3显示了PCIe协议向光链路演进的过程,说明了当前的铜基方法和两个步骤朝向适合光的协议发展。* F' n* j& K4 i3 E

    . ?" t$ _( v+ A8 J7 i3 x3 b硬件可靠性考虑
    1 b  D( o, B9 c) X  ^; l# F. g% z& C可靠性是AI集群设计中的一个关键因素,特别是对于本地加速器互连。业界通常使用Telcordia SR-322标准作为预测可靠性的基础。
    * m+ w% T- a1 @
    - R5 M# n/ K7 l2 [$ T3 v; ^7 ]8 I$ Z关于硬件可靠性的要点:
    - F# y" J. X8 m1. 故障率预测:可靠性通常分为三个阶段:早期故障、随机故障和老化故障。重点是在系统运行寿命期间最小化随机故障。
    & J& M  |" v1 \  }9 Y5 |8 _4 |' d# `- b& R" h. \) s. |* P

    4 A& [/ \2 a0 k: |$ _& G; \/ P, a2. 集成解决方案:高度集成的IC解决方案预计更可靠。这一原则预计也适用于基于硅的光电集成芯片(SI-EPICs)。
    ; o  F$ M* F+ t2 [5 U% a3 d
    7 c+ E  v3 ^# j6 Z
    6 u7 o% E' F) x9 B- {8 {' e) y
    3. 激光器可靠性:激光器是光系统中的关键组件。激光器的最佳随机故障率约为1 FIT(每十亿器件小时一次故障)。* M% J6 E! H3 i
    - k" u, x4 r4 C% O+ O& O+ {" R

    $ N' V1 a- x9 o9 R9 _4. 集成策略:激光器可以集成在可插拔模块中(如OIF的ELSFP形状因子)以便于更换,或直接集成冗余以实现极低的故障率。( ~4 j3 i8 n, n9 m. b. b
    ; b6 c; ^2 g8 y' \! X- j1 D( }7 C* y
    关键结论是,只有高度集成的光电子解决方案,通常称为光电共封装(CPO),才可能满足AI计算系统本地光互连的严格硬件可靠性要求。& ^; F  o: O: P, m$ _
    2 p9 l+ k# [: \: |9 s
    向更高容量过渡5 @. C+ R6 ~) H
    随着AI系统对带宽的需求不断增加,有几种潜在的路径可以实现容量翻倍:
    , C/ X, W& o  D4 j3 V' i* }+ x) E1 h! ^8 L
    ; S! d' D) p# K* S. I- x
    1. 升级到400G电气链路:这种方法涉及从200G转移到400G电气链路。然而,这种转变预计会减少传输距离,并对功耗和延迟产生负面影响。
    9 x( T, {) p' T$ v
    0 H, j4 W8 [2 \- q2 X* h1 G
    + ?+ Q, l$ i/ G) J) Y( _' [
    2. 双通道200G链路:另一种选择是继续使用200G信号,但每个链路使用两个电气通道。这种方法需要更多的连接器面积,在密集封装的系统中可能成为限制因素。
    $ r+ Z; Q0 n* ^* k0 V% N4 z# }% X* L( U# j. M' l% p

    1 u8 J5 z, x, A& H3. 过渡到使用CPO的光链路:光电共封装为下一代系统提供了所需的更高密度,是一个有希望的解决方案。2 X! Y9 T+ f; J( K8 s$ P/ n* H

    chfeln5c2bt64046210816.png

    chfeln5c2bt64046210816.png

    % `7 Y; \( h" H$ _, G9 \/ \图4说明了从当前200G板载铜连接到未来解决方案的过渡可能性,包括CPO光纤接口。' }3 _& g# y( y' d  g& u
    2 m: A9 ]$ l! u6 J, c! r$ K% X+ @2 z
    比较解决方案:CPO vs 铜( Q4 |' ?8 v" n7 Z' o6 E& ~3 [3 D& [
    在比较光电共封装(CPO)解决方案与传统铜缆解决方案时,需要考虑几个关键因素:
    ' P& p/ @' I' V0 Z$ f6 E$ D, N, _3 o( p1 W% d: D

    1 F. [8 ^6 O$ n1. 密度:
    8 l" L: }' w: j) b
  • 铜解决方案目前限于2D排列,通道间距为400微米。
  • 硅基光电子可以实现3D排列,通道间距小于50微米,使互连密度潜在地比铜高8倍。
  • 光电子技术还允许通过CWDM/DWDM等技术在每根光纤中传输多个通道,而铜线限于每根线一个通道。
    4 _3 K9 q6 X8 o  O$ t& p: _+ Z5 c: t* H* T
    1 Z( y+ [0 f8 p, m
    2. 传输距离:
    + A- ?6 }5 P8 P( ?3 p% C2 n
  • 铜链路在200 Gbps时限制在约1米,在400 Gbps时更短(约0.7米)。
  • 硅基光电子可以在800 Gbps的速率下实现高达500米的传输距离。
    7 h( V$ l% l2 L2 z0 b5 {

    % n( q. Y3 o4 c9 D# I+ }# A3. 机械和热挑战:# u9 D: l4 w* h9 v6 ?6 j* q
  • 铜解决方案通常需要垂直逃逸布线,可能限制散热器面积。
  • 铜缆通常更硬更厚,使安装和维护更具挑战性。
    3 ~" W! M  ^8 Y

    ; k, ]( W  i, {0 t7 Y0 I

    apid12vokew64046210916.png

    apid12vokew64046210916.png
    5 X. B- w0 ~! Q8 b
    图5展示了铜缆解决方案与CPO的比较,突出显示了在传输距离、密度和能源效率方面的差异。
    4 ~9 d( A' T; i+ z/ f, X
    ; v& z8 `2 G! b; V4 J8 m8 x/ I结论" c! M$ K+ A% }: m5 G5 X2 G1 {/ Q
    随着AI集群继续增加复杂性和规模,互连技术面临的需求变得越来越具有挑战性。传统的铜基解决方案在带宽、密度和能源效率方面正接近极限。光电共封装(CPO)作为一种有希望的解决方案出现,能够满足下一代AI计算系统的严格要求。3 Q& q5 S% |- n
    9 D* K' u  O+ |3 J$ y
    CPO在传输距离、密度、可靠性和能源效率方面具有显著优势。可以实现最终用户针对未来AI系统所追求的高带宽密度(>1T/mm)和低功耗(
    " P* j$ a) v" O- L8 N9 G  E! F
    6 f0 O+ b5 F" X, N1 K' V随着AI行业继续推动计算能力的边界,向光互连的过渡,特别是以CPO的形式,似乎不仅有益,而且必要。这种转变将使更强大、更高效和更可扩展的AI集群成为现实,为下一代人工智能应用和突破奠定基础。
    ; L' ?" x7 w, H; g, D; ~
    ; M- I, D$ u* e0 n: `: u' Z# A参考文献
    + S2 A) L0 t, w$ W[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.+ r: O3 J) L% q1 M' F

    8 z* @$ |  ?8 h8 ^. b/ T7 y8 e7 @END8 ?1 D! c7 |  R) {" m
    4 t1 Z' m: A2 {% I- N
    * }- b* K8 f: E6 S7 G2 C
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    $ W  v+ U9 g  c% M! D, r点击左下角"阅读原文"马上申请
    & Q1 K7 R1 }5 H* _: O
    4 R$ M+ H. `- L( _. z6 J欢迎转载4 m8 z8 y( l/ I- @

    7 g' [' m" O! n1 R) t# s2 }. h转载请注明出处,请勿修改内容和删除作者信息!
    ) u; h% l$ V+ ]# V* B$ A$ E3 \, H& ~) d) o+ I% }& `
    $ H0 b' {: E5 D: ^

    + \$ g: A* U1 E+ T$ I8 L

    k1s0z335ifo64046211016.gif

    k1s0z335ifo64046211016.gif
    $ F2 i- b) x  r% \: p, C
    ' o0 _3 k9 `" N/ S6 R& R* w+ y& I
    关注我们
    : L. X( U1 O7 [* ^0 F0 s" Y* S
    0 V- Q8 W8 R0 q: d( F+ w
    : N- Y* i6 ^0 K: X% |

    5ugombznhs064046211116.png

    5ugombznhs064046211116.png
    * i+ r' `. J1 U4 {

    $ u0 @0 T, C" o5 f" k. H

    ytllk0cvjok64046211216.png

    ytllk0cvjok64046211216.png

    ) n( Q6 m2 @  c% O

    : _) b' Z! r" M6 T) U

    gps5vugazuy64046211316.png

    gps5vugazuy64046211316.png

    , _, }- G$ `1 \% u1 i* |: j
                         
    9 q% n3 s, |% \8 Q2 r* ?3 k
    7 m) u& K) C" P# v8 o; q' c: B
    " ?+ p* q6 t* i
    8 d8 L4 z' B* I% m2 j) j
    关于我们:
    . e; V# a; y6 t& q! V深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    - w5 b) B% F" F  ~; q! W8 j% R. d( o3 M+ w6 x* y
    http://www.latitudeda.com/
      ]3 i4 z5 J. ](点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表