Ranovus | 人工智能集群中光连接的特殊要求

逍遥设计自动化 · 发表于 2024-11-29 08:01:00

引言
人工智能（AI）已成为现代技术的基石，推动着各个领域的创新。随着AI模型日益复杂和规模化，对更强大、更高效的计算系统的需求也在不断增加。在这些先进的AI系统中，组件之间的互连性是一个关键方面，尤其是在AI集群中。本文探讨了AI集群中光连接的特殊要求，重点关注下一代AI计算架构的挑战和潜在解决方案[1]。

lzyar5xasm264046210415.png

理解AI计算链路
在AI集群中，不同类型的链路连接着系统的各个组件。可以根据功能、距离和性能要求对这些链路进行分类。

lfrovmpio1f64046210515.png

图1展示了AI计算架构的示例，突出显示了不同类型的链路，包括前端网络、后端计算和本地加速器互连。

AI集群中的关键链路包括：
1. 远程加速器链路：这些连接跨越100米或更长的距离，通常使用以太网（UEC）或InfiniBand协议。由于涉及的距离较长，已经在使用光技术。
2. 本地加速器链路：覆盖1.5米或更长的距离（未来可能减少到10米以下），目前使用PCIe、CXL、UALink或NVLink等协议。主要基于铜线，但正在开始向光解决方案过渡。
3. 高带宽内存（HBM）链路：这些是非常短距离的连接（约1厘米），使用HBM3或HBM3E等协议。需要极宽的接口，对延迟非常敏感。

本地加速器链路：创新的焦点
本文主要关注本地加速器链路，因为在AI集群中，这些链路呈现出独特的挑战和改进机会。

本地加速器链路的现状

jmhhmfyhsrf64046210616.png

图2描绘了当前最先进的系统，使用200G的铜基连接，显示了扩展电缆和NVLINK交换卡。

最先进的AI系统目前在本地加速器链路中采用200G的铜基连接。机架内连接是无源的，有助于降低功耗和延迟。然而，随着AI系统的不断发展，需要至少将互连带宽翻倍，同时延长传输距离并连接更多的加速器。

例如，当前系统可能具有：

每个GPU 72个数据路径

每个GPU 7.2 Tbps带宽

每个机架5,184个数据路径

未来的GPU预计需要：

每个GPU 51.2 Tbps

每个系统72个GPU

每个GPU 512个数据路径，速率为200G（发送和接收）

每个机架36,864个数据路径

这种带宽和连接需求的显著增加对铜基解决方案构成了挑战，可能难以高效满足。

本地加速器链路的特殊特性
本地加速器链路具有独特的特性，使其区别于AI集群中的其他类型连接：
# q3 I0 E0 `% ^) |4 C$ L) f! @

1. 协议适应：大多数本地加速器链路基于PCIe协议，该协议最初是为铜连接设计的。将此协议适应光链路需要解决几个挑战：
修改接收器检测、侧带、电气空闲、超时、低频信号和扩频时钟等方面。
业界采取两步法：首先保持向后兼容性，然后定义一个适合光的协议。

2. 更严格的比特错误率（BER）要求：本地加速器链路要求最大帧错误率（FBER）小于1e-6，比典型的以太网要求更严格。然而，这可以通过当今的集成光技术实现。

3. 严格的延迟和功耗效率目标：这些链路需要满足非常苛刻的延迟和功耗效率要求。前面提到的"第二步"协议旨在解决这些需求。

4. 互操作性和可扩展性：确保不同组件之间的互操作性以及支持具有高基数（端口数）的大型集群很重要。

4xosdnfmhvq64046210716.png

图3显示了PCIe协议向光链路演进的过程，说明了当前的铜基方法和两个步骤朝向适合光的协议发展。

硬件可靠性考虑
可靠性是AI集群设计中的一个关键因素，特别是对于本地加速器互连。业界通常使用Telcordia SR-322标准作为预测可靠性的基础。

关于硬件可靠性的要点：
1. 故障率预测：可靠性通常分为三个阶段：早期故障、随机故障和老化故障。重点是在系统运行寿命期间最小化随机故障。
# `- b& R" h. \) s. |* P

2. 集成解决方案：高度集成的IC解决方案预计更可靠。这一原则预计也适用于基于硅的光电集成芯片（SI-EPICs）。

7 c+ E v3 ^# j6 Z
3. 激光器可靠性：激光器是光系统中的关键组件。激光器的最佳随机故障率约为1 FIT（每十亿器件小时一次故障）。
- k" u, x4 r4 C% O+ O& O+ {" R

4. 集成策略：激光器可以集成在可插拔模块中（如OIF的ELSFP形状因子）以便于更换，或直接集成冗余以实现极低的故障率。

关键结论是，只有高度集成的光电子解决方案，通常称为光电共封装（CPO），才可能满足AI计算系统本地光互连的严格硬件可靠性要求。

向更高容量过渡
随着AI系统对带宽的需求不断增加，有几种潜在的路径可以实现容量翻倍：
* }+ x) E1 h! ^8 L

1. 升级到400G电气链路：这种方法涉及从200G转移到400G电气链路。然而，这种转变预计会减少传输距离，并对功耗和延迟产生负面影响。

0 H, j4 W8 [2 \- q2 X* h1 G
2. 双通道200G链路：另一种选择是继续使用200G信号，但每个链路使用两个电气通道。这种方法需要更多的连接器面积，在密集封装的系统中可能成为限制因素。
4 z# }% X* L( U# j. M' l% p

3. 过渡到使用CPO的光链路：光电共封装为下一代系统提供了所需的更高密度，是一个有希望的解决方案。

chfeln5c2bt64046210816.png

图4说明了从当前200G板载铜连接到未来解决方案的过渡可能性，包括CPO光纤接口。

比较解决方案：CPO vs 铜
在比较光电共封装（CPO）解决方案与传统铜缆解决方案时，需要考虑几个关键因素：
, N, _3 o( p1 W% d: D

1. 密度：

铜解决方案目前限于2D排列，通道间距为400微米。

硅基光电子可以实现3D排列，通道间距小于50微米，使互连密度潜在地比铜高8倍。

光电子技术还允许通过CWDM/DWDM等技术在每根光纤中传输多个通道，而铜线限于每根线一个通道。

2. 传输距离：

铜链路在200 Gbps时限制在约1米，在400 Gbps时更短（约0.7米）。

硅基光电子可以在800 Gbps的速率下实现高达500米的传输距离。

3. 机械和热挑战：

铜解决方案通常需要垂直逃逸布线，可能限制散热器面积。

铜缆通常更硬更厚，使安装和维护更具挑战性。

apid12vokew64046210916.png

图5展示了铜缆解决方案与CPO的比较，突出显示了在传输距离、密度和能源效率方面的差异。

结论
随着AI集群继续增加复杂性和规模，互连技术面临的需求变得越来越具有挑战性。传统的铜基解决方案在带宽、密度和能源效率方面正接近极限。光电共封装（CPO）作为一种有希望的解决方案出现，能够满足下一代AI计算系统的严格要求。

CPO在传输距离、密度、可靠性和能源效率方面具有显著优势。可以实现最终用户针对未来AI系统所追求的高带宽密度（>1T/mm）和低功耗（

随着AI行业继续推动计算能力的边界，向光互连的过渡，特别是以CPO的形式，似乎不仅有益，而且必要。这种转变将使更强大、更高效和更可扩展的AI集群成为现实，为下一代人工智能应用和突破奠定基础。

参考文献
[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.

END8 ?1 D! c7 | R) {" m

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

$ H0 b' {: E5 D: ^

k1s0z335ifo64046211016.gif

关注我们

5ugombznhs064046211116.png

ytllk0cvjok64046211216.png

gps5vugazuy64046211316.png

7 m) u& K) C" P# v8 o; q' c: B

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Ranovus | 人工智能集群中光连接的特殊要求

发表回复

精选推荐

浏览过的版块