电子产业一站式赋能平台

PCB联盟网

搜索
查看: 100|回复: 0
收起左侧

光子网络用于人工智能应对现代计算挑战

[复制链接]

1131

主题

1131

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
12176
发表于 昨天 08:01 | 显示全部楼层 |阅读模式
引言. |5 ^4 I9 C. m- C+ k( f" t
# f# h% [/ u2 V$ X
人工智能计算性能正以每九个月翻一番的速度快速增长。这种快速扩张带来了显著的挑战,特别是在网络基础设施方面。传统的电子分组交换(EPS)网络在功耗和扩展性方面面临困难,尤其是随着人工智能系统规模不断扩大。光子网络,特别是光学电路交换(OCS)技术,为训练和推理工作负载提供了有希望的替代方案。本文探讨光子网络在人工智能系统中面临的挑战和机遇[1]。+ l/ Q" \3 f, `

5ddi34kn1zu64042739947.png

5ddi34kn1zu64042739947.png
" [- Q, [7 c# T8 u
人工智能性能快速发展: X7 i. Z# s( C. B, b
1 z+ U, G  z3 ^# l$ o/ {- r
人工智能性能正以惊人的速度扩展,约每九个月翻一番(相当于每年增长2.5倍)。这种指数级增长在领先的人工智能超级计算机中表现明显,从早期的GPT-3集群到当前的El Capitan和xAI Colossus等系统。通常使用的性能指标是16位FLOP/s(每秒浮点运算次数),从2019年的约10^17增长到2025年领先系统的10^20以上。
7 a9 p1 S3 p: `/ S

nwfc4couxek64042740048.png

nwfc4couxek64042740048.png
3 \, t! h' \/ S+ [& m/ ?; F  b8 `- M
图1:人工智能性能每9个月翻一番 - 该图展示了从2019年到2025年人工智能计算性能的指数级增长,主要的人工智能超级计算机按首次运行日期排列,性能以16位FLOP/s为单位,呈现明显的上升趋势。& R2 p1 ?6 Q. Z6 Q/ ?1 K
4 f- c  F, A3 D1 P$ ]9 _
人工智能能力的这种显著增长有一个关键限制因素:功耗。正如英伟达CEO黄仁勋所指出的,"人工智能收入受功率限制"。推理能力的扩展直接受到可用功率的限制,影响从吞吐量到响应时间的各个方面。公司必须优化每瓦每秒token数量,以最大化基础设施投资回报。  b8 x0 z) g4 A& z

lbsu4bz45dg64042740148.png

lbsu4bz45dg64042740148.png
; M" c7 k9 z8 L. y
图2:黄仁勋 – "人工智能收入受功率限制" - 该图展示了来自NVIDIA GTC的演示,表明人工智能推理能力的扩展受到功率限制,影响了吞吐量、每秒token处理能力及最终的收入增长。9 V, N% V4 x+ P' J
训练与推理:不同的网络需求+ f& r+ g6 P3 y
' d0 e5 r6 X0 j9 n
人工智能处理单元(xPUs)根据用于训练还是推理有不同的网络需求。像NVIDIA GB300、AWS Trainium2和AMD MI325X这样的训练处理器需要每秒多个太比特的网络吞吐量,而AWS Inferentia2、GroqCard LPU和Google Ironwood等推理处理器通常需要较少的带宽。/ F3 X, U6 f: p- V$ R8 W

fa44j3epyhi64042740248.png

fa44j3epyhi64042740248.png

. _6 U$ a5 Z6 v' s: [+ P图3:xPUs和网络I/O - 该图对比了训练处理器(如NVIDIA GB300、AWS Trainium2和AMD MI325X)与推理处理器(如AWS Inferentia2、GroqCard LPU和Google Ironwood)的网络带宽需求,显示两者之间存在显著(2-7倍)的带宽需求差异。5 P6 I: J/ Z" P7 d
) f) a: U; p' P( U+ T! K
训练和推理工作负载的网络需求有实质性差异。训练网络优先考虑每兆瓦完成时间,处理遵循固定计算图的长期工作负载。这些网络同时采用规模扩展(数十个节点)和规模扩大网络(10,000-100,000个节点)的分布式方法。训练操作通常在较长时间内使用相同的计算图,创建新模型或调整现有模型。
6 ~5 D) @9 c" U; A1 x  n8 T" h
0 _: [+ H7 L" Y# V: |" Q0 D推理网络注重每千瓦token数,处理非常短暂且模式较不确定的工作负载。现代方法如专家混合(MoE)和推理系统可能在单个LLM提示的整个生命周期内触发可变的网络连接模式。工作负载特性基本不同,任务持续时间更短,通信模式变化更大。* E" I" w7 ?* O* N% c5 c

tnjrikrtgma64042740348.png

tnjrikrtgma64042740348.png
, b8 B( j( h$ B" j; t7 X0 s
图4:训练和推理:网络需求 - 该图详细比较了训练和推理工作负载的网络需求,强调集体通信对两种工作负载都非常重要。训练工作重视每兆瓦完成时间,推理工作强调每千瓦token数,两者都需要高度同步的无损网络连接。6 t1 W' T  T  Z2 b% z# D

# U3 U! D$ [3 a% W. v5 J两种网络类型都受益于"完全连接的确定性同步无损网络,具有快速重配置能力",这使得"零"集体通信尾部延迟成为可能。这种同步性对于确保人工智能工作负载能够高效进行,避免因通信过程中的落后节点而延迟非常重要。4 P$ s  c1 N6 p7 `( [3 K; H
光学电路交换(OCS)网络:未来趋势?
+ s3 }" X2 Z, r, n( m1 C7 j) J6 L7 t1 c" r/ [
谷歌已开始在数据中心部署光学电路交换机,认识到未来电子交换机在功率效率方面的收益递减。图表显示,随着速度超过200Gbps,电子交换机和相干WDM光学器件都面临功率效率挑战。这一限制为提供更好功率扩展的替代交换技术创造了机会。( s$ e/ F+ H+ f" D

2zclqlhlblr64042740448.png

2zclqlhlblr64042740448.png

  g5 z! I" T5 ?. D% J' d/ p$ ?图5:谷歌在数据中心部署OCS - 图表左侧展示了电子交换机和光学器件功率效率随速度增加的收益递减情况,右侧为OCS在数据中心网络中的实施架构,表明在聚合层使用OCS可实现10ms级的重配置时间。; U3 |, v) H- S% j

: i* o- G2 H8 C谷歌专门为机器学习实施了OCS,为其TPU v4集群创建了超立方体OCS架构。该系统使用48个128端口光学电路交换机连接跨64个机架的4,096个TPU,创建了直接和间接拓扑结构的混合。每个机架包含64个具有3D环形连接的TPU,使用光链路,OCS交换机支持机架间通信路径的灵活配置。
6 ^8 n- D0 ?! R0 Y- _  ^$ _" D8 l

3ksdnlvyqi564042740548.png

3ksdnlvyqi564042740548.png
* q; j* ?6 |4 B0 _( s+ Y
图6:谷歌在机器学习中部署OCS - 图示展示了谷歌的超立方体OCS架构,用于连接ML 4096 TPU集群(64个机架,每个机架64个TPU),采用3D环形连接拓扑,每个方向(X、Y、Z)使用专用的OCS交换机组。4 {# ^) k5 W: A2 |2 w
光学电路交换的优势与挑战
4 |7 J, B6 v# G1 \# B
" s8 `6 Y" s* R# [1 u; G当前OCS技术提供了几个优势:保证连接和服务质量、消除交换机内缓冲/排队、降低功耗、有效的拓扑重配置、增强故障恢复和功率减少能力。这些优势使OCS特别适合人工智能工作负载所需的确定性、同步通信模式。
8 q7 X4 x7 o: k; V# f# Y4 u- k6 q& N, [: E& I+ A( j+ p
然而,仍存在显著挑战。大多数当前OCS实现存在重配置时间慢(毫秒而非微秒)、网络调度计算慢,以及标准收发器在交换重配置后需要长时间重新锁定等问题。这些限制严重影响了OCS在需要频繁网络重配置场景中的实际应用。
  R. a0 W  A3 q' a( E

ohrua2p2icy64042740648.png

ohrua2p2icy64042740648.png

0 T5 M3 d- V: y- F* F; L1 k% p8 D$ Y图7:光学电路交换(OCS)网络的优缺点 - 左侧列出了OCS的主要优势(保证连接和服务质量、无缓冲需求、低功耗等)和缺点(重配置时间慢、网络调度计算慢等);右侧图表展示了不同OCS技术的交换重配置周期,从纳秒级(PULSE、Sirius)到毫秒级(Google部署)不等。! A1 @1 o, \/ A. Z. t( g

& i  W& t& N( h! d# z2 b研究表明,由于重配置时间慢(数十毫秒),当前最先进的OCS网络可能导致与具有同等端到端带宽的EPS网络相似或更差的集体完成时间。这一性能差距必须解决,OCS才能充分实现其在人工智能网络中的潜力。
' D3 G* p* D1 K6 G% \/ D

bssbz0h2lad64042740748.png

bssbz0h2lad64042740748.png

8 ~( W6 t1 k3 o, c5 u$ U! @图8:最先进OCS的挑战 - 性能比较图显示了不同网络拓扑(SuperPod、2D-Torus、TopoOpt、Ramp)的完成时间,表明当前慢速OCS网络(如TopoOpt)可能导致与同等端到端带宽的EPS网络相似或更差的集体完成时间。
+ m# J& p# |6 R8 t光子人工智能网络的未来发展
* T3 E: {7 m9 N1 n' H( y
/ ^/ N9 n7 K# T为使OCS网络取代传统电子分组交换网络,必须克服几个技术障碍。光学交换重配置需要匹配EPS粒度(亚微秒级);收发器必须非常快速地重新锁定以维持吞吐量;网络需要处理额外的光学损耗和信噪比劣化;高度同步的网络操作必不可少;需要超快速网络控制和重配置;与NCCL等软件栈的集成必须无缝;高可靠性和弹性对生产部署必不可少。
- L9 o! G( u4 h  _6 z5 `6 h
; G! p5 l2 _- X2 r7 f" x然而,潜在优势非常可观。光子网络有望提供高度确定性的网络性能,显著降低功耗,通过消除大部分收发器和所有EPS交换机提高可靠性,在训练和推理性能方面带来重大改进,以及合并规模扩展和规模扩大网络的极端规模和带宽能力。这些优势可能从根本上改变大规模人工智能系统的经济性和能力。
6 L7 @9 D# j( {/ ^4 A# G$ g1 ]1 Q4 x  Y
Oriole Networks是一家2023年成立的伦敦公司,率先开发这些光子网络技术,以加速低碳世界中的人工智能。凭借重要资金和分布在多个全球地点的工程人才,该公司正努力克服这些挑战,实现光子网络在人工智能系统中的潜力。该公司建立在伦敦大学学院十年的研发工作基础上,将学术研究转化为商业生产。# j8 @, B- T, n( w

, I, H9 q! \3 c6 a; X光子网络技术代表了人工智能系统网络架构的一个关键创新方向。通过解决当前的技术挑战,光学电路交换有望在降低功耗的同时提供更高的网络性能,满足日益增长的人工智能计算需求。
8 ^. n, P' U" \/ ^8 V! l0 E& J参考文献: A+ p9 [( {" Y# x7 l

+ T, p  T- h% u5 z; V- d, [% _5 Z; t2 t[1] G. Zervas, "Photonic networks for AI: Challenges and Opportunities," presented at the OCP EMEA Summit, Dublin, Ireland, Apr. 29-30, 2025.6 q  l$ d: p* ?4 U
END4 I1 \3 v" p4 m  z. ~" Q
软件试用申请欢迎光电子芯片研发人员申请试用PIC Studio,其中包含:代码绘版软件PhotoCAD,DRC软件pVerify,片上链路仿真软件pSim,光纤系统仿真软件pSim+等。更多新功能和新软件将于近期发布,敬请期待!
+ |, i' m5 X" h# @8 r点击左下角"阅读原文"马上申请( z4 H7 o! `! d. Z

0 `, v$ h4 j6 j  @/ r- r8 b1 n* d欢迎转载; q3 c7 t1 J! d9 X

% Y: Q7 f) C5 z7 Y- y转载请注明出处,请勿修改内容和删除作者信息!  I7 J/ z1 a* }/ }4 I- C' {
  a" c+ N" Z8 U0 S( o4 V5 d

9 f; k7 T8 G6 [/ R$ Z" ~+ Y4 i

) \5 Z* M/ B; M. h2 y

1vvodoush3c64042740848.gif

1vvodoush3c64042740848.gif
% H$ ^% o$ R8 o) R
3 W2 R( T0 t. J( I# ^3 U
关注我们( l) G% D1 {$ d1 z
2 S( f0 D" L8 ]  h2 I0 n' ^# \

" {3 @6 j2 g. y3 ~: i7 ]

x1jy0o4xi4z64042740948.png

x1jy0o4xi4z64042740948.png

( j! B) J8 b; h% B& ~6 k
# G& ]. O: _; ~& W

lysqvoinz5j64042741048.png

lysqvoinz5j64042741048.png
1 W+ n3 P+ l8 z; k& f

/ \1 W6 I0 p: n. N* o

2040w11fmsp64042741148.png

2040w11fmsp64042741148.png
% H6 n( T  j( \7 g
                     
* u5 i; f# \! X) Q0 }$ G2 \% E/ h2 e! r1 g" r( b
0 W3 m. t$ D3 C

: }: E( h3 q) {* c5 o  }5 A* v. S+ w关于我们:
# C! ^5 [: i  v; Y  u1 h深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。( v7 x( K  K9 I$ _

6 ?. [6 F& F6 L. Mhttp://www.latitudeda.com// j7 M2 v- K1 \% Y" l; D
(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条


联系客服 关注微信 下载APP 返回顶部 返回列表