|

引言
. _( q% [) {6 n! {3 i人工智能(AI)和机器学习(ML)领域近年来呈现指数级增长,模型的超参数规模大约每3.5个月翻一番。这种快速扩展带来了计算能力、能源消耗和运营成本方面的重大挑战。基于冯·诺依曼模型的传统计算架构面临基本限制,包括"冯·诺依曼瓶颈"(即处理器和内存之间的数据传输成为约束)和"内存墙"(内存性能落后于处理器改进的速度)。
- s' m M. h; g" u h6 z% q. R8 B) J
" V9 T% P% i6 j: q& r/ R. l这些挑战推动了对光子神经网络等替代计算方法的兴趣,光子神经网络比传统电子系统提供显著优势。本文探讨一种异质III-V族材料与硅集成的光子平台,用于高能效人工智能/机器学习加速,重点介绍支持下一代计算能力的关键组件和架构[1]。. Y! }, s* W5 e8 [ r! i* v1 F
4c4fu5qffu164039221304.png
% t/ H7 Q) S2 _; K, D0 y, K9 f
& o( L" D1 N, p% S/ a" X) q4 ^1
4 ?5 f1 \) d& [& S) q" I理解光子神经网络
; x% _) K! ]/ ]* u8 O' H4 X神经网络由相互连接的人工神经元层组成,模仿人脑结构。每个神经元接收加权输入,通过激活函数处理,并产生输出。在传统深度神经网络(DNNs)中,这些操作以电子方式执行,消耗大量能源并产生热量。
& b6 L8 p4 Y, z$ }7 _. p3 w* |$ I: R2 S! z( L! y
光子技术为实现神经网络提供独特优势。光学神经网络(ONNs)可以以光速执行线性代数运算,没有电容延迟或热耗散。这种固有能力,加上传输和并行处理大量数据带宽的能力,使光子技术成为下一代人工智能加速器的强大技术基础。
$ g) L/ _8 _2 x" o/ m
bqxk5xaikvd64039221404.png
. M" L) [7 P# a u7 Y图1:(a)典型前馈深度神经网络示意图。(b)实现深度神经网络所需的光子神经层各阶段的分解图。; z" p9 L$ `; K5 o2 a5 I8 D* s
2 y1 |& G9 Z/ ^$ t, _5 V5 v在光学领域实现完整神经层需要三个基本阶段:线性运算(通常是矩阵-向量乘法)、非线性激活函数和信号放大或前馈。目前的演示仅限于个别阶段或小规模离散层,阻碍了光学神经网络的可扩展性。电子人工神经网络硬件可以实现每个神经元4096个突触连接(例如NVIDIA Volta),而最先进的光学神经网络线性层规模仅限于64×64或更小。这主要是因为现有光学神经网络通常依赖级联的马赫-曾德干涉仪(MZIs)来实现任意单一权重矩阵。扩展到大规模(如1024×1024)光学神经网络需要O(N2)个MZIs和O(N)个级联阶段,导致难以克服的光学损耗、控制复杂性和大型线路占用面积。
8 H `* a7 g! v& Q1 e R6 K/ M; H9 S, q: h9 i
27 S; E; U/ a" p+ ]( {( s
III-V族材料与硅异质集成平台
+ @, i& E+ J$ `+ h5 t; t5 Z; W光子神经网络的一个关键挑战是缺乏集成所有必要组件的综合平台。硅作为间接带隙材料,不能有效发光,而将III-V族二极管激光器芯片与硅光电子芯片对准则会引入额外的耦合损耗和封装复杂性。这些挑战显著限制了能源效率和集成密度。( K7 E6 a6 w- m+ p7 k/ U( B" i
$ k4 p K# S/ L; y: i' n
通过O?等离子体辅助晶片到晶圆键合实现III-V族材料与硅的异质集成,这一技术于2006年发现,提供了实用解决方案。这种方法允许在III-V族基底上生长器件外延层,然后与硅键合,实现高性能器件,避免了直接生长可能产生的位错。半导体制造公司如英特尔、CEA-Leti和Tower Semiconductor已采用这种方法生产低成本片上激光器和光电探测器。" _% c! u' e+ u& P' K1 T
didmbuly1zv64039221504.png
5 @% J& X- i0 x8 ^2 x图2:异质III-V族材料与硅光电子器件的制造工艺流程。% I1 o# `5 F) \# e. ]
) u! T% _5 p6 D: T: a, V
制造过程从顶层硅厚度为400纳米的硅-绝缘体-硅(SOI)晶圆开始。该过程遵循几个关键步骤:首先,通过光刻和硅干法蚀刻制造光栅耦合器、硅波导和排气通道。随后,对基于MOSCAP的器件的p++区域进行重掺杂,并通过离子注入形成Ge-on-Si雪崩光电二极管(APDs)的n++区域。接着,使用SiO?作为硬掩模进行Si和Ge的选择性生长,形成Ge-on-Si APD的电荷、吸收和倍增层。制造并封装SiGe APDs的p-Ge和n-Si接触。然后,通过直接晶圆键合将III-V族外延层转移到选择性暴露硅的SOI晶圆上,之后去除III-V族基底。沉积一层薄的MOSCAP栅极氧化物(通常是Al?O?或HfO?)作为键合介电层。依次形成P-GaAs金属接触、III-V介子结构和n-GaAs接触。最后,在快速热退火形成欧姆接触后,用厚介电层或聚合物封装晶圆表面。
" T0 Q1 }$ ^: }0 R1 ]8 l
0 I. \" `/ y: D: X5 d, N( \" b这种集成平台使得在晶圆规模上实现光子神经网络所需的所有基本构建模块,包括激光器、放大器、光电探测器、调制器和存储元件。; f0 a/ y$ L8 ?' N/ u- A3 K7 i
# Z$ G' @' k5 \! M. ~; k( O/ p3) F- z9 J7 r" e! T6 k G% j8 `6 i" f
光子神经计算的基本组件0 E* h9 }2 G* W
光源:片上光源对实用光子计算系统非常重要。虽然外部光可以通过光栅耦合器耦合到光电子集成芯片,但片上光源消除了耦合损耗和封装复杂性。III-V族与硅集成平台提供了几种集成光源选择,每种对不同的光子计算架构都有特定优势。
* K5 U! \" q) Q& H% W- ]* n4 ]0 q9 @, W6 D# h- H
量子点梳状激光器作为光学神经网络的优秀多波长光源。这些激光器在较高温度下高效运行,同时在多个梳齿线上保持低相对强度噪声。梳状结构由2.6毫米长的腔体组成,由100%镜面(1x2 MMI +环路镜)和50%镜面(2x2 MMI +环路镜)形成。镜面之间1.4毫米长的增益段,通过模式转换器将光学模式从无源硅波导转移到基于量子点的增益区域,实现有效的光生成。腔体中心附近的两个电隔离的可饱和吸收段有助于维持模式稳定性。已演示的梳状激光器实现了2.1 THz的3 dB带宽,并在50°C下对超过50个梳状线实现了无错误操作。
V+ y2 H: I( A" w, Y
hei4lddmjfg64039221604.png
X! M* G$ X; T* {
图3:基于量子点的SOI上梳状激光器示意图。* Q8 x1 k, t" ?3 q
! e0 c$ A% |0 F
微环激光器通过紧凑尺寸、低功耗和固有非线性特性为光子神经网络提供卓越优势。这些激光器将InAs/GaAs量子点集成到具有总线波导的硅微环谐振器上,用于光耦合。硅微环波导定义激光器腔体,而总线波导提取发射光。由于设计紧凑,这些激光器在室温下实现了低至1.5 mA的阈值电流(相当于200 A/cm2阈值电流密度)。光谱特性显示出优秀的50 dB消光比和在O波段的33 dB高边模抑制比。这些激光器的非线性动力学,特别是基于拉比振荡的自脉冲,使其成为尖峰神经网络中激发性激光器的理想候选者。此外,补偿损耗的能力使其在结合无源和有源元件的混合神经网络中成为有价值的组件。
p% g+ _% L, }
2i2bslm52vp64039221704.png
" Q$ [ Q5 m7 K% T/ J, z$ N$ v图4:(a)器件横截面SEM图像,金属化前后及(b)量子点微环激光器的透射电子显微镜图像(c)。
t* Y/ n/ R7 R2 H* f: i
$ F3 D$ c! s: f" \% s. i! w. t$ }分布反馈(DFB)激光器对需要单波长精度的相干架构特别有用。最近开发的在硅上的量子点DFB激光器在1310纳米波长下运行,具有高效率和优秀的直接调制能力。这些异质激光器与传统量子阱对应物相比展示了显著改进,包括低阈值操作(134 A/cm2)、优越的热稳定性和低模式分区噪声。壁插效率为9.4%,最高可达70°C保持稳定的单模操作,具有窄线宽和高边模抑制比(SMSR)。这些激光器实现了12.5 Gb/s的直接调制和25 Gb/s的外部调制(使用MOSCAP微环调制器),通过消除对单独高速光学调制器的需求,可能简化光学神经网络架构。
8 f2 M* s4 v) x7 X k: w
' E6 B7 {4 A6 {+ P6 z光子突触权重:光子神经网络中高效实现权重需要具有精确控制、低功耗和高稳定性的相移器。该平台提供了几种先进的权重实现解决方案。/ X+ t" ~" U# z. J$ p1 g+ |
9 @* u$ Q% B+ m i& n9 G
异质MOS电容相移器在能源高效相位控制方面代表了重大进步。这些器件在4V电压摆动下实现了仅20-50 fA的漏电流,导致约1.6 nm/pW的调谐效率——比热或载流子注入相移器提高了超过9个数量级。结构由位于III-V和Si材料之间的薄层(约15纳米)栅极氧化物组成,形成金属-氧化物-半导体电容器。单模波导尺寸为500纳米宽、300纳米高和170纳米刻蚀深度,而晶圆键合的III-V区域厚190纳米,由各种GaAs和AlGaAs层组成。当在MOSCAP上施加电场时,载流子在半导体-氧化物界面积累,改变光学模式的有效折射率,同时最小化自由载流子吸收损耗。: c; C" J% I) t' E) n
1jafgbyipsv64039221804.png
! ?: }- Z }2 k" L8 j- w8 n( d) J
图5:(a)异质III-V/Si MOSCAP相位调谐器的二维示意图,(b)模拟的TE光学模式,以及(c)GaAs/介电层/Si界面模式的TEM图像。
- c1 c0 q: y8 W6 E' \" t n$ E. E/ e- w# R% z! P% G0 E5 H0 A
比较马赫-曾德干涉仪(MZI)结构中的热相移器与MOSCAP相移器显示出功耗的巨大差异。对于约π的相移,热MZIs消耗约80 mW,而基于MOSCAP的MZIs仅需0.6 nW——相差超过1亿倍。MOSCAP MZIs保持高速能力,未优化设计实现4 Gbps调制,行波配置预计将超过50 Gbps。此外,基于MOSCAP的相移器避免了对相邻器件的热串扰,使更紧凑的集成和改进的系统稳定性成为可能。
# q; x% U3 ?5 d! k5 R1 v
, X) l% @% [, u% `# I基于电阻式随机存取存储器(ReRAM)技术的非易失性相移器为光子神经网络提供了另一项重大进步。这些忆阻相移器,在MZI和微环配置(记忆环谐振器)中都有演示,允许使用亚纳秒电压脉冲(低至4V)以超低开关能量(0.15 pJ)编程相移。记忆环谐振器由n-GaAs/Al?O?/p-Si半导体-绝缘体-半导体(SIS)结构组成,当施加适当电压时在氧化层内创建导电丝。这改变了波导中的载流子密度,通过等离子体色散效应修改有效折射率。实验演示表明,这些器件在1,000个开关周期内保持稳定运行,具有24小时保持时间和多个不同状态,使其非常适合存内光子计算。! t9 E- L! J2 }8 U/ F: Z6 s. _, t3 M
smcfhu5mnwl64039221904.png
* ?+ @. q; Z3 G3 o
图6:(a)记忆环谐振器的光学显微图像。(b)记忆环谐振器的示意图。(c)(d)说明III-V族材料与硅记忆环谐振器工作原理的示意图。(e) 记忆环谐振器在2×10?秒内每5分钟测量多种状态下的共振波长。(f)–(g) III-V族材料与硅忆阻光波导在高阻态(HRS)和低阻态(LRS)的示意图。(h) 经过1,000次连续开关周期后,记忆环谐振器在高阻态和低阻态的共振波长。(i) 电形成(绿色)、SET(橙色)和RESET(蓝色)操作的IV关系。(j) SET/RESET循环前后记忆环谐振器的光谱。9 {2 U+ L0 \7 c5 y$ u. @# }( y- f3 b
$ M9 {0 r! i1 T! {) H8 e+ a! F线性化环辅助MZI(RAMZI)解决了光子神经网络的另一个关键挑战:MZIs固有的正弦响应限制了权重精度。通过结合强超耦合微环(场耦合系数κ = 0.92)并在延迟臂中引入四分之一相移(θ = mπ + π/2),RAMZI实现了比传统MZIs更显著的线性响应。该设计将线性回归残差的标准偏差从传统MZIs的约0.043改善到RAMZIs的0.007,有效提高了位精度从4位到7位。这种改进对于光学神经网络中的高精度矩阵运算至为重要。) r0 x3 P! v) r* J2 S
, X3 y- t3 w" \: `
非线性激活函数:非线性激活函数是神经网络的基本组件,使其能够表示输入和输出之间的复杂关系。没有这些非线性,神经网络将仅限于线性变换,无论其深度如何。该平台提供了几种实现光学非线性激活函数的创新方法。
# `" c6 Y2 w3 w% m" ?
3 U+ @2 b. K0 [$ r高Q值微环谐振器辅助MZI结构在超低阈值功率下提供可重构的全光学非线性激活。该器件将高Q值微环谐振器(Q~154,000)与MZI结构相结合,其中自由载流子色散效应在环中积累非线性,然后由MZI转换为传输非线性。通过调整MZI一臂中的相移器,可以实现不同的激活函数,如截断响应、softplus、夹紧ReLU和径向基函数,激发阈值低至0.02 mW。实验演示在低于0.2 mW的功率水平下实现了四种不同的激活函数形状,与模拟预测紧密匹配。这些器件的可重构性允许根据特定神经网络任务定制激活函数。1 f2 A, |5 q6 |9 n% F0 j
a1kmzdy14kw64039222005.png
K2 t% V+ z- B) @1 ?+ B
图7:非线性激活功能实验,包括实验装置及测量结果。展示了可调激光源、光电元件的配置,量子点器件的显微图像,以及记忆环谐振器结构。图中呈现了微环谐振器和环辅助马赫-曾德干涉仪的非线性激活函数模拟结果,并展示了光功率与光电流及激光器输出关系,验证了量子点器件实现ReLU激活函数的能力。5 Q1 C! q. e& [& C' E# O' G
! D- x. n* X0 ^& n4 @/ q9 p- m量子点半导体光放大器(SOAs)通过增益饱和同时提供信号放大和非线性行为,具有双重作用。开发的SOAs特点是2微米宽硅波导与6微米宽III-V波导重叠,总长度为1600微米。这些器件实现了超过15 dB增益,噪声系数约7 dB,同时保持高达32.1 Gbps的数据速率下的信号完整性。这些放大器的增益饱和特性与神经网络中常用的sigmoid激活函数非常相似。放大光信号同时实现非线性的能力使其成为级联光学神经网络的理想选择,否则层间损耗将限制可扩展性。
( f- L6 m! N. d
no3mbgwtr5i64039222105.png
- x) A8 ^+ i2 ^7 w5 E$ u1 C
图8:(a)器件鸟瞰图和横截面示意图。(b)展示增益饱和并类似sigmoid函数的量子点SOA传递函数。
, n/ m6 C% ^2 S; A9 s( }* C3 Q- p# W$ ?# R* \' j! @; T
一种特别优雅的非线性激活方法涉及量子点微环激光器中的光注入播种。通过将特定波长的主激光器光导入微环激光器,在特定输入功率下可以激发次级模式。微环激光器的输出功率作为输入光功率的函数遵循类似sigmoid的曲线,在不需要与光电转换相关的能量成本(通常每次转换为0.1-1 pJ)的情况下高效实现激活函数。9 A8 h1 I0 v: }$ o5 _( o* k% B
! e" E" L. Q1 u对于光电子实现,量子点雪崩光电二极管和分布反馈激光器的组合创建了有效的ReLU激活函数。通过将光电二极管光功率的直流分量设置为匹配激光器阈值,该系统对阈值以下输入产生零输出,阈值以上输入产生线性输出。实验测量表明,ReLU行为紧密遵循数学函数,斜率由激光器的壁插效率决定(在演示器件中约为3%)。
) Y: x; B7 E; J2 U
% F. I4 d8 Z7 c# v) ?/ W高速调制器:对于在光子神经网络中编码输入向量,高速、高能效调制器是必不可少的组件。该平台提供基于III-V/Si异质集成和硅技术的先进调制器。
7 z4 g8 n' m. U, ^. v+ u/ H3 q9 U; t. y |) ?4 B9 v, J0 ?. x2 y. {, E
异质MOSCAP调制器实现高达28 Gb/s的数据速率,无需额外的III-V材料或超出用于激光器和光电探测器的制造步骤。这些微环谐振器调制器利用等离子体色散效应,响应施加电压移动共振波长。S21频率响应测量显示3-dB带宽在11-15 GHz之间,使用PRBS15模式在28 Gb/s下展示开放眼图。调制器保持5.7-7.9 dB之间的消光比,动态插入损耗仅为1.5-2 dB。通过在梳状光源输出处级联多个调制器,可以实现吞吐量超过1 Tb/s的发射器,同时保持小型占用面积。1 I3 E! N5 [1 ?% G1 r: W5 A
mw0pgach4p464039222206.png
- n- ~8 i2 f \3 H图9:(a)A、B和C器件的测量S21响应(实线曲线)与单极响应(虚线曲线作为参考)。(b)B器件在不同失谐条件下的S21响应测量。
6 V0 h3 @. Z3 \/ i, E% t) e( `
" [6 y9 ^8 d F9 w; ?$ m3 R具有Z形结构的硅损耗模式微环调制器代表了另一项重大进步。这些调制器通过实现Z形PN结结构,克服了带宽和调制效率之间的传统权衡。与传统侧向结设计相比,Z形MRM实现了约67%的调制效率改进(Vπ·L≈0.6 V·cm)和21%的带宽增强(超过48 GHz)。两段设计简化了驱动电子器件,使用两个简单NRZ驱动信号实现PAM4调制,无需电子数模转换器或均衡器。演示器件已实现200 Gb/s PAM4调制,MRMs的波长选择性特性允许密集波分复用应用,5通道阵列在单个总线波导上展示了1 Tb/s的聚合数据速率。0 R/ x. K9 Q5 j! H: K+ c" w7 V
s0wcp2fzzmo64039222306.png
7 a: Z. d2 i t3 i9 g8 ]1 q
图10:(a)硅微环调制器(MRM)显微图像。(b)Z形结构横截面。(c)传输光谱,(d)电光响应,以及(e)硅MRM的200 Gb/s PAM4眼图。
1 W. O. R- }. C( J
3 s; c6 e [, R Z6 h% c/ y9 U( w. w光电探测器:将光信号转换为电信号需要高效、高速光电探测器。该平台结合了几种先进的光电探测器技术,以满足光子神经网络的特定需求。; d( k3 M; L" }& Q0 c
; j z0 H) M. k, o! q( k硅/锗雪崩光电二极管(APDs)利用锗的窄带隙吸收电信波长光,同时利用硅的低超额噪声进行倍增增益。这种组合能够检测较低功率信号,同时降低激光器功率需求,从而减轻光学神经网络的功率预算限制。波导Si/Ge APDs已在标准配置以及带有背反射器(如分布式布拉格反射器(DBRs)和环形反射器(LRs))中开发。反射器设计在不影响APD的RC时间常数的情况下创建双路径吸收,保持高速性能同时增强量子效率。实验测量表明,带反射器的APDs在保持可比速度性能的同时,实现了响应度改进,从约0.75 A/W(标准设计)到0.98-1.12 A/W(反射器设计)。在32 Gb/s的比特错误率测量显示反射器辅助设计的灵敏度改进了1-2 dB,在BER为2.4×10??时实现了约-15.7 dBm的灵敏度。! U7 i" a5 a5 {8 `
3mm50iezveo64039222406.png
) n c& O9 O; q8 Z' C& J
图11:Si/Ge雪崩光电二极管(APD)的不同结构及性能特性:(a)展示无反射器(Normal)、分布式布拉格反射器(DBR)和环形反射器(LR)三种Si/Ge APD结构示意图;(b)模拟的光吸收剖面;(c)单位增益点下光电流与输入功率的关系测量结果;(d)脉冲响应特性;在32 Gbps NRZ信号下,分别在(e)-8V和(f)-10V偏置电压的比特错误率;(g)在-10V偏置下,环形反射器APD的40 Gbps NRZ和80 Gbps PAM4眼图,展示了高速数据传输能力。
. Z$ R% d g; L6 h0 j' S
X; }* ^) U8 n ]4 [: T全硅微环APDs与调制器共享相同结构,简化了与硅发射器的集成。这些器件通过共振增强、光子辅助隧穿和雪崩增益机制运行。演示器件在-7.34 V偏置下实现了30 A/W的响应度,暗电流低于200 nA,并且在稍高偏置(-7.36 V)下可达约65 A/W,增益带宽积为798 GHz。这些APDs已成功应用于20 Gbps NRZ数据检测系统。新型8通道双微环APD接收器设计有效缓解了带宽-响应度权衡,同时抑制串扰,实现0.4 A/W响应度、1 nA暗电流和40 GHz带宽,聚合数据速率为1.28 Tb/s。
- t1 }" c, g$ o' ]! W! x9 S3 U7 \
异质集成在硅上的量子点光电二极管由于量子点内三维载流子限制,表现出超低暗电流(在-1V时低至10 pA)。这种限制通过局部化电荷并最小化位错影响,增强了缺陷容忍度。高速测试已经证明最大3-dB带宽为20 GHz,增益带宽积高达585 GHz——硅上III-V族量子点APDs的记录。这些器件还显示出优秀的灵敏度(在10 Gb/s时为-11 dBm),使用与量子点梳状激光器相同的外延层制造,简化了制造过程。! ~1 j) [" a7 g! U" ^- }
wzirplkaq4264039222506.png
8 x: s2 z' z7 J# z. g+ S) W图12:量子点光电探测器的结构和性能。包括:(a)光电二极管的横截面示意图;(b)硅上量子点波导光电探测器的SEM横截面;(c)11×60μm2硅上量子点APD的暗电流随温度变化关系;(d)12×150μm2硅上量子点APD使用TE模式和TM模式的增益特性;(e)3×30μm2APD在-15V、-16V和-17V偏置下使用TE和TM模式测量的输出频率响应(虚线为平均数据);(f)3×30μm2APD在25Gb/s下增益为46.8时的眼图。这些结果展示了量子点APD的低暗电流、高增益和高速特性。
) @) M h8 t6 L# \3 I- h% |' E# u! `- ]
此外,基于InP的p-i-n二极管配合InGaAs吸收层提供紧凑、高性能的光电检测,具有低暗电流(10 nA),在1530纳米波长下内部响应度为1.18 A/W,电气带宽高达32 GHz。这些多样化的光电探测器技术为设计师提供了灵活性,以优化光子神经网络中特定功率、速度和灵敏度需求。! ~1 Z' k& E4 Q
# `# \. ]+ x2 `9 |* e40 _2 M) U: J/ L( }% ?, |0 q, R, S
高能效计算的光电子集成芯片
5 T5 R; e0 M* B' o: p张量化光学神经网络(TONN):传统光学神经网络面临可扩展性挑战,因为随着网络规模增加,组件数量呈二次方增长。张量化光学神经网络(TONN)架构通过利用张量列车分解压缩光学神经网络中次要参数来解决这一限制。/ Z% G3 F# ~" F: _
" t) m+ E' B5 q/ M# _& L' b3 @5 t& TTONN架构通过在波长和空间域中表示张量指数,然后与波长并行光子张量核阵列相乘来模拟张量积。这些核心可以使用多个自由光谱范围(multi-FSRs)微环交叉阵列或宽带MZI网格来实现。通过在波长域中通过波长分复用添加并行性,具有多波长的TONN(TONN-MWs)与单波长设计相比显著减少了所需的MZIs数量。
& _0 W( B$ c, D4 K0 q
figinoaq0hy64039222606.png
3 G5 v, x$ J( p+ ^* g
图13:张量化光学神经网络(TONN)架构。
9 v* M6 j9 T; U$ H, P7 O) [
/ T2 S9 a9 O: w6 X该架构提供了几个调谐旋钮以优化芯片布局,包括比例因子分解、TT级别和波长数量。通过折叠布局方案,2048×2048和4096×4096 TONNs可以适应单个DUV步进器裸片。所有所需器件——包括量子点梳状激光器、MOSCAP微环调制器、MOSCAP相移器和光电探测器——都可以在平台上异质集成,消除了离散芯片对准的耦合损耗。. p6 H8 _8 R- U% \, m! }9 |
3 r' V& B H; [, k' s
在MNIST手写数字分类任务上的模拟表明,TONN与传统光学神经网络相比,可以实现>95%的准确率,同时使用的MZIs减少了79倍,级联阶段减少了5.2倍。III-V/Si平台上TONNs的能效((MAC/J)·(MAC/s/mm2))约为其他光子平台的290倍,比最先进的数字电子技术高140倍。* w9 b3 n7 `% @2 l( j, n
" y$ @# |9 L, D; a" Y2 b, Y8 N; R% v2 B
最近的工作还开发了基于多FSR微环交叉阵列的TONN架构,用于波长并行操作。这些架构利用特定波长范围内微环谐振的周期性,在多个FSR上提供相似的权重值。对于四FSR 4×4 MOS微环交叉阵列的模拟结果显示16个几乎相同的权重曲线,具有27.8 dB消光比和-28 dB最差情况串扰,证明了有效的波长并行操作。
" B4 ?+ T. a* e( Q/ r
7 ]: j& ~, _. N/ q$ M9 ]基于阵列波导光栅路由器的神经网络:阵列波导光栅路由器(AWGRs)通过权重的无源广播提供了构建可扩展光子神经网络的另一种方法。系统从多波长梳状光源的功率分配开始,随后是助推半导体光放大器以补偿损耗。环形调制器实现权重,这些权重然后广播到环形APD阵列进行激活和检测。电子线路执行求和、损失计算、微分和最终激活,用于更新权重。# _- v* Q1 k' A4 N% ~
kuljvvxycf364039222706.png
( Z, p0 \8 P* t1 w+ P
图14:(a)制造的平带CWDM AWGs,(b)测量光谱。+ u# l0 Q) M& v. x8 R
' c W. d0 q2 Y# o通过AWGRs的无源广播,结合高速且能源高效的忆阻光子器件,与电子和传统光子实现相比显著提高了能源效率。能效分析表明,32×32 AWGR基光子张量核心可以实现0.14 pJ/MAC的能耗和10.24 TMAC/s的计算效率,使该架构成为下一代人工智能加速器的有竞争力解决方案。
( |: N% G0 S, s+ r2 t- F9 f" u
- E4 n% W" C8 t0 w6 t0 x9 TWDM光学三元内容寻址存储器:内容寻址存储器(CAM)提供专用高速搜索能力,可在单个时钟周期内检查其全部内容。波长分复用(WDM)光学三元CAMs(O-TCAMs)将这一概念扩展到光学领域,使用硅基光电子非易失性微环谐振器进行数据存储。5 w1 o1 ]9 {0 A( L: v# B) @
ix1jpak0p0j64039222806.png
: T5 o1 J" `$ m- m图15:WDM O-TCAM搜索引擎架构框图。数据位的存储和与搜索位的比较由硅基光电子微环执行。6 X. I8 A! _' S
: k* w1 r2 e" w* |
WDM O-TCAM搜索引擎通过将位级点积编码扩展到光学CAMs,执行搜索字和数据字之间的矩阵-矩阵乘法。在此方案中,波长编码位按照特定编码表组织成对,建立符号。搜索引擎由级联微环结构组成,这些结构过滤多路复用搜索位,当匹配线末端的光电探测器不接收光时发生匹配状态。4 M. `# i! e, u. L) I; T- @
" L3 V0 [/ \) K' i, k2 o
分析表明,使用非易失性微环谐振器而非热调谐MRRs大幅降低了能耗。对于16位字,基于加热器的调谐占总能耗的88%以上,使用NV-MRRs消除了这部分能耗。虽然某些电子CAMs报告了较低的能耗,但光学TCAMs可以在信号数据速率下运行,无需光电转换,解决了搜索操作中的延迟瓶颈。8 o% r9 A1 g$ M1 q Q+ U+ f( t
. S7 j% u2 r7 ^6 ~. u# u5
/ ~8 g. r+ ]- R未来挑战和展望
$ L* Y$ F8 [* r L大规模光子神经网络面临几个需要持续研究和开发的技术挑战:( E4 f( e6 d% I2 H: T" ]& x: K7 F a% X6 L
: |1 q$ J8 l1 l' L& y. q2 R- C
热管理是集成光子系统的重要问题。SOI基底中埋氧层的低热导率阻碍了有源器件的散热,特别是III-V/Si激光器。设计了通过BOX层将热量导向硅基底的热分流器来改善性能,模拟显示热减少4倍,热阻改善30-40%,使最大连续波激光温度提高超过35°C。
( W. U3 y! S$ L7 `2 v1 t5 c$ [# d
可扩展性对于光子神经网络仍然具有挑战性,目前在单个芯片上仅实现2-3层。半导体光放大器和激光器作为非线性激活函数可以增强层间信号,补偿线路损耗。此外,材料质量和制造均匀性显著影响器件性能和可靠性。MOSCAP相移器的高质量氧化物材料对低漏电流至关重要,可以通过硬件感知训练解决器件间变异性,调整权重而无需增加硬件复杂性。
1 ?& X& h ], \0 `3 G. ^+ Q4 ?7 z. |% L! e- f
系统级设计对实现完整光子人工智能加速器非常重要。虽然许多人工智能工作负载功能可以在III-V-on-SOI平台上实现,但实际实现可能仍是混合架构,光子组件与数字电子器件共同集成。此类系统的协同设计面临包括光学和电子组件之间的带宽不匹配以及来自光电转换的能源开销等挑战。
" Q9 l6 r( g8 l( t, P/ D
, D8 ~( K8 y; m已开发了周期精确系统级模拟工具,用于模拟所有加速器组件的计算速度和能源消耗。模拟显示,在以250 MOps/s运行的8×8光子张量核心中,光子组件(激光器、光电二极管、调制器)仅消耗总功率的约25%,数字外围设备消耗大部分。值得注意的是,使用ALUs在数字域中执行非线性激活函数消耗总功率的约22%,突显了转向使用片上III-V增益材料的全光激活函数的潜在能源节约。: B( u! E$ _# ]7 q, M) o3 `
% `4 G0 I; P# T6
5 i( J/ [' a/ i! y }! m结论# [% H0 \5 H6 F
异质III-V族与硅光子平台实现了在晶圆规模上集成所有高能效人工智能/机器学习加速器必要组件。通过利用光子技术的独特优势——包括并行处理能力、低功耗和高速操作——这种技术解决了现代人工智能系统日益增长的计算需求。9 y' h( J0 w! x; U" J
5 J& k" X E1 R
该平台提供高性能有源和无源器件,包括具有优秀温度稳定性的量子点激光器、纳瓦级功耗的超低功率相移器、用于存内计算的非易失性忆阻元件、可重构非线性激活函数以及具有卓越灵敏度的高速光电探测器。这些组件构成了TONN和基于AWGR的神经网络等先进架构的基本构建模块,与电子系统和传统光子方法相比,这些架构在能效和计算密度方面展示了显著改进。6 l4 k! f( F% E A) @
0 D7 |# y: |. y. r% v9 ]随着这些技术的成熟,在解决优化问题和执行数据中心及边缘各种人工智能工作负载等特定应用中将发挥越来越重要的作用。通过对热管理、可扩展性和系统级设计的持续研究,基于III-V族与硅平台的光子神经网络将为人工智能的下一代计算硬件做出显著贡献。+ K0 A% T* l! N: h* Q2 y
9 b {/ D0 w% ^8 M# I
参考文献( C* u% z! b: N5 }- b# ~) \% I% Z
[1] B. Tossoun et al., "Large-Scale Integrated Photonic Device Platform for Energy-Efficient AI/ML Accelerators," IEEE Journal of Selected Topics in Quantum Electronics, vol. 31, no. 3, pp. 8200326, May/June 2025.
6 k# C, r8 [5 VEND) j) i/ ^) k+ N8 W6 M2 U
软件试用申请欢迎光电子芯片研发人员申请试用PIC Studio,其中包含:代码绘版软件PhotoCAD,DRC软件pVerify,片上链路仿真软件pSim,光纤系统仿真软件pSim+等。更多新功能和新软件将于近期发布,敬请期待!
! D3 q# i% a" D3 c' J* s点击左下角"阅读原文"马上申请
6 U8 I; }$ Z+ i. U4 \# ~* U0 f0 L9 v! s2 c
欢迎转载
" d7 L$ ?5 H0 h# j5 _9 f- ?
) d4 O' e; t! s; w5 l转载请注明出处,请勿修改内容和删除作者信息!
% W% |0 n3 N1 j* m' j7 O7 }7 h8 j' o8 G+ i: v1 q
+ h! X, p2 Z9 L F- k
8 b0 X1 D4 Z2 U& }
b052yk2ft0g64039222907.gif
6 s7 z8 Y% Y3 f* B. x5 C5 `1 \: C( F6 G9 p5 j- i2 T( f
关注我们
1 L+ c1 ?9 F8 @' x6 l$ Y( g$ w7 C2 n) Q- {3 j
# X# m' r& Y1 T* q0 I
nmlzgzfsu5f64039223007.png
9 a, K: @: U% R |
: g' N6 P0 N- j/ ]8 {
45ou0red3ax64039223107.png
0 d$ l2 H+ p0 W9 W+ y5 l3 c5 P
|
% Z y ]' }9 B' ?- k+ }
cw2ivvtjlil64039223207.png
+ T9 [2 u/ U2 c; ?- e2 d+ L | 7 w) ^, i. g$ T8 U
( G& N) P2 ^" f. \0 }5 @, l
( B" m# w3 t u' J" X" v3 V, Z: T* i
关于我们:
+ x# l6 S0 e1 a$ b" w: c深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。2 \/ f( Q# P: R: [8 G: @
C& i$ r; l# G R; i0 @: Y9 Z
http://www.latitudeda.com/1 t4 d! `- W) ?9 |9 T
(点击上方名片关注我们,发现更多精彩内容) |
|