|

引言% m& J8 e& [3 |+ i
随着现代计算系统中数据量的快速增长,确保能源高效和容错处理变得越来越具有挑战性。近似计算作为有前途的解决方案应运而生,通过牺牲一些计算精度来换取更高的能源效率。本文探讨了如何将近似计算技术应用于硅基光电子片上网络(PNoCs),以降低能耗同时保持特定应用的可接受输出质量。
4 ]& E4 Z* L- I+ t F h! t1 A) H$ V& ]% d; ~0 e' r
背景
% A2 I, A' b4 X6 q; `! R- W1 R; uPNoCs利用在片上波导中传播的光信号,实现处理器核心之间的高带宽、低延迟通信。然而,光信号在传播过程中会遭受各种损耗,需要高功率激光器来确保目标端能够无误地恢复数据。这种高激光功率需求是PNoCs整体功耗的主要来源之一。
7 R2 U) L- }2 _+ V4 ?$ g6 ]
7 H: I$ M& G% S& a4 {2 U浮点数据表示遵循IEEE-754标准,由三部分组成:符号位、指数位和尾数位。相比符号位和指数位,尾数位通常对近似计算更具韧性。
; \+ _; S" Z( h% }! v1 ?1 ]8 m- R/ ?# H
qrh0mmugeky64034875601.png
2 p+ C! M* e" c& o# {7 f' H图1:IEEE 754浮点数表示格式% N, k! D, }( E9 Q% M" h
" i, N" c& r6 }% \$ r& M% k$ o- E
LORAX框架
% Y, W# h* J- P5 {+ z! \; }5 X本文重点介绍LORAX(LOss-awaRe ApproXimation,损耗感知近似)框架,通过智能近似浮点数据传输来降低PNoCs中的激光功耗。
, F8 @ P4 [. k+ b$ M- `% e' s I1 L3 C- j
LORAX的核心思想包括:基于信号传播距离的自适应激光功率管理应用特定的近似级别调整集成多级信号技术# K6 d4 N6 K+ \9 [: O
[/ol]; R9 b( L1 r# {9 e- u6 H$ a
损耗感知激光功率管理# H; o. z6 ^$ D
LORAX采用损耗感知方法在运行时调整激光功率。对于波导上的每次通信,根据源端和目标端之间的距离计算信号遭受的损耗。3 E$ M& H# [: z+ T4 m1 n6 K
/ d7 x9 y, f" X3 s1 t' l这使LORAX能够确定:信号是否可以在降低激光功率的情况下准确恢复信号是否应该被截断以节省能源. k1 H6 y% _ `/ K9 ?
[/ol]7 \. f7 i5 W; s- K
& C9 y# e7 z3 E% @
0dfhs3ealaf64034875701.png
* E; _$ A5 L* j1 o! B# X
图2:提出的LORAX框架概述
2 V9 R0 n; E `2 E7 S8 E
# E3 I1 o7 ]/ @& ]; H5 a$ A, Z该框架使用垂直腔表面发射激光器(VCSELs)组成的片上激光器阵列,可通过片上激光驱动器动态控制。网关接口(GWI)连接电子层和PNoC,并将期望的激光功率强度级别传递给驱动器。
/ f$ r, y/ M3 s/ Q% u1 O) ~
" ?9 w8 x" z7 \' D5 z7 v' i" V! jLORAX要求每个源节点知道:. g8 ~: S" V- O6 ~5 k7 Q7 `
何时在截断和降低激光功率之间切换数据包是否包含可近似数据
' M/ \& H+ T8 U
9 o+ F8 b6 d$ L; U% P6 u/ {$ r这通过以下方式实现:
2 X) A+ i5 B$ Y( S% C, S源代码注释生成可近似数据的标志每个GWI中的查找表,包含到目标的损耗值
$ ^3 U8 L1 c5 Y/ {8 u, B! X, J" ~5 S& |% {6 O7 A
集成多级信号技术1 @8 y' \- r J; t# j; c! i
LORAX还探索了多级信号技术的使用,特别是4级脉冲幅度调制(PAM4),作为传统开关键控(OOK)调制的替代方案。PAM4允许每次调制传输2位,可能增加带宽和能源效率。然而,由于多个信号级别彼此接近,因此更容易出现比特错误。0 ]3 `; }, T- Q6 }. ~
$ |0 Q, F8 J y4 @- I; L& F/ l
i1jx2pdw5yh64034875802.png
# G$ W* h3 O. r8 E
图3:LSB信号:(a)截断,(b)降低激光功率7 C3 F+ N1 k- i8 E% y) C' @4 s
6 `- `: ~) U1 _( u2 I. F
实验设置和结果! r7 q ^. b4 j% l( u \1 `
LORAX框架在具有64个核心的Clos PNoC架构上进行了评估。模拟使用gem5进行全系统模拟,并使用基于Systemc的周期精确模拟器对PNoC进行模拟。& ^4 u2 S4 k: _" e/ D- ~+ J0 o
0 o* k: l0 ^% j2 l, G$ t2 N7 z) J1 o
2p25aaae00v64034875902.png
/ J7 J! i# ^/ S% Q) p" K0 O' \
图4:具有64个核心的8路3阶段Clos架构+ s) m5 a9 K! z& T3 e
& z, [6 w) A; \7 u# K" t8 }应用特定近似敏感性分析
0 [- [( p; Y' {. A z$ X对各种应用程序进行了全面研究,分析了浮点数据近似对其敏感性。
$ X) L7 q3 i7 m: E9 V
4 k$ m8 l2 K8 B+ W这涉及变化:近似的最低有效位(LSBs)数量LSB信号的激光功率降低程度% y: j2 k7 G$ {3 [
[/ol]) H: o% @8 f6 J! Y, J" F- F3 p
3 Y2 A" Q+ D, q2 Q
d2qqlugmsls64034876002.png
+ x4 F+ @) ~4 ^$ R: ~4 j
图5:blackscholes、canneal、fft、jpeg、sobel和streamcluster基准测试在大输入工作负载下,应用程序输出百分比误差(PE)作为近似LSB信号数量和LSB信号激光功率降低的函数
) q T' w# t' @ E J& r
/ K; R) d6 L! d! ? n4 \: ]5 W- s这项分析的结果用于确定LORAX的应用特定激光功率强度控制设置。表1总结了每个应用程序的最佳可近似位组合和激光功率传输水平,确保输出误差不超过10%。
: }8 h$ N2 [- n5 C: u
2 F$ w5 @2 E# o+ d
ogjfv3j511z64034876102.png
; a/ Q D, Z; C5 `- |9 }表1
/ P4 p2 W" v% C5 ?! @% |$ ~( v6 M8 A% G, J. r! ~
比较结果7 m5 Z! j Q; }! o/ E5 D+ ~8 z' K
LORAX框架与以下方法进行了比较:9 B9 K- a2 N1 P/ u. {/ o6 Z1 l
1. 无近似的基准Clos PNoC
$ ]; s |' S* I) m& O' _2. 文献中现有的近似框架
. \; s t! m9 X# @' L3. 静态截断方法
0 {7 O. d2 W$ V4 O$ i' W3 i, m* n) G- h: H: v5 ]+ y+ O# C
评估了LORAX的两种变体:
. N5 O& f5 {8 @/ J1. LORAX-OOK:使用传统开关键控调制! } R' \- z6 E/ p0 O7 @* ^. G9 f
2. LORAX-PAM4:使用4级脉冲幅度调制
+ v+ I" Q& K! I e; r& [+ @) k J/ Q7 n, Y% |) \* v# Z
1tubhacbjrg64034876202.png
2 R$ c6 P- {0 |: _+ w
图6:(a)各框架能量每比特(EPB)比较,(b)各框架激光功率比较
% n+ @* o2 n: \. h' t, [) c ?- W/ V8 z- ^
主要发现:" c8 o( z m0 ~! _% e- g
1. 能量每比特(EPB)降低:; l6 H& ?6 w" d3 n1 j# B8 n2 z' ^
LORAX-PAM4:比基准Clos低13.01%LORAX-OOK:比基准Clos低2.5%5 V5 A7 U1 k; B0 ?1 C- E! n B
( {) q! B4 n1 e6 n
2. 激光功率降低:( G& d- W7 q+ Z, O% ~4 i
LORAX-PAM4:比基准Clos低34.17%LORAX-OOK:比基准Clos低12.2%
7 a& w: |& H! z' S) t4 }- s
v! o$ d% t8 H( t9 B3. 最佳情况(Blackscholes和FFT应用):
) Y2 p( P0 z" h6 W+ {5 NLORAX-PAM4:激光功率比基准Clos低达39.7%/ C1 v' D4 q5 k$ ~: g- l: {% W {
: @2 M& u t2 B* y1 Y8 J X6 M6 w
结论
% u" v& P: d o) A" A0 v7 m, a- A( gLORAX框架展示了通过智能近似浮点数据传输在PNoCs中实现显著能源和激光功率节省的潜力。
) X+ d, b; ~; Y5 s) ^8 E
6 X5 M9 q" K1 ~主要要点包括:损耗感知激光功率管理允许基于信号传播距离进行自适应近似。应用特定近似级别调整对于保持可接受的输出质量非常重要。集成多级信号技术(如PAM4)可进一步提高能源效率,尽管增加了复杂性和易出错性。必须针对每个应用程序仔细考虑能源节省和输出精度之间的权衡。$ @- k7 Q# n7 G3 `- ]
[/ol]6 ]1 b5 |- R0 o1 a: S) f* q
未来研究方向可能包括:探索更先进的多级信号技术开发自动化工具以确定最佳近似设置研究LORAX对其他类型PNoC架构的适用性扩展框架以支持浮点数据以外其他数据类型的近似
$ x$ r- C8 f* \1 {[/ol] G6 n s$ \: t
通过利用像LORAX这样的近似技术,设计者可能克服未来高性能计算系统中使用硅基光电子互连的一些能源效率挑战。
+ v2 T7 j8 z- ^& t8 o
0 _( d- _3 u, f" ?/ y8 `7 `, K参考文献" C% z0 g6 C" z5 ]9 A
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
( X. w& v( j2 B$ ~; E9 _
1 x- A( O1 K' X2 p- f- END -9 n( v$ e+ h! \/ `
" {) Q" M) B' S
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
1 k1 N2 G; {# `$ c' i l点击左下角"阅读原文"马上申请
( E6 e( \# L/ ~/ g: a0 D* z
2 X1 p5 P5 |) _9 r% j6 t- K8 H# u欢迎转载
/ ?- ~# \6 o, `/ [3 Z9 e p+ g9 z9 o% h, X$ J8 C
转载请注明出处,请勿修改内容和删除作者信息!6 E% V/ U5 i( z' P" ]+ o
! `( M4 h% O; i8 K1 ?3 }, T$ u! x2 [* B, P8 U
6 q5 W" E* I! f3 h
yrzy5ssllfe64034876302.gif
3 _% `- r* X/ M/ ~- y
1 N5 d5 r$ V8 ]7 L
关注我们
* i; M* q% W# l5 s1 [+ z+ y
& i: r! S" [% `6 F1 D2 `5 G$ D0 _7 U# S1 q2 U& M1 E
gpnpcxalkom64034876402.png
# ?3 W6 n3 u) ^ N. H | 8 m7 ]4 d& e6 M) @) D* B) K: w
s4flhcb3paa64034876502.png
: X; Q1 U: k$ }# U- C | 0 d1 Q. g9 k/ E2 K
wocwyzpxlrr64034876602.png
6 s1 \2 Z2 X( n$ N- [8 [
| ' c* u% f, r) u, y
`6 T. W+ e2 d9 W# {
: R1 E6 _, j3 f5 ~- K! G
3 i8 s( F1 h! I; b N
+ C. z* s+ P3 Q, @* I5 `
# D" P9 A& z' S) p
& g) n/ I: E4 a1 E3 |+ s8 s关于我们:
4 P: v! X- o2 ?( g0 X) s深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。# n% {5 i4 O& i" ^4 K6 |2 G
- A; [' R) Z+ S* q. x+ t7 D( s9 C
http://www.latitudeda.com/9 ~/ o/ u4 M2 r' |
(点击上方名片关注我们,发现更多精彩内容) |
|