|
引言( h0 h7 l7 H, b5 P K8 U7 H0 ~
+ q0 J2 n' r- `随着人工智能技术的快速发展,计算能力需求显著增长,尤其在边缘计算设备的实时处理需求方面。本文探讨异构计算平台的发展历程,着重分析骁龙平台在高效能人工智能处理领域的技术创新[1]。# M5 Z" M1 H9 Q; Y% D
cud05e1zasl640346214.png
; S* j& w' A6 K* q! \人工智能计算需求的演进
' s4 E9 W) X* P5 o1 b
* {" H0 v, h: C" U2 ~+ a
r1cz2bk32zl640346315.png
" Q8 |; E) @$ z
图1展示实时推理需求(TOPS)与人工智能模型参数数量的关系,显示处理200亿参数需要约100 TOPS的算力。: l8 i- ?; b/ o. {; ?
- h( z9 C; Q8 ^在当前阶段,设备端人工智能处理每十亿参数需要1到10 TOPS(每秒万亿次运算)的计算能力。随着模型复杂度提升,边缘设备预计需要高达100 TOPS的运算能力,用于支持不超过200亿参数的模型规模。
( m$ O7 E# i' Y& u* c3 h2 b
rdj245fexes640346415.png
( e2 R9 o& w7 `- Q# v7 m% ]0 w图2呈现自2011年以来,边缘计算在实时推理方面的性能需求增长了500倍,这种增长主要源于各类人工智能应用场景。
$ e4 K& u+ i/ t$ O4 [2 q: x1 f0 D, i6 ?8 R X, _
这种算力需求的显著提升主要来自几个关键应用领域:9 |' r3 ]7 B S L+ f" { t
自然语言处理图像生成语音识别图像分类! p+ k& M, D0 s. h2 T- i3 D
异构计算架构的发展3 S6 X) J* p3 \7 C6 R$ @) T
: I) q% V! X+ b/ T; Q0 d3 B, t
a4gjckc11gj640346515.png
, R& @4 t) R+ i; X8 T8 z% I2 q
图3展示骁龙SoC中CPU、GPU和NPU三种不同人工智能引擎的计算性能演进历程。
9 t$ c# R2 M2 f
9 P* g9 N: X( ~! ^移动计算平台经历了重要的技术迭代:从早期的通用CPU,发展到专用GPU,再到2018年引入的NPU(神经网络处理单元)。这个演进过程带来了显著的性能提升:( f0 @; R& {6 s
CPU到GPU的转变实现了10倍能效提升GPU到NPU的升级带来额外10-20倍效率提升8 V2 P8 r) t( _& ~ @9 y
; v+ [( U- h: }, u
gixgptkz3lx640346615.png
]% `1 u: l7 ?* d图4描述设备端人工智能引擎的能效发展趋势,以及边缘人工智能不断提升的能效需求。 h& X( B- j9 h0 q+ t
$ Q- E# k+ @! Z1 r9 V
0jkaxf1m1zy640346715.png
' L- g# O# d& Q2 t" X$ D9 ?
图5展现2007年至2024年期间,计算应用多样化与并发执行需求的增长。
; l* m9 u! e$ K( s7 J技术创新与系统优化: ^0 X2 o6 a; m7 B( W5 G5 a
1 Q- e( h, W6 b% |) e4 i0 q
22gmuukurxx640346816.png
& D4 H6 i# x6 Q I% J1 u图6显示骁龙SoC的完整架构,包含NPU、GPU、CPU和传感器集线器等核心模块。
8 T7 s. L' g% W( ]3 ?8 x9 d1 d* Q5 t5 t
在提升人工智能处理效率方面,现代移动平台采用了多项创新技术:
: n( q$ M7 y1 A+ t1. Microtile推理技术:将神经网络分割成多个独立执行单元,减少内存访问,提高处理器利用率。2 k% J) ^( j# \: u5 I
gcfe2kreszq640346916.png
& G( `# p, }, ]0 }" t
图7展示技术进步过程中器件电容和漏电流的缩放趋势。/ t+ U7 m! c9 d* h: l9 m: r
1 E/ @& J. J! ?9 \" {' O. ^
2. 处理单元直接互联:减少对系统内存依赖,提供更高带宽和更低延迟。
M; N; i) J+ z f, I
yegtza3om4v640347016.png
% u) N* E$ M: I7 ~
图8展示不同PVT条件下,采用各种阈值电压、结区和沟道微调工艺的器件性能权衡。 q+ W. `# v# A) W
性能突破与能效优化
' W6 _2 Y0 ^+ J# Q$ ], P* \# K# V' w0 X! U6 ^
bvm04fbuz3i640347116.png
6 y% O/ M# G( c' G' z图9对比骁龙8 Elite CPU与骁龙8 Gen 3的性能,显示在相同性能水平下可降低44%功耗,或提供45%性能提升。 V6 h4 b I$ e; \" l8 ]
) [$ Q) e" H+ k* C `2 o) c/ @$ ~
最新的骁龙8 Elite平台展现了显著的性能进步:4 N' X x" Y$ s% C7 D! G {3 P
gbm2l4m25o0640347216.png
% m) l; C4 K" h, T) h图10展示骁龙8 Elite CPU在Geekbench 6测试中,单核和多核性能较上代提升约45%。
% {1 m8 d6 W( v, @$ X( {' F/ A0 L# l! Q3 m1 z2 r. _) m- W( z
5d4oqvvh1gw640347316.png
1 V) m5 X7 I4 d图11呈现骁龙8 Elite NPU的计算性能提升45%,同时内存带宽提高超过10%。
: Q" u5 i" `* b- }6 F- T
4 H- E8 P( c' p- K. H0 L2 ^; N
xtosq00naq4640347416.png
% e% {; q' ^9 |/ m图12对比AITuTu评分与NPU理论TOPS,显示实际人工智能处理性能较同等理论算力的竞品高出7倍。
9 r, q3 j$ Q) {* r6 L技术挑战与未来方向
) _. C/ v4 {6 H8 l- F0 X1 h* e; l- n% _* S& L( Y) _' o
zxka4u3qxvc640347516.png
6 q6 H# H: K7 ^2 G, G$ P
图13描述10nm至1.4nm技术节点间的等成本电池续航时间、性能和功耗变化趋势。
2 K/ V* `, g6 f( \% z" J% \' W4 `7 f" p- r/ Z8 |' p
目前面临的主要挑战包括:: e$ ?" t9 ]6 a/ T. }9 g( N
1. 功耗性能成本效率:等设计电池续航时间等成本(BLaC)指标在5nm节点达到最优后开始下降,原因是硅成本上升和每瓦特性能提升放缓。# k" L% i+ T) @5 X& @. p2 F, ?
xaeycpewe1u640347617.png
/ n- t+ ^8 N5 I1 ~, \图14分析标准内存方案(DDR、LPDDR、GDDR、HBM等)的带宽成本关系。
: _8 R/ T- N- y6 i8 G' P' ~
$ ]( A; ~1 K5 e4 ?, R# g! ? K6 v2. 内存带宽与成本平衡:生成式人工智能等应用需要高带宽内存,但现有内存方案在高带宽时成本急剧上升,不利于边缘计算部署。
* \* e# M/ |4 A; |6 |3 s) k
, O9 W& A) R: Z) O$ d这些挑战需要在逻辑和内存chiplet的异构集成方面持续创新,通过先进架构设计和封装技术寻求解决方案。
+ v p( u5 q$ o; A' V参考文献
+ U, r5 M3 \5 g8 P
+ l1 a, C0 J# d1 }# Q& ~5 T1 p[1] J. Deng, J. Yuan, Q. Liang, C.-H. Wu, F. Yang, Y. Suh, R. Chaba, J.-F. Vidon, R. Denduluri, G. Nallapati and P. R. C. Chidambaram, "Heterogeneous Computing Platform for Power-Performance Efficient On-Device AI," in 2024 IEEE International Electron Devices Meeting (IEDM), 2024.
1 [& _# z' C/ f2 h6 o1 ~END
; l: f- c1 R2 q1 J
! f y: N+ t; @6 a# I软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。& |+ w, L+ B, A0 o' g5 u
点击左下角"阅读原文"马上申请
9 q% @* U, u5 c3 n" n+ a
/ [0 y( |9 a. Z( n' b6 a7 l: J+ x欢迎转载4 e: }( b8 v; S6 C* w; M, p7 l
; F! S9 P1 R7 ~) ?. F3 w转载请注明出处,请勿修改内容和删除作者信息!
% {/ v; i6 |% m: Y+ R/ Z
1 l7 C+ {9 a+ ?& B
* i. {" x5 Z8 t, H' g9 d+ W2 g0 Q+ ^5 n
axgvamt54fw640347717.gif
7 E8 L, T n2 q& K. V* m
9 y7 x+ k/ D+ j7 f关注我们, |; U* }: _ Z j
; u4 L/ \9 u! c6 [* B* P# z Z, P' u! F1 u
ru325gfz1bw640347817.png
: e$ _' O8 l" J1 S+ Y0 B. | | / W7 u& e+ B9 B2 Y+ i; m# ]
mqs0u5ogke3640347917.png
6 M- M1 _$ n" q' A( q& N, V$ `1 [' E/ v
| 0 w' g) Z5 Q& ?, ]) Q. M( n
vtzrilusgpl640348017.png
# t- m4 H' J3 Q9 g: L- n- |5 |
|
0 d, b U$ C6 K# _
, Y) w0 L! v- c) {. ~
p3 j0 O; S- C) g, o* Z K
) [9 h- f' q/ q: u/ {关于我们:
, E3 M3 c* `* ~" p" _ x深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
0 g& I, {( {- ~) [
9 s* w( u2 v; s+ Z0 F7 Rhttp://www.latitudeda.com/
: Z9 r/ y1 P# |/ Z, L) C4 e(点击上方名片关注我们,发现更多精彩内容) |
|