电子产业一站式赋能平台

PCB联盟网

搜索
查看: 52|回复: 0
收起左侧

IEDM2024 | GPU人工智能芯片的全面优化

[复制链接]

1073

主题

1073

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11353
发表于 2025-4-20 08:04:00 | 显示全部楼层 |阅读模式
引言* ?0 ?/ p! a/ a" y+ }9 e5 m
, b3 o) N4 b" n. @3 A" a
近年来,GPU人工智能运算的发展速度已经远超传统摩尔定律的扩展速度。在传统芯片遇到多重扩展挑战的同时,GPU人工智能计算性能展现出显著增长,在过去十年中提升了约1000倍。这种显著的进步源于技术、芯片设计、系统架构和算法等多个领域的系统性优化。
. j- V) V+ F2 G+ T: d" K$ s

4j1en5ck1th64027810740.png

4j1en5ck1th64027810740.png
- v2 R1 K+ A) ^. h6 w" x" V: E
/ x/ n+ D' e9 J) n% S) [
让我们首先观察图1和图2,这两张图展示了扩展趋势的显著对比。4 E" v; ^# Z% E4 ^4 G

vgf1t0gtwmp64027810840.png

vgf1t0gtwmp64027810840.png
8 ]* u, q% Z; M
图1:传统CPU扩展速度放缓
, M! N' z6 W! S- w5 R/ Z% I) z# q$ O+ l! m" Z9 D( A

h2pqrdswgm264027810940.png

h2pqrdswgm264027810940.png

! |; x& w# D4 j图2:CPU与GPU人工智能性能快速增长的对比,突出显示了GPU技术通过全面优化策略超越了摩尔定律的扩展速度。" v8 h  p, E' L9 B8 p& m& s
GPU架构与性能的演进5 }& K! ^2 m* ?% Z' l! ^! O
9 m7 {( f5 g& Z0 [, C' M
B200是目前世界上最大和性能最强的GPU高性能计算和人工智能芯片,代表了GPU技术的最新进展。这款技术产品由两个并排放置在硅中介层上的GPU芯片组成,通过金属互连实现连接。每个GPU die采用台积电定制的4NP技术制造,面积达790.5平方毫米,包含2080亿个晶体管。1 y0 Z& o% ]8 `& _8 v( r

cs0ezwhqnt164027811040.png

cs0ezwhqnt164027811040.png

8 w* W5 @: m6 B1 b6 ]图3展示了B200 GPU高性能计算/人工智能芯片,并与其前代产品H200进行了详细对比,显示了多个性能指标的显著提升。
7 P3 i. K( L$ d* Y& p; Z5 t5 v# h; k' i) m8 |8 Q0 v
B200的架构包含多项创新特性,包括能够处理低至FP4精度格式的第二代转换器核心。与192GB HBM3E内存的集成实现了8TB/s的带宽,在1000W功耗下提供20PFlop FP4稀疏张量性能。
* b" t9 T+ s* O! t

4f5k0ykpf0e64027811140.png

4f5k0ykpf0e64027811140.png

, \8 B8 q& U* s' W+ n6 V图4展示了GPU集群的线性扩展能力3 T7 ~8 s4 p: X0 z$ s8 [

9 e4 h( v0 ~' z4 `9 F& ?

n5plvl2mqye64027811240.png

n5plvl2mqye64027811240.png
& }0 @1 H6 d& t
图5说明了稀疏矩阵计算如何实现2倍速度提升,展示了现代GPU架构的效率。
$ Y; I1 L/ e+ b能源效率与计算优化( X3 ]; m6 A) Q6 x( t: P2 h
: j  R) V' X) g4 g, y* Q
能源效率是现代GPU设计中的核心考虑因素。各种优化技术的实施带来了功耗和计算效率的显著提升。
9 K& X/ V. w* Q2 [" h

gdz3yvwojd264027811340.png

gdz3yvwojd264027811340.png
6 b, K& w1 }6 G& O$ C5 }
图6详细说明了各种计算功能的能源消耗& f$ ~$ n2 `7 }& `0 ]) c
% r( ^( s3 m1 X% O2 v2 _

rjob24my4mo64027811440.png

rjob24my4mo64027811440.png
2 a) C( u5 `& _# x2 _0 p+ g
图7全面对比了从45nm到5nm技术节点的运算成本,包括功耗和芯片面积。; c3 D  M9 f3 [" `
4 {+ o7 j, Y! X% l4 r/ c
张量核心的引入彻底改变了计算效率,与普通运算相比提供了1.5-4倍的功率效率。在使用混合精度计算时,这种提升更为显著。3 _7 @+ r2 k. x9 D4 x, d

eh15kz2me3b64027811540.png

eh15kz2me3b64027811540.png
2 o1 q4 X8 |/ X" i
图8显示了张量核心如何实现优于普通运算的功率效率
1 t# }2 w) q7 Y
2 b+ [* n. H( l# @/ Z

c1uiein41mu64027811640.png

c1uiein41mu64027811640.png
' c) ]* X) F' Q, F
图9展示了使用FP16张量核心配合迭代优化方法时在性能和每瓦性能方面的显著提升。
; a0 {* }, N2 I# P8 w内存与系统集成的进展, q/ D% ^0 @) U& b1 H" F5 J

! O6 _2 H# k  w随着人工智能加速发展,内存容量在人工智能计算中变得越来越重要,GPU内存容量也随之大幅增长。这种增长对支持大型语言模型和其他复杂人工智能应用非常重要。
  r3 @' ~9 q3 k& r7 e- S+ p, G

3jp3ufo0hkd64027811740.png

3jp3ufo0hkd64027811740.png
+ R0 L; H3 x1 j1 s' b3 K. A
图10描绘了GPU内存容量随时间呈指数增长的趋势。1 r0 J/ M$ `4 y6 a7 l9 a3 k
5 q# B" g' R: K, h* u: M  j

rhdfmd1cxrk64027811840.png

rhdfmd1cxrk64027811840.png
1 _# k6 g, |" e
图11展示了混合增益单元技术如何在保持相近速度的同时实现比HD SRAM高3倍的密度。
; l% w+ b: a' f) D1 d新兴技术与发展方向$ R1 _3 _1 f/ v$ X5 |
5 v% M1 X8 v, W
业界持续探索提升GPU性能和效率的创新解决方案。先进封装技术和新型互连解决方案正在成为未来性能扩展的关键推动力。7 b. a& f5 P4 ~

firjf3o2bn564027811940.png

firjf3o2bn564027811940.png

  N5 A0 x% Y4 |( n图12展示了具有36芯片MCM设计的RC18加速器。
. D3 K" `  o# Y7 G6 M
2 Z* N% o# ]% ?* N# _! J" w. Q

ndav3dhztyy64027812041.png

ndav3dhztyy64027812041.png

4 {, [  e* s7 ^9 }* m0 }图13展示了用于远程信号传输的光电共封装。% h0 M8 c$ }" e2 i. i
8 a. y- T4 ~( X6 }! H- \) e

zpmgrdcod0464027812141.png

zpmgrdcod0464027812141.png

% G% a+ R: G8 _$ {# K" Q! v/ [9 n图14说明了下一代互连的光电子引擎架构。
& t$ [( t" W3 _& J! L) W
3 ^7 ]3 r; v* J" H通过这种从基础技术开发到系统级集成和算法改进的全面优化方法,GPU人工智能计算继续保持快速发展。这些创新的结合实现了黄氏定律,在保持功率效率和可靠性的同时,每年实现性能翻倍。0 d: R" K* I2 N& v, R3 d4 x
( W5 G" {6 {! n- g; R% h0 T
随着内存、互连和封装解决方案等新技术的不断发展,GPU人工智能计算将继续提升性能水平。跨多个领域的全面优化原则将持续推动这种显著的增长。
, ]  [5 x; s) b# q8 n  a1 k参考文献, w0 i0 ~9 ?1 Q9 N- i( D

! a# F! F" G4 O# Y5 {[1] J. R. Hu et al., "Co-Optimization of GPU AI Chip From Technology, Design, System and Algorithms," in 2024 IEEE International Electron Devices Meeting (IEDM), San Francisco, CA, USA, 2024.% {# V& I& C6 z: U
END; k+ D& N/ ^1 |* _$ {  l/ {9 D- T6 s
软件试用申请欢迎光电子芯片研发人员申请试用PIC Studio,其中包含:代码绘版软件PhotoCAD,DRC软件pVerify,片上链路仿真软件pSim,光纤系统仿真软件pSim+等。更多新功能和新软件将于近期发布,敬请期待!
& q8 a+ s# |) B( ?点击左下角"阅读原文"马上申请
' T( Z# b* K& S9 H: F" y8 {8 g" t5 {& L& C9 p1 s& v6 z
欢迎转载6 p+ I, m( @! W) x# L5 O
; r# k, q# }  q' T
转载请注明出处,请勿修改内容和删除作者信息!7 B, x: @, c0 O/ Z1 Z/ {

; o# J3 {/ g9 E) ~% X* \
% J+ M+ @3 @* U

6 E- m+ g& z2 ]  V# e

0qq4sr5rizi64027812241.gif

0qq4sr5rizi64027812241.gif
/ Y+ J0 A0 J& ?5 u1 S" M. R' L

" d- s6 n# W" j1 I. I. s" d1 g关注我们
" R4 I5 m0 _7 n- `$ V# G7 u- \* l3 k/ T" b/ @* f) T1 L

. f6 {! C" y! r( t% r$ q! ]

x3sp2135ewn64027812341.png

x3sp2135ewn64027812341.png

, ^3 k3 _% o3 `7 l. z# ]

# \+ y6 e' d0 k8 Y, R, `

jzyrwrhcr3h64027812441.png

jzyrwrhcr3h64027812441.png

% {  m/ D! y  {5 h1 s
5 M: l- `0 N* ]/ j  P/ g5 q

3vpavawwlvp64027812541.png

3vpavawwlvp64027812541.png
* I  P$ y7 F% T
                     
  }$ W  M6 C% b2 y! X9 u- @% O  D) e) _: }
, D) v* ]+ e# ]0 X
4 }/ s$ _6 q+ M1 h
关于我们:
, \+ ?8 a2 o3 v% v! _  h4 g深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
; h2 b* m& H* M2 r" D- [/ y# `4 F6 h+ K$ B3 U5 b
http://www.latitudeda.com/
5 k! C7 s1 L9 i8 g5 j( e/ H(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表