电子产业一站式赋能平台

PCB联盟网

搜索
查看: 240|回复: 0
收起左侧

Hot Chips 2024 | 大语言模型时代的可持续AI计算解决方案

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-10-24 08:00:00 | 显示全部楼层 |阅读模式
引言
# H0 x3 }; |4 Z: [- K在人工智能领域快速发展的今天,对高效且强大的计算解决方案的需求前所未有地高涨。本文FuriosaAI开发的RNGD张量收缩处理器,这是突破性技术,旨在应对大语言模型(LLMs)和生成式AI时代的可持续AI计算挑战。
4 y' U3 j9 _/ ]1 n- D$ e' k

yawrfnvugic64042710159.png

yawrfnvugic64042710159.png

! Y. n# A$ Y- c9 R, r( \% e图1:显示FuriosaAI成立、RNGD开发里程碑和首次LLM演示的时间线。
4 S" c0 Z# f+ E& O3 A0 K
3 z. C/ e! L3 c3 I, Z1 iRNGD处理器代表了AI加速技术的重大进步。FuriosaAI的使命是"使AI计算可持续,让地球上的每个人都能接触到强大的AI"。为实现这一目标,他们创造了一款在保持能源效率的同时还能提供出色性能的芯片。* d3 H0 {0 z: A* C$ F0 }

" C  Q1 A2 c+ v" U) z# q' M让我们深入了解RNGD处理器的主要特性:& l7 ]6 E8 B- X5 K1 z

fa3mtsaanqd64042710259.png

fa3mtsaanqd64042710259.png

2 K" V( c4 v  B) h5 C+ h; j$ @图2:RNGD处理器的详细规格,包括FLOPS、内存容量和功耗。! }5 f9 H' y  P
3 N2 }, e! J: j, c
RNGD拥有512 TFLOPS的计算能力,这是通过8个处理元件实现的,每个元件能够达到64 TFLOPS(FP8)。处理器配备了48 GB的内存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上带宽。借助两个HBM3模块,内存带宽达到1.5 TB/s。
9 V2 C, h) R& ]) a! t; ^+ P, L0 N4 i" F1 R7 M3 x1 `* x
RNGD的突出特点是能够在150瓦功率范围内处理高性能LLM工作负载。这使得其适用于空气冷却的数据中心,有效解决了AI计算中日益增长的能源消耗问题。/ H" Y* ^0 h9 G# R- D- W; d7 |9 |/ U

l1zgyzhyiam64042710300.png

l1zgyzhyiam64042710300.png
( l3 ~- A$ p( T7 H
图3:RNGD芯片架构的详细视图,包括SoC和HBM3组件。# j/ g7 ]4 |, W* s8 k; N9 b

/ S1 T* x9 |3 F/ c9 j5 L# ARNGD采用台积电5nm工艺技术,芯片面积为653 mm2,晶体管数量达400亿。芯片设计使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封装技术,这种技术允许将SoC与两个HBM3内存堆栈集成在一起。8 |& g% Z7 K* z
, C& `. H% {6 J  ?% W5 B. H
早期性能数据显示了令人鼓舞的结果:
7 `7 _) S' }' l& d

pvfpbbxxet464042710400.png

pvfpbbxxet464042710400.png
+ X4 B& A7 O9 k. B
图4:比较RNGD与NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。* J! M& i) V% b
. e9 ~1 s* c& J0 s* A" E
根据这些初步基准测试,在运行GPT-J 6B MLPerf基准测试场景时,RNGD的每瓦性能比NVIDIA L40S高出60%。7 P9 X; ^2 \3 ~$ r' k
" f9 O6 x1 Y) R0 k  Z1 \1 Q' `
RNGD效率的关键在于其创新的张量收缩方法,这是深度学习模型中的核心计算。大多数商用深度学习加速器使用固定大小的矩阵乘法作为原语,而RNGD提高了硬件-软件接口的层次,将整个张量收缩作为原语来加速。! D7 ?6 \5 ~6 S  H0 N1 |1 A* y) @

ljkximxkhz364042710500.png

ljkximxkhz364042710500.png
& |; _' P0 ~3 c0 y7 I; ^$ Y
图5:图解说明张量收缩是深度学习中的核心计算。+ a  \. R: A$ Y' v2 @

) \3 S, P% m, [- Q这种方法实现了更高的性能和能源效率,同时提供了支持所有深度学习模型的灵活性。RNGD引入了低级einsum记法作为原语,将张量收缩与显式内存布局和调度相结合。
# e# {  f7 C9 T5 Y) j

uz1ir0nypzi64042710600.png

uz1ir0nypzi64042710600.png
8 \/ j' @  _, H0 M: ~5 _6 b
图6:说明RNGD如何将整个张量收缩作为单个原语操作处理。
3 g$ k$ v( X8 H! Z& c7 E  d1 c; \* ]# w1 n- }8 c  M
RNGD的架构能够高效地进行计算的空间和时间编排,提高了利用率和效率。这对推理任务尤为重要,因为推理任务的批处理大小可能会有很大变化。
' X" M  s6 ^. H& k" d

vngatfm4nwh64042710700.png

vngatfm4nwh64042710700.png

. C5 X0 s! e7 _! N7 H2 R图7:RNGD处理器的详细架构图,显示互连网络和处理元件。3 F( v" k5 T$ w5 i
7 O. n4 R, F( e" w
为了支持大型模型的多卡配置,RNGD实现了基于PCIe的芯片间通信。这允许通过直接点对点通信减少卡之间的延迟。! U/ X) P& `3 {2 h) y

h5m5ogor5ja64042710801.png

h5m5ogor5ja64042710801.png
) k( M! Y- H) n" N
图8:展示多个RNGD卡与主机CPU之间基于PCIe的通信图。' Z/ ?% @' v3 b( K
# ]2 n' @' s# r8 r7 a, M1 R/ L
RNGD还支持SR-IOV(Single Root I/O Virtualization)多实例支持和虚拟化,允许虚拟机使用多达8个虚拟功能。1 ^% M. f! S' D* \0 g% b
! K$ l. b+ [( f8 f8 e, d9 v
在软件方面,FuriosaAI开发了全面的LLM软件栈,以充分发挥RNGD硬件的潜力:
5 @8 s' R, [: ^! \+ V$ o! D

ljelpdng5ul64042710901.png

ljelpdng5ul64042710901.png
8 y1 `& ?; c9 y
图9:Furiosa LLM软件栈的图表,从PyTorch模型到RNGD硬件。8 F: w" S$ z0 ?

2 F3 I$ A2 b; s! M" w7 x" ^; ^这个软件栈包括PyTorch 2.0集成、支持各种精度格式(FP8、INT8等)的量化工具包、多卡上的张量/流水线/数据并行性、先进的DNN编译器,以及最先进的服务优化。% x3 Z. z+ {& ?# |/ A$ f
' ?( r0 O) c" N/ D1 B' Q" o5 w! l
Furiosa编译器在实现端到端模型效率方面发挥着关键作用:; V; a" m/ j+ _) }2 |

q1qmkcgr0i164042711001.png

q1qmkcgr0i164042711001.png
/ {9 O& {4 N7 `. L
图10:显示RNGD上优化张量操作的编译过程流程图。+ @9 I$ L! }7 k1 e
  T1 H, i. H6 H9 t4 q
编译器为给定的降维张量形状找到最佳策略,使用性能和功率估算器来探索策略空间。此外,还执行图级优化,如算子融合和内存分配拆分合并调度。; @* i& J' o, C4 Z) [! |

& B; H2 p0 S( P为了最大化服务性能,FuriosaAI开发了实现先进优化的服务框架:
2 W. @+ H3 C+ b

lsk0024yrx064042711101.png

lsk0024yrx064042711101.png

8 k9 Q! W/ T; c0 R, v) L" A图11:Furiosa服务框架图,展示其组件和优化。
8 @# }7 ?1 ^! E& f0 b( F" Q+ ?5 ]- J: v9 B6 Z# m2 c
该框架包括PagedAttention和分块KV缓存管理,利用Furiosa编译器和运行时进行高吞吐量服务,支持连续批处理。
' X3 y( j& S" I
' z$ }" E& k& w& E为了高效量化,FuriosaAI提供了一个端到端的自动化量化工具:0 a; t- T) j7 K4 n+ f

vria2myrbcx64042711201.png

vria2myrbcx64042711201.png
6 C: q5 \' @# H! p
图12:Furiosa量化器概览,这是自动化的基于图的量化工具。
+ J8 m) H  h. B4 u
: O$ L* R, T, {& D3 F这个工具使用图模式搜索支持任意定制的LLM模型,并提供各种量化方案,包括BF16、INT8、FP8和INT4选项。
5 ]; b- P2 \4 ^8 R# ?% ?7 U. i6 N$ F' P+ \% r6 D
RNGD的开发采用了先进的方法和工具:
' H+ |* |% @! k: o7 t; W% V! w

woxvpvfr1jm64042711302.png

woxvpvfr1jm64042711302.png

5 a  {7 Z2 K  H. J7 t$ W+ q8 Z  l图13:展示RNGD创建过程中使用的先进开发方法的信息图。6 A% m$ S% O& ^- ^- O3 V

4 P" g( X7 c5 b+ I+ ~这些包括使用Rust和Chisel等高效语言,基于Kubernetes和Tekton CI的可扩展工具和基础设施,以及复杂的测试用例生成和验证流程。
% o) w. C- v& ?% F8 i3 _8 O5 B$ z, c
RNGD张量收缩处理器代表了AI加速器技术的进步。通过专注于可持续计算并利用创新的硬件和软件优化,FuriosaAI创造了强大的解决方案,适用于大语言模型和生成式AI时代。随着对高效AI计算需求的持续增长,像RNGD这样的技术将在使先进AI能够应用于更广泛的场景并服务于更多用户方面发挥关键作用。8 B* R! r, U) E5 }9 w3 @( x! h

/ i; Y3 c. ^! H+ u6 U" ]; {( i+ E  h

7 x" C4 Y  ^* c" r参考文献
" }. D- e8 ]5 o' M[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
1 r7 B$ p& D! b. A8 U
3 t: G0 Q/ q# P; ]; h: \! l/ l- END -! U" S& a& F7 @  C9 a' ^2 K

+ Q- b# N/ g: Z5 H& G# ~$ @) }软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
, `7 m4 S, q  H- Q8 @点击左下角"阅读原文"马上申请3 ^& A* C6 \4 K* a( j6 z6 j& V. P
  `5 T- h+ J: u% e
欢迎转载
. k0 n9 Q( C6 h5 ^. E
" n2 ^! n2 e- m$ x  x转载请注明出处,请勿修改内容和删除作者信息!$ D5 U% |* o- c
" P5 G5 r: p4 p

# H! Q0 ~1 i$ v' ?) Y8 S9 g( @; D

$ L5 |( ^/ U' J: c

gv3vhov5rai64042711402.gif

gv3vhov5rai64042711402.gif

8 h' Z( T" y2 G2 g  z, O7 T' }% i1 R6 B5 X
关注我们7 b) ]. ?0 M+ {
/ ^4 t% J2 t9 m

4 o) S+ R" H, t1 k& X6 p! ^4 k

yfnag5ly02464042711502.png

yfnag5ly02464042711502.png
0 {' t( E5 a" |, E: y; l3 d
/ q7 h0 {; O/ B5 ~$ c8 x! ?+ g% [

y1ml43djqh364042711602.png

y1ml43djqh364042711602.png

3 l4 B0 Q+ a* l: H; i8 F0 O

6 R# k' V  f4 o% o" B! C

nnjmle55o0364042711702.png

nnjmle55o0364042711702.png

5 V/ f8 s% v# L
                      3 h1 ?8 ?" x3 j( c  o6 X$ m/ l
* W/ I1 J% B; l$ U4 |2 L' a4 H

! v6 Y. _! U  p5 S. b. R( {- b! U: W) \* u# w; c
关于我们:
9 Y; e% z0 b5 l7 B  X9 G& {深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。- \9 n8 J1 d; X  S+ \- K( o5 L
3 s5 g- \, m$ x
http://www.latitudeda.com/
  p9 D5 v- ?6 f. u) e(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表