|

引言
* f" U9 T3 J' G% ]2 B随着深度学习推荐模型(DLRMs)和大型语言模型(LLMs)在规模和复杂性上的快速增长,Meta公司开发了新一代Meta训练和推理加速器(MTIA),这是一种尖端解决方案,旨在提高各种AI模型和服务的性能、效率和开发人员生产力。
. J2 z$ q( K6 E% u
9 \; f6 s& f/ [3 ~# E
q5gu0vorwgq64055295326.png
) i+ }4 W9 @- Y9 @, D% P! y图1:展示了推理模型复杂度(GFLOPS/样本)和模型大小随时间增长的趋势。
2 Q' {) d0 `5 G" B
; w Q" C* T3 U# g% Y' O- c开发新一代MTIA的动机源于几个关键因素。首先,DLRM和GenAI模型在规模和计算需求上的爆炸性增长,创造了对更强大、更高效硬件的需求。其次,将GPU部署于这些工作负载中暴露出了有效性能、资源密集度和容量限制等方面的挑战。为应对这些挑战,Meta着手开发一种加速器,能够显著提高总体拥有成本(TCO)的性能比和每瓦性能比,同时高效处理Meta多项服务中的各种模型。* x& C4 O" w5 O1 e0 r& O) a
/ s0 h( F5 y' o6 H新一代MTIA的主要特性8 j7 u0 P. V4 j7 r8 I+ A3 R
1. PyTorch Eager模式支持:加速器在作业启动和替换时间方面表现出色,新硬件作业启动时间不到1微秒,完成作业替换时间不到0.5微秒。这一特性提高了系统的整体响应性和吞吐量。
" N8 b9 |8 H. v+ [$ N) [, K
: N( ]2 E$ @3 ^6 [, p2. 整数动态量化:基于硬件的张量量化提供了与FP32(32位浮点)相当的精度,同时减少了内存和计算需求。这种技术实现了超过99.95%的精度,与基准FP32结果相比。
% z( A7 v( m1 G+ v% U" m/ L
$ w8 x. u& x9 i f Y0 a$ v: m* [3. Gen-O-Gen性能:MTIA显著提高了GEMM(通用矩阵乘法)运算,在BF16精度下达到177 TFLOPS - 提升了3.5倍。还支持稀疏矩阵运算,TFLOPS提高了2倍,并实现了ANS(非对称数值系统)权重解压缩,提供50%的压缩率和20%更好的内存到计算张量传输性能。
+ F) N7 a2 u( O( S# B! F
: a' ?+ E- G+ v' L! h5 z4. 表批嵌入(TBE)优化:下载和预取嵌入索引的硬件优化使运行时间比上一代快2-3倍。# U- @% b9 p+ N9 V7 @6 `0 ~# G
: v/ E5 `: V' N4 R
uo3d4luuxvu64055295427.png
. y5 ?$ M& Z9 P+ N, s# }9 j5 v图2:展示了新一代MTIA的整体架构,包括处理元素、内存子系统和接口。
1 O' i \( r3 T1 O9 {* \8 T4 l* F0 @5 r* |" _/ C: I8 G4 [9 ]; c
新一代MTIA基于台积电5nm技术构建,运行频率为1.35 GHz。芯片包含23.5亿个门和1.03亿个触发器,尺寸为25.6 x 16.4 mm(421 mm2)。封装尺寸为50mm x 40mm,TDP为90瓦。加速器在GEMM性能方面表现出色:INT8为354 TOPS,FP16为177 TOPS,在稀疏模式下性能翻倍。配备128GB LPDDR5内存,提供204.8 GB/s的带宽。
' n Z6 m3 U- {/ h
- x l' R# e0 p7 T2 D架构由几个关键组件组成:控制子系统和主机接口通过自定义网格网络连接的8x8处理元素网格分布在四侧的256MB片上SRAM,提供2.7 TB/s带宽四侧的16通道LPDDR5内存,支持高达128GB容量,带宽为204.8 GB/s
% G- O- R9 ^5 s: {[/ol]
/ ^0 M- X7 w0 U$ t7 M主机接口使用Gen5 x8 PCIe,提供32 GB/s的带宽。包括4MB PCIe描述符SRAM,用于快速描述符获取。控制核心子系统配备四核标量RISC-V处理器,8MB L2缓存和4MB上下文SRAM,用于高效的工作负载分配。& U" c" t" \7 o* a+ b! t$ X8 h! s$ c
6 f; l4 j, y0 Y$ t
my022od4ly264055295527.png
' i. F2 f7 I/ g8 \+ n8 o" O& a& G3 U图3:说明了处理元素的组成部分,包括双RISC-V核心和各种功能单元。) C" l R3 M/ ?
) P* W7 l) A7 v' v处理元素(PE)是MTIA的核心。每个PE包含双RISC-V核心 - 一个标量核心和一个带向量扩展的核心。命令处理器(CP)协调PE内功能块的执行。固定功能单元加速各种操作,包括矩阵乘法、非线性函数、数据移动、动态量化、权重解压缩和急切模式处理。
5 e5 Q; v5 E% ~7 l- K$ k" m, n" ^* p% {
每个PE内的点积引擎(DPE)提供2.77 TF/s(FP16)的性能,在稀疏模式下增加到5.54 TF/s。为匹配这一计算能力,MLU、RE和SE单元的数据路径已被拓宽。每个PE还包括384KB本地内存,以支持更大、更复杂的工作负载。7 j* z- C; v { H: e8 T* B
, A1 n# X) Z3 s$ F; I新一代MTIA的一个突出特点是整数动态量化能力。这种基于硬件的解决方案实时调整量化参数,在运行时收集每批次的最小/最大值,并支持按行量化。结果是全连接算子的通道级对称动态量化,与FP32基准结果相比,实现了超过99.95%的精度。
+ k) T; z+ {6 e/ Q# P5 Y% U! V# x- o7 U+ ~. B% O0 [( V
为提高特定工作负载的性能,MTIA包含几项优化:Eager模式增强:多播写入组允许控制核心向选定PE广播Eager模式工作队列描述符,将PE作业启动时间减少了80%以上。硬件解压缩:专用解压缩引擎缓解了PCIe和网络拥塞,支持RFC1952(GUNZIP/GZIP)标准,包括静态和动态Huffman编码块。四个解压缩核心提供高达25 GB/s的解压缩率。PE权重解压缩:使用非对称数值系统(ANS)算法,MTIA实现了接近50%的压缩率,改善了片上内存占用,减少了PE到NoC的读取带宽。表批嵌入(TBE):此功能将来自单独嵌入批处理操作的表合并为单个表,与上一代相比,运行时间提高了2-3倍。$ B. G" q4 n" c3 `( E
[/ol]6 n# A, k1 |2 _1 X( L
0 Z8 z- V+ |4 U! P8 f# h
5fr2aqnpktn64055295627.png
+ L! S9 x4 K1 z z6 K# u1 a
图4:显示了加速器模块的物理布局,包括内存和PCIe接口规格。5 c0 Z& Y- e. |* c' D- N
5 L, O9 x7 R; d6 U新一代MTIA部署在PCIe CEM FHFL形态因子中,每个模块包含两个MTIA。每个模块支持高达256GB的LPDDR5内存,提供总计409.6 GB/s的内存带宽。板卡TDP为220W,使用64 GB/s Gen5 PCIe接口(2个Gen5 x8)。+ d9 p7 R% p9 B
5 A1 J7 z. N' o% q3 F
在系统拓扑方面,单个机架包含72个MTIA ASIC,分布在三个机箱中,每个机箱容纳12个模块。这种配置自2024年上半年起已在数据中心部署,为Meta的AI工作负载提供了强大的计算能力。" ^! L1 N! o. l
8 S8 F# ?% B% |6 B& ~% T
新一代MTIA的性能显示出持续改进,特别是对于高复杂度模型。虽然低复杂度模型立即受益于大型片上SRAM,但高复杂度模型需要更多优化才能有效地在SRAM中分块数据并实现更高的有效FLOPS。在4-6个月的时间内,团队为这些具有挑战性的工作负载实现了超过2倍的性能提升。
& N; r7 b( S- }. `0 ?3 \
" Q4 Q' d. m5 X, |2 ~新一代MTIA代表了AI加速器技术的进展。通过应对DLRM和GenAI模型日益增长的需求,Meta创造了多功能且强大的解决方案推动下一代AI应用和服务。随着模型复杂性的不断增加,像MTIA这样的创新将在维持AI生态系统的性能、效率和可扩展性方面发挥关键作用。0 x. x7 H; N& T, m: [
& J+ p$ G# u- ?) E7 |! p' k
+ m O5 Q: J. }/ U% a' Y% J参考文献
c# \- L. k" ~$ P( [ | I[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.
, {- ]4 ^3 t5 a3 p0 y; g
1 A) T* k3 L Z4 p3 y) D- END -/ C( O( t9 j0 ~# F8 W* U' k
( E) o5 l: k+ o4 d+ o/ z+ C6 o, m
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
. N4 h# P# ?9 i& w1 z4 Q% W点击左下角"阅读原文"马上申请, O& P% G; ?4 L4 _' u
/ k( x8 p1 e3 a# x" B: d j) e欢迎转载
: n; N8 I$ ` x7 g1 K! N* w4 f* z% [
转载请注明出处,请勿修改内容和删除作者信息!
) J' r) j& A7 d$ r, P1 w* B! w. X) X( R3 A
2 b w @8 G+ B) x7 M5 p* U
' f; o+ L3 H2 O8 k3 \9 Z
0itut5rarl464055295727.gif
! c, a8 J$ }3 F$ k4 x& K
+ g- l) W; L! Z4 N+ K5 _关注我们4 m) y2 U' o8 r+ z* { ~; W
( D2 m6 x8 p0 c5 H% @1 f3 y7 ?$ m. _( w5 [1 t4 n. i
siuf2jnnsva64055295827.png
/ ]$ ^, |+ |7 g% X0 y/ N8 r0 F8 p) n | % N$ a' O% a# g' g9 a
zojmsfmzh5064055295927.png
/ f# m& z" e2 U$ z1 | | ) j4 E w- U0 s' v A* l8 g7 j! A
ox2zgcwl0hw64055296027.png
$ m( U k, V3 z/ g8 g' E
|
2 r$ u7 `5 V- x
( m2 x- f. C' {& W; y( z6 A5 r h) D) u- P1 m
4 h; F# z* A$ w9 D
关于我们:5 C; ]" A" X& F( ~6 c5 E- @, G! Q
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。' O5 L" L U f$ F( @2 z, {: s
7 Z! q7 Z5 ~; Q- y* ?( Jhttp://www.latitudeda.com/) Z3 y9 z. F' q+ O
(点击上方名片关注我们,发现更多精彩内容) |
|