|
引言
+ g$ a2 o/ Y) j$ n% X- yAmazon 在人工智能加速器领域正在通过其 Trainium2 芯片架构取得进展,旨在与 NVIDIA 在人工智能训练和推理领域展开竞争。本文将详细探讨 Trainium2 的架构、网络功能和成本等关键方面[1] 。
, C* g+ k% A% `1 w" ~5 m6 ?6 g+ j
4xbsgsoswjt64071050008.png
, @2 m& v7 l& t8 f! h% l e& Q O0 P
speir54thtv64071050109.png
) c2 o. m; n; H7 E- ]图1:展示 AWS 硬件执行 AI 工作负载的艺术表现,象征着 AWS 对 AI 加速的投入。1 ^- i( Z% b7 p4 C
7 s0 @' m; r2 Q3 D& [. {
核心架构概述8 ^ }/ K5 }; i; N" y2 z) b
Trainium2 架构相比前代产品有显著提升,每个芯片提供 650 TFLOP/s 的密集 BF16 性能,配备 96GByte HBM3e 内存。每个 Trainium2 芯片包含两个计算 chiplet 和四组 HBM3e 内存,通过 CoWoS-S/R 封装连接。
' z' K- S/ s6 y9 x/ x5 b5 X
gcluvrifk1w64071050210.png
. a- S9 F) ^- F, J
图2:NeuronCore-v2 的详细架构,展示了张量引擎、向量引擎、标量引擎和 GPSIMD 引擎与 HBM 内存的集成。! X* w D: P! Y7 Y2 k; E$ Z
& S$ I0 ^" ?! R1 U# a
神经核心架构包含四个主要引擎:/ y$ X. i2 E; p
张量引擎:128×128 脉动阵列,用于矩阵运算
6 g4 A5 R5 U4 p; g0 B2 w" _向量引擎:处理向量运算和归一化/ x& F" T |8 p' ]2 u
标量引擎:管理按元素运算0 [: e1 n1 p; @3 z, V$ h0 r
GPSIMD 引擎:执行任意 C++ 运算
5 h3 e B3 \7 C9 l5 r, b
|1 F. a7 \( }9 ^6 G服务器架构与部署# i8 f) O, ?5 Q8 J# ^ X
Trainium2 提供两种主要规格:
( [" D: a1 h; M; o7 dTrainium2 (Trn2):每服务器16个芯片配置
# Y( O9 B. A; ~Trainium2-Ultra (Trn2-Ultra):跨四台服务器的64个芯片- V& P9 [* h. o/ c
4 I+ ?1 t9 N+ _
lzvbysrl5nc64071050310.png
1 t4 X; X, \( P7 k# H. P! p图3:Trainium2 服务器架构,展示了计算托盘和 CPU 头托盘在18机架单元中的排列。
, R N, Q: n* Y4 B' T1 c V5 N- Z1 m/ w& f( `+ d& u' V
物理服务器架构占用18个机架单元,包括:
+ C+ p5 u+ O V5 @, L4 n1 P: t$ Z一个 2U CPU 头托盘
! T( _+ b4 P* P5 @八个 2U 计算托盘2 m! F5 t/ Q, t% K) Z
每个计算托盘包含两个 Trainium2 芯片
9 r+ X2 i. L5 Z6 s) G计算托盘中没有 CPU(JBOG - "仅GPU组")8 ^/ A4 w# h1 G9 u& Q1 j7 Q! R2 G3 u
/ p3 F* A) v/ W$ \: `
网络功能
* z4 q9 G8 q* qTrainium2 的网络基础设施整合了多项技术:
K; I" U/ x3 A. N* jNeuronLinkv3(扩展上行网络): w+ X e& y9 b% r
弹性 Fabric 适配器 EFAv3(扩展出口网络)
, m* T, T1 w4 A3 {: j前端和存储网络/ a" u9 r6 o2 ^- }
带外管理网络
7 O3 r3 v# E6 |1 p. x
$ Q' l" i# w! k' Q+ l
opmhs2rj1my64071050410.png
4 W; R: t: f' k1 D图4:4x4x4 三维环形网络拓扑,显示节点间连接和带宽规格。
: w6 d* s: v" @ q8 h: j- x! Y3 E2 Q [" e" S* N
供电创新
2 `9 ~- r. I- IAmazon 在 Trainium2 中实施了垂直供电,这在芯片供电管理方面是重大进展。# d ?0 ~3 y4 l) J2 e
jpgwtrojuah64071050511.png
2 a- B: k6 J; t- y, d8 n图5:传统与垂直供电系统的比较,展示了改进的供电效率和散热管理。$ l& [. ~0 @; d* n
9 S/ E2 d9 K. E
成本分析与性能" g. T7 K& [" z% G
与 NVIDIA 的 H100 相比,Trainium2 的总拥有成本显示出有利的经济性:
4 g- j& w L: ^+ ~6 W% \; H' ?" c
pj03qewwrbu64071050611.png
) X9 \; w2 K3 E' @& F- i图6:Trainium2 和 H100 配置的详细成本比较,突显了 AWS 解决方案的经济优势。" \7 T3 [; Y, D0 g! u
5 t& y: P- l4 b+ a, A, b% ]主要经济因素包括:
& w% [4 t( b' S6 z% o3 d" W较低的前期资本成本(每芯片4,000美元,相比H100的23,000美元)
; X/ h0 J, a3 g# `# J0 c d由于更好的能效而降低运营成本! L* K- I+ B! E# b6 F; L( S
在部署生命周期内更有利的总拥有成本
+ _2 \& H' }" z, i* A, N
* N8 O p1 Y8 y, l( NProject Rainier 实施
: C0 Y; }+ S: O! KAWS 目前正在为 Anthropic 部署一个名为"Project Rainier"的大型集群,配备40万个 Trainium2 芯片。该部署展示了 Trainium2 可以有效运行的规模。
9 ?/ d" L1 o- C( j
hv5dm52fngf64071050712.png
$ |* E5 g. j% b5 X4 Q3 a7 D# G
图7:AWS 印第安纳数据中心园区的空中视图,Project Rainier 正在此处部署。' V/ ~) N1 c/ t6 I1 [( B
+ x: j) T! p2 {( Z9 P- J软件栈与开发工具
# U. @4 t" H- ?Trainium2 的软件生态系统包括:
7 N% T7 x1 R5 M {- BNeuronX 集体通信库
+ d* ?& `0 ?: _4 V# O通过 TorchDynamo 的 PyTorch 集成8 a1 f3 N, n% ^) s) U* L. [
JAX 测试版支持
\- b1 U4 [+ O [+ Y0 e用于低级优化的 Neuron 内核语言(NKI)
. X& _7 O/ u9 p, j0 f5 h0 D2 @5 [% T8 [+ c3 r7 L! ]
gyfcekujxgb64071050812.png
) ~: E/ q3 b1 I P
图8:Neuron 分布式事件追踪界面,显示全面的调试和分析功能。
6 P* v$ K+ z8 w2 k
% O4 c+ ?# ?' v1 p7 ?未来发展' i, H H3 J- ?
Trainium2 代表了 Amazon 在 AI 加速器领域的重要投入。凭借具有竞争力的价格和性能特征,对 NVIDIA 在 AI 训练市场的主导地位构成了显著挑战。Project Rainier 的成功和 Anthropic 的采用将是 Trainium2 实际效果的重要指标。. l" D! \7 }9 ]8 y
gerd3esh4cn64071050913.png
+ L N; B& P+ U! i `
图9:下一代供电架构,展示了 AWS 对未来可扩展性和效率的投入。
; L& |3 C% Y+ H# z. ^9 a; j( V9 G$ M* w3 d
通过对供电、网络功能和软件集成的严密关注,AWS 创建了一个有竞争力的平台,解决了现代 AI 加速中的许多挑战。该平台的发展将可能影响 AI 硬件开发和云服务供应商策略的未来方向。2 B2 m. O# u2 l) J( `
& X2 p! V% A0 f2 \ v4 X
参考文献
/ h3 h9 T8 H( _[1] D. Patel, D. Nishball, and R. Knuhtsen, "Amazon's AI Self Sufficiency | Trainium2 Architecture & Networking," SemiAnalysis, Dec. 3, 2024. [Online]. Available: https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/+ Z8 a( K& H: `
5 h8 b% ?) d) vEND
% F) y/ l3 r1 x7 G# ]! l" ]% C! h$ X7 L7 I
+ g. d4 N9 b: b; s O) B4 w/ Y
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
6 }+ D2 ^( l% b w2 l i点击左下角"阅读原文"马上申请; a% Z( q% q( Y. J$ {
Q6 g2 W: S5 p" W2 n
欢迎转载5 S# M& ?2 ^9 I, b: |+ S
* ~4 e* y9 F6 {/ Z* P5 }
转载请注明出处,请勿修改内容和删除作者信息!; b! h( L' V: k& B0 h+ @, P
9 g9 t1 q. M7 r7 `/ j5 Y
0 M2 `) l( ~, g, M! x) h5 P, L
1 W( l0 a7 T$ s: @
nlj50ijxcp464071051013.gif
. M( b4 E" o; T# k% A# G! E
; @0 @7 }' Q, l5 ~关注我们
# d- Z& }9 ?& \2 T: P g
' X2 U# K: @7 @+ b; p+ o
1 X3 [% f, X- m' F* u
1g21mosmfw364071051113.png
# y' k% p" c; ]5 v4 G1 H5 G |
( ]* R; d/ z8 M/ k0 h: \
exohpa2ha4m64071051213.png
: z9 [2 L" [: F0 g( G | 0 \) J! r6 ?& ]2 {2 L9 m
w0egxzsvpbt64071051313.png
) m8 [2 A x B5 y5 Z
| $ ~. K- N% o: b8 E! _
+ j7 ^4 ?# g! M8 ]- q$ Q8 O
( D/ D- N( f) T3 D* { ^" c" K
. E2 s& C1 z s. d) Q( l7 C0 i& {关于我们:
& C( S5 q- ~4 G! s深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。& s9 q& [8 |& L Y7 L$ G
: q) S5 v1 \3 a- zhttp://www.latitudeda.com/1 B" y P( i1 Z9 v
(点击上方名片关注我们,发现更多精彩内容) |
|