电子产业一站式赋能平台

PCB联盟网

搜索
查看: 916|回复: 0
收起左侧

Hot Chips 2024 | 特斯拉的以太网传输协议(TTPoE)推进AI互连技术的创新

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-10-9 08:00:00 | 显示全部楼层 |阅读模式
引言: N; j/ @1 f. V4 }6 e' _
本文介绍特斯拉公司开发的创新协议:特斯拉以太网传输协议(Tesla Transport Protocol over Ethernet,简称TTPoE)。
0 x0 ]( ~/ k. t* N( t7 E4 `
' S, {+ Y; e8 [, l5 b* H, y8 _在人工智能(AI)和机器学习快速发展的今天,对更快、更高效的数据处理和通信的需求不断增长。特斯拉公司凭借其Dojo超级计算机在AI计算领域取得了重大突破。TTPoE协议是这个突破性系统的核心。, \4 E3 l/ X* r2 c- K
; y. _8 E5 o# A3 o

sqotqmpy1yr64068664111.png

sqotqmpy1yr64068664111.png
( F7 I: E5 i# u: Y+ b! C6 R7 C/ K
图1:说明了问题陈述和特斯拉AI理想结构的特征。
1 R6 Z8 y7 e: [( Y4 o5 G' o
% U3 R7 P( z9 `TTPoE协议的诞生
  s( ~( P, `7 t7 R传统网络协议如TCP/IP虽然稳定且应用广泛,但在面对AI工作负载的极端需求时显露出局限性。这些协议常常受到CPU软件内核的限制,导致延迟增加和吞吐量受限。此外,高性能计算中常用的无损结构虽然可靠,但复杂性高且脆弱,一旦出现问题可能影响整个网络。
( _5 H+ j0 s* w6 d. E" ^; ~8 b* t  U$ l4 l. m6 ], C/ U7 A$ b
特斯拉识别出需要一种能够提供以下特性的网络结构:
  • 最低延迟
  • 最高带宽
  • 简单的软件实现
  • 仅限第2层操作
  • 高效的集体通信和数据摄取
  • 单一应用环境下的低拥塞1 |2 I! E. u1 V9 h- j# U
    [/ol]
    . t5 S/ H3 w8 p' y2 l* B( _2 g5 yTTPoE:硬件执行的传输协议1 B# S% N. D- I/ s' P  j) A
    TTPoE是一种完全由硬件执行的点对点以太网传输层协议。这种方法具有多项优势:
  • 垂直整合:将Dojo远程直接内存访问(RDMA)功能扩展到光纤结构。
  • "有损"以太网网络:这种设计选择有助于更容易的扩展、更高的成本效益和更好的拥塞管理。
  • 与第三方硬件兼容:TTPoE使用标准以太网II帧,确保广泛的兼容性。3 P9 L: a/ H' }) [7 x
    [/ol]
    7 T( C1 o* f" d+ v9 T2 H
    8 }% A' n% z: z4 O6 X" H

    jjj2pvf01tw64068664212.png

    jjj2pvf01tw64068664212.png

    4 {1 x& a( Q/ T- `6 d: o图2:比较了标准TCP/IP栈与使用TTPoE的Dojo栈的OSI层。
    3 b; w* R$ d* ]( J* Z' m2 T" L
    3 g/ B" l  Y+ G& w& l3 LTTPoE通过在硬件中实现传输层来简化网络栈,同时在较低层保持与标准以太网的兼容性。这种方法允许AI计算节点之间更快、更高效的通信。
    0 l: U9 Z2 C# ]! m' h: L* I- t( n5 {% g6 B! h
    TTPoE链路通信# i/ R& ]; Y5 J2 Z3 t. u
    TTPoE协议使用简化的通信过程进行设备间的数据传输。
    & b) k$ h8 g+ e8 O7 C( G. c  a) q% U* v

    fg5dyhxfo1u64068664312.png

    fg5dyhxfo1u64068664312.png

    / t! |; m" c) p) A  x5 O图3:展示了TTPoE链路通信的例子,包括正常传输和涉及数据包丢失或乱序传输的情况。
    5 S* R: e% ?* a9 B' Z
    ! q+ M& n- a6 E) r  C1 F; H在正常传输中,协议高效地在设备间移动数据,开销最小。当数据包丢失或乱序到达时,TTPoE使用NACK(负面确认)系统请求重传,确保数据完整性的同时不影响性能。* N& M6 ], `! A5 b- ?/ Q

    4 h1 I6 N7 Q, f/ N5 ~8 zTTPoE状态机- M1 U5 \6 C) M
    TTPoE状态机是传统TCP状态机的简化版本,针对硬件执行进行了优化。
    - L% t* p+ \' P1 v7 Y( ^9 Z( S' p
    / |% E3 C" a* p3 B

    ktpskdg1j5l64068664412.png

    ktpskdg1j5l64068664412.png

    % W  W8 w/ K* S; F图4:比较了TTPoE状态机与标准TCP状态机,强调了为硬件执行所做的修改。
    / Y5 v& c4 e% I( I4 x4 b+ u2 Y  ]+ C9 U
    主要修改包括:
  • 更快的状态转换,适合微秒级协议
  • 不依赖虚拟内存,仅使用物理内存
  • 无需软件参与的自动OPEN/CLOSE操作* |: E4 A8 s; A5 f# {1 B
    [/ol]
    6 x0 c* M& Q' F5 v6 @5 l( g1 L这些变化使TTPoE能够以极高的效率运行,相比软件协议大大降低了延迟并提高了吞吐量。9 ]1 ?& k- {6 @0 Z
    / `4 R) }5 t1 J1 X
    TTPoE头部帧
    ; M6 D8 s3 v% {TTPoE协议使用基于以太网II的简单高效的头部格式。8 b' C% i2 f6 ?4 g$ J" {1 S

    0 f  v) S& e1 U( h& D

    vlfhyao0xsm64068664512.png

    vlfhyao0xsm64068664512.png
    : }* }, ?6 x. \4 k3 T3 S* M: P4 E0 z
    图5:详细说明了TTPoE头部帧结构。
    " {7 ]# ~. O; A! m: H
    2 i% W, ~1 m4 n$ f$ b5 gTTPoE头部的显著特点包括:
  • 使用从SOW物理地址硬件哈希派生的MAC地址
  • 每个端点支持512个并发唯一链接
  • 虚拟通道(VC)用于非阻塞控制、信号量、完成和数据移动
    * R$ }1 D  I5 H( }' m2 J5 d1 a[/ol]
    7 R, Z5 Q% u/ p有损协议设计
    6 _: H3 H% C" `( o" \. j& F与许多追求无损通信的高性能计算结构不同,TTPoE采用了"有损"设计理念。2 E8 t4 ^; s8 V' x# p
    8 W; |5 G) p$ W& r, ?

    p4zdzu2ryus64068664613.png

    p4zdzu2ryus64068664613.png

    0 e8 Y3 J0 M4 K( v图6:解释了TTPoE作为"有损"传输协议的概念。
    6 [8 `; ]3 h) e4 g- Y
    " Q+ q& S& g: R  K在这种情况下,"有损"意味着底层介质预期偶尔会丢失数据包,并在需要时重试传输。这种方法类似于TCP但不同于UDP,仍然保证完整的数据包传输,同时允许更灵活和可扩展的网络设计。
    8 u6 N4 S, J) [# g( U' e6 P
    ( \( a. q7 v9 Q# v2 m% ?7 c% [TTPoE有损设计的关键方面包括:
  • 在拥塞或错误情况下默认采用数据包丢弃和重放
  • 投机传输受SRAM大小限制
  • 本地SRAM保留未确认数据以便潜在重放
  • SRAM约束限制重放风暴的规模% f# D; u7 ]" V  z3 A: i
    [/ol]
    0 U3 e$ m( G+ }- y5 m拥塞管理1 d9 c. ]2 S8 l
    TTPoE采用分布式方法进行拥塞管理,摒弃了集中控制机制。4 z" i% ]# C( h# w5 J

    2 |- Z$ F; W2 h5 @  |- {

    y3srmw3pmfc64068664713.png

    y3srmw3pmfc64068664713.png

    * y7 B2 v& I3 P( H) \5 e图7:概述了TTPoE的拥塞管理方法。- d+ R6 [1 c3 e) z% E

    ! E6 z; [2 `7 n# r8 @TTPoE拥塞管理的主要特点包括:
  • 指数回退和速率控制由本地链路TX通道处理
  • 容错流可以"刷新"网络并移除坏链路
  • 没有传统的拥塞控制机制,如PFC、Nagle算法、QoS或令牌9 q9 e# V( _3 r1 P! e
    [/ol]
    1 G( o* n) C8 e# }3 j  S+ d这种分布式方法允许更可扩展和弹性的网络性能,特别是在大规模AI计算环境中。
    5 ^" Y8 E, K2 h6 w( c' z2 ]+ {& J* M* r1 q" Z1 v
    TTP MAC IP块! ?' v) F/ E$ C0 c/ n. V& Y# ^
    TTPoE中的传输层硬件作为IP块实现,位于片上网络(NoC)和标准以太网MAC之间。" q; t, H& b8 A! m; Q% z/ t

    : m) c. e1 \9 J$ M# E+ ~

    e12wuc2h2bk64068664813.png

    e12wuc2h2bk64068664813.png
    * Y: u# M: o" i! a% c) I
    图8:显示了TTP MAC IP块在网络栈中的位置。
    0 Q3 @% i# ^$ ~0 Z4 y! J* w: g# c. X+ i/ m0 V) @7 A& ]1 J' f/ o
    这个IP块执行几个关键功能:
  • 将64B/周期NoC数据包转换并合并为最大1kB的TTP以太网数据包
  • 使用AXI-S或SOP/EOP格式通信
  • 可选激活标准MAC功能,如暂停数据包、计数器和LLDP
    3 R' p/ a+ p. Q& Q. D8 f  v3 T[/ol]% E& C9 X, E+ K9 S) S2 C
    TTP MAC IP可以在FPGA和硅实现中实例化,提供部署灵活性。
    ( U$ z8 p# P# f; {* O" G- Y+ ?" G2 v: r* c( h. {5 B1 ^
    实际性能6 W9 H  f+ m7 I5 @: U) b7 q- D
    特斯拉已在其Dojo超级计算机中实施TTPoE,取得了令人印象深刻的性能指标。
    9 b/ ]7 d) m% Q0 j2 q
    2 [6 \- J) E# @0 n4 [$ T0 z0 M$ X' e

    uimq30ub02v64068664913.png

    uimq30ub02v64068664913.png
    7 T  x4 h+ v. h7 ~4 ?' @4 \2 m
    图9:展示了TTPoE与其他网络技术相比的性能结果。
    ) i' y1 s5 W. ]  M/ t0 ^) ]* h6 R+ m$ x! `, k( l& F
    这些在高性能网络交换机上测量的结果展示了TTPoE在延迟、带宽和全归约性能方面的能力。该协议在保持大规模高吞吐量方面表现出色,这对大型AI训练工作负载来说尤为重要。
    7 q( i2 r, M& g/ z3 J/ B/ b) t$ r- R8 w' e" Q7 t
    结论
    " m3 B# C. T) ?特斯拉的以太网传输协议代表了AI超级计算网络技术的进步。通过将传输层重新构想为硬件执行的有损协议,TTPoE在保持与标准以太网基础设施兼容的同时实现了卓越的性能。随着AI工作负载规模和复杂性的不断增长,像TTPoE这样的创新将在推动机器学习和人工智能可能性边界方面发挥关键作用。
    4 Q1 O' y- \% i7 E! l  D4 W: k: j( N8 ~* T# C* Y2 `$ e
    参考文献3 \6 `/ Z% |$ i5 U7 `1 X" y2 k
    [1] E. Quinnell, "Tesla Transport Protocol over Ethernet (TTPoE): A new lossy, Exa-Scale fabric for the Dojo AI Supercomputer," in Hot Chips 2024, 2024.
    : ?5 l" P7 K" D# p
    8 J" B0 ?- W( p2 e; N. E- END -
    * z0 a& w/ i  x7 y# O+ Q: a
    ' \7 P/ d% M( Z: r; H( v软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    2 m+ b) ?2 E- Y2 |, ]/ X' H  z) D点击左下角"阅读原文"马上申请# w9 x/ f% N$ H( C
    , a' U- I7 z, K/ o8 ~
    欢迎转载1 l9 A% a6 Z# \. S# a7 W7 A
    7 l& n- B" E: _9 C" M
    转载请注明出处,请勿修改内容和删除作者信息!
    + ?9 u  d- O( k+ t* W' d9 L* `% N9 w0 x# V- Y  X
    $ \$ j$ Z5 }; H8 A5 c2 u# O

    1 u9 L; j8 Y3 G; J+ T$ |

    mz3nh2fhhp464068665013.gif

    mz3nh2fhhp464068665013.gif

    ( D  S" ?5 v0 ?8 }. [
    $ G" h, E5 [# i; S7 q5 U* _4 K+ Y# P关注我们: n* y. f( Y) F4 T- ?/ _7 ~
    ) p- n4 R+ v$ m. x

    5 T8 i( l. j" q- F0 @# Q3 a- L

    yroq3gxl5fl64068665113.png

    yroq3gxl5fl64068665113.png

    # f2 W% d8 d3 f! x+ f' J
    5 ~, x2 W2 A& p! F9 D

    jx4nbhzvjzq64068665213.png

    jx4nbhzvjzq64068665213.png

      f6 G' ?) ^" M2 _) [( l9 k' J, Y

    9 Z& h1 k# h& }% ?8 J

    rymxhen4y3t64068665313.png

    rymxhen4y3t64068665313.png
    8 |* N  {! j3 B. Z8 m
                          $ M+ q; }+ ]# B
    # L& E0 C6 I* X+ s
    7 k) e5 |1 v+ M3 w5 W
    9 a5 f! u" ?6 q2 e0 W) M
    关于我们:
    ) z" e& a3 `" E$ n+ R深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    : n3 }/ U$ v4 r0 x
    - R4 [7 P  P  S, W( ~; \http://www.latitudeda.com/* I0 Y9 k3 c' _6 C
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表