电子产业一站式赋能平台

PCB联盟网

搜索
查看: 242|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

1075

主题

1075

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11406
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言
9 T; l! h9 F, \本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。( E9 T( \4 w! @" A3 p

5 f6 A- r8 |4 y' ^

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png
) q6 V' p3 C! u7 a9 N
图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。) }5 n6 w$ a+ e* Q, {% g

# {% _" a$ y+ z8 x3 @
, q3 a: Y. e" H$ Q, Z4 [
先进封装和内存集成
3 k! o7 ~# f/ T: `3 l, kLunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。
/ m# _& Y6 q, n2 P+ D# O+ ^3 E/ R$ _
6 l5 y- Y8 k7 k8 j+ E

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png

* ~: L+ P( L; j1 k2 v* s图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。+ E) J$ X$ g8 ?7 ^4 J% t6 U  a" b$ G
( O) d) ^/ n  N9 H4 F! t" e
Lunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:. w: Q, g! }  z- S/ H/ B& e
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积
    ( O- H5 L7 l! s" N8 c

    # c$ W0 C) ?0 l* y/ F架构框架8 K4 {6 P# K5 B  ~; n1 k
    Lunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。* {$ Q- D; n7 E# v: ^( g+ Y3 Z; s

    5 m8 }8 M/ v: R1 j* f

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png

    7 ~% z2 Z9 X6 F  ?图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。
    1 B& l( G' J  O$ R* W3 {. t
    : q4 A+ B3 p2 Q- ?+ d0 ?0 b9 O$ i: V) M计算芯片
    2 r; e! u$ W) M0 z" @: G" v- ^计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。
    : u. y! E' Z+ e5 U+ |6 {
      L1 D# P) G# S2 D. d0 M+ I计算芯片的主要组件包括:
    + x5 C, `/ K& E9 B
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎
    ' [  d( K0 J) S5 x

    5 I4 A' I4 g3 N  ?( w# X% I
      A1 x; i1 l* I- S2 t" n

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png

    $ `* k1 Q6 g( }' @图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。
    / H& Z! |0 f  C/ Z5 @! _+ d# N  z. s' [/ E
    内存侧缓存. H/ Q1 w6 X  Q( N4 F) b
    Lunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。
    , b# o! s2 M8 j
    : E" O; _% O, M* }; e增强型E核心集群
    ' n; t- Q0 c5 G' l) X* A* d, b8 O) I, |Lunar Lake的高效核心(E核心)集群得到了显著改进:
    : f9 X1 R) B$ J* ]9 O
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电
    0 g+ Z' [6 B' I6 j9 A8 T" i& w2 r/ _

    9 r* E7 g+ h( K3 x3 _& H供电和功耗管理0 K9 B. {& ~( ^  J/ |4 L
    Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制
      ?$ F6 g$ i# w$ f0 h[/ol]
    1 L$ a( E# w) ^' O2 e性能核心:狮湾(Lion Cove)
    % c: D+ J: P- I% x  L, A: eLunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。
    $ @1 T: {- S! |5 C9 M0 T- D
    - s: G# k) j' C* v* Q狮湾(Lion Cove)的主要特点包括:6 f5 R/ ^" C/ F2 i5 P
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理
    ; D- W- K9 v6 l- G" W

    8 m7 n; ]' X+ M* m5 ?: m# s
    $ c5 T2 s; q7 z, i1 r5 C1 M3 O

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png

    : j9 A: ~# N: Y/ V3 m# h图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。
    + _6 x/ R$ `1 Y' q( ]% d
    ! m% u. W" j# _. D3 n, S% t7 E. Y高效核心:天际(Skymont)
    $ I# ~/ S) H3 j% J0 `与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。
    8 _  s% Z, S5 C- p. S9 v6 y& }0 @9 P& i! r  T
    天际(Skymont)的主要特点包括:/ V7 G% k$ i4 Z8 x3 F  m/ A
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量
    & k( _+ p8 W9 B
    ) t4 e8 Q- B) h1 W
      u$ x) {/ d: N: }

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png

    : z! y* v) G" Y$ }图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。
    7 b4 x1 O9 {- k$ N0 d  I4 ^- m7 o% U7 x" @2 ]+ x
    下一代Xe2 GPU8 H/ j2 n. |; i5 g6 f; C
    Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。, _2 ?! A, y7 w! `! p3 c- H
    主要改进包括:
    1 {" r( F2 Z; [2 K
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS
    % U# A# z* A6 }( @) m3 S

    : M. @# l0 ?8 O" X
    0 x9 S; S3 y$ ~( w. e

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png
    3 h; v& C1 \2 U" w# H7 r
    图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。
    ; j2 l, G5 @* [! _* Y
    % B/ i8 V. V; F" k% w( V下一代NPU 4
      j; b' q) p3 G  T6 n; ^Lunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。
    6 b. V. g0 k2 |3 [6 q! m$ w3 |+ i/ U# u& n! C( ?/ g2 y  n
    NPU 4的主要特点包括:' b; j# A( j5 D0 q9 s) T' H
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS* e6 U, C0 d' i6 H

    2 i5 @9 K  g( T+ \) S& Y) y2 d( e1 m0 q7 W/ R$ w4 w2 s/ F. _

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png

      a. m4 R- `, I6 [( g' R图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。
    . [0 d+ z9 v, {" T, u8 b1 ^+ m6 `$ J; {& }7 t5 k
    连接性Lunar Lake将先进的连接功能直接集成到封装中:
    # n/ n1 J0 G" g9 u
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.0) T* L4 P; F& u8 N
    7 M, e- ?, e5 n9 B
    + P& O; X# v8 W

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png

    $ A4 S1 l2 L5 n- n" x! _- J' x图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。1 P6 _  \, g- A' a, Z+ q

    0 |5 v. c& j- K结论
    ! ?& w" _4 r) P# `# @9 ?6 E英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。4 a5 E+ z: l$ D4 {, Q( j% J
    7 s: u0 L1 o- z2 K4 v! I5 Y
    封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。
    + h  q2 U4 Q1 m9 W7 z2 ]# |  G- u- J- B$ \
    参考文献
    7 w7 G! Z0 {1 r8 N" Y, ~[1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024., @9 \+ O& B0 z
    : h% @! o3 H6 j7 h) I! c. d
    - END -
    7 k0 J4 w# x0 v5 M! ?" m* d+ ~/ W" U$ y0 R1 F% }' ]5 B
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    7 X5 c( l# k! M  h+ r点击左下角"阅读原文"马上申请* F$ @: o) {* S; j8 W# g1 F/ `
    $ U8 }" U/ X' o* _2 Z5 ]
    欢迎转载6 Y7 Z9 K, C7 R7 q; n
    * N4 o0 x' _1 D" P' Q# r
    转载请注明出处,请勿修改内容和删除作者信息!7 [: R1 E7 u8 Z) t, E: }# D& g

    0 m2 B/ H1 Q$ J! @3 e2 N: l0 z7 r8 ?# |/ G: T+ r0 A

    2 n5 a* }" ?0 K7 |  U" _1 j- L: ?8 [4 m

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif

    9 |0 p! p6 a1 r. \) F* p- g
    " {! g& l/ A) y- ~) A/ I! Z关注我们
    " a2 O, C8 `# _) [6 Q
    * z+ s6 U# y* J
    - ?+ ~  c0 b" W. j. i2 T5 }6 \

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
    ! x& n+ P& G' Q! y) W/ O* ~
    5 w* O' [7 ]: Q: N  O7 R

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png
    0 o, U& a& }9 W- ]' b* i
    # ^+ H7 p- K" S

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png

    . V& O4 a* \: z7 E
                            e6 a3 v4 v( p( u! Y; ~

      A& a& X. r/ _3 ?+ @% [* C2 @

    + n3 T$ r* H5 `' j" ~* N
    4 L! W3 g3 w1 {$ `# o; G关于我们:8 G0 d2 i4 i" Y6 m
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    - w) s  }2 l2 ?- n8 Z: W  D
    / S* ~9 L8 x- b) Zhttp://www.latitudeda.com/2 c- k( b& @7 T  d$ j
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表