Hot Chips 2024 | 可持续计算在AI和云原生工作负载中的应用

逍遥设计自动化 · 发表于 2024-11-8 08:00:00

引言
在当今快速发展的技术环境中，对高效且可持续的计算解决方案的需求从未如此迫切。本文旨在帮助了解AI和云原生工作负载方面的创新。随着人工智能(AI)和云原生工作负载的复杂性和规模不断增长，需要能够处理这些任务同时最大限度减少能源消耗的处理器变得极为重要。AmpereOne应运而生，这是一系列突破性的云原生处理器，旨在直面现代计算的挑战[1]。

处理器设计的范式转变
传统的处理器设计技术在满足当今工作负载需求方面已达到极限。AmpereOne代表了范式转变，摒弃了传统的涡轮频率和超线程等方法。相反，它专注于功率优化、一致的性能和线性核心扩展。

uq1nz3ceyd3640112469142.png

图1展示了从传统处理器技术到AmpereOne创新方法的转变，强调了功率优化和线性核心扩展的重点。

AmpereOne路线图：持续创新的承诺
AmpereOne的产品路线图展示了快速创新的步伐，明确承诺在气冷环境下为AI计算提供每机架最佳性能。路线图从当前的AmpereOne系列开始，具有高达192个核心的5nm工艺，一直延伸到未来的迭代版本，如AmpereOne Aurora，承诺提供高达512个核心，并集成用于训练和推理工作负载的AI硅。

nxxxdumrr4p640112469242.png

图2展示了AmpereOne的产品路线图，展示了从当前型号到未来迭代的发展过程，核心数量不断增加，功能不断先进。

深入了解AmpereOne核心
AmpereOne性能的核心在于其创新的核心设计。让我们探索使该处理器脱颖而出的关键组件：

1. 前端

最先进的分支预测

解耦的预测和获取流水线

用于大代码足迹的高带宽接口

2. 执行

8个调度器供给12个执行管道

对称的整数和FP/矢量执行管道

通过单uop int8 MMLA支持AI推理吞吐量

3. 加载存储单元

64KB，4路写直通DL1缓存

4周期整数加载使用延迟

从零开始的熔断保护

4. 内存管理

支持任何页面大小的通用TLB条目

用于页面遍历的专用L2接口

优化的TLB维护响应时间

5. L2缓存

2MB 8路私有L2数据/指令缓存

11周期加载使用延迟

请求率和预取的自适应节流

yjgwmsbkfv5640112469343.png

图3概述了AmpereOne核心流水线，突出显示了各个组件及其互连。

AmpereOne的分解架构
AmpereOne的一个关键创新是分解架构。这种方法将计算、内存和PCIe子系统分离到不同的芯片上，每个芯片使用最合适的制程制造。然后，这些组件通过Ampere的自定义芯片间(D2D)互连连接，每个方向能够达到2.8TB/s的带宽。

mcccjpnso5p640112469443.png

图4展示了AmpereOne的分解架构，显示了计算、内存和PCIe组件如何分离和互连。

这种灵活的架构允许：

使用相同的构建块实现8通道和12通道设计

快速集成客户IP

定制以满足独特的客户I/O和内存需求

增强安全性和性能的先进功能
内存标记
AmpereOne引入了强大的内存标记功能，增强了稳健性和安全性。这一功能有助于检测指针编程错误并减轻利用内存安全漏洞的攻击。

内存标记的关键方面：

每16字节内存粒度获得4位"分配标记"

指针在地址的高位携带"访问标记"

核心对每次内存访问检查"访问标记 = 分配标记"

不匹配会导致故障并阻止数据访问

nlqco5wqc1y640112469543.png

图5演示了内存标记的概念，显示了标记如何与内存分配和指针相关联。

自适应流量管理
为了提供一致和可扩展的性能，AmpereOne采用了自适应流量管理。这一能力对于最小化运行间变异和独立并发工作负载之间的干扰非常关键。

运行原理：

内存服务代理通报"繁忙"程度

核心相应地修改请求流量的速率和配置

针对不同工作负载行为的自适应响应

jhtr4ttesbk640112469643.png

图6比较了AmpereOne与AMD Bergamo和AMD Genoa的加载延迟，展示了自适应流量管理的有效性。

性能领先地位
AmpereOne在各种基准测试和工作负载中展示了令人印象深刻的性能指标：

1. SPECrate 2017_int_base:

每机架性能比AMD Genoa高出34%

每瓦性能比AMD Genoa高出50%

qpe3xbxt5lh640112469743.png

图7比较了AmpereOne与AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基准测试中的每机架性能和每瓦性能。

2. 云原生工作负载：

键值存储的每机架性能提高了58%

在容器化Web服务、缓存和数据库方面有显著改进

su42cbzjji2640112469844.png

图8展示了AmpereOne在各种云原生工作负载中相对于AMD Genoa和AMD Bergamo的每机架性能改进。

3. AI推理：

在无GPU推理性能和效率方面处于领先地位

在各种AI模型（包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B）中表现出色

ulcnfjlumvu640112469944.png

图9比较了AmpereOne与AMD EPYC和Intel Xeon处理器在不同AI模型中的推理性能和每瓦推理性能。

生态系统就绪
任何处理器架构的成功都取决于生态系统的支持。AmpereOne在各个类别中都拥有强大的生态系统：

操作系统：支持流行的Linux发行版，如Alma Linux和Ubuntu

编排、虚拟化和容器：与Docker、Kubernetes和VMware等领先平台兼容

语言和运行时：支持Java、Python、Go等

网络和存储：与Mellanox、Marvell等解决方案集成

应用程序：准备用于广泛的Web服务、数据库、AI和云游戏应用

0hbp4221e3a640112470044.png

图10展示了AmpereOne广泛的生态系统支持，突出显示了各种软件和硬件兼容性类别。

结论
AmpereOne代表了AI和云原生工作负载处理器设计的重大进步。其创新架构专注于可持续计算和可扩展性能，使其在快速发展的数据中心和云计算领域处于领先地位。随着对高效AI处理需求的持续增长，AmpereOne在分解设计、先进安全功能和生态系统支持方面的方法使其成为组织构建下一代云基础设施的极具吸引力的选择。

通过优先考虑每瓦性能和适应多样化工作负载的能力，AmpereOne不仅满足了行业的当前需求，还为未来可持续计算的创新奠定了基础。随着我们迈向日益由AI驱动的世界，像AmpereOne这样的处理器将在确保我们的技术进步不以环境可持续性为代价方面发挥关键作用。

参考文献
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.

END: R% o* h9 i% |: \2 L3 j/ p1 d

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

' E0 R& l6 s' |: i N

c2dgcf5cv33640112470144.gif

关注我们

rj20gyvvgpw640112470244.png

xf30cmr0kwg640112470344.png

000ak3qlygi640112470444.png

) T7 S3 l% n4 w5 j* p8 w

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Hot Chips 2024 | 可持续计算在AI和云原生工作负载中的应用

发表回复

精选推荐