Hot Chips 2024 | NVIDIA Blackwell平台推进生成式AI和加速计算

逍遥设计自动化 · 发表于 2024-9-23 08:01:00

引言
NVIDIA Blackwell平台代表了生成式AI和加速计算领域的重大进步。本文将討論Blackwell平台的关键组件和创新，展示其如何应对AI工作负载的不断增长需求，并推动计算能力的极限[1]。

NVIDIA Blackwell平台简介
Blackwell平台是NVIDIA最新推出的数据中心规模架构，旨在应对日益复杂的AI模型和加速计算任务带来的挑战。该平台的核心组件包括：

Blackwell GPU

Grace CPU

NVSwitch芯片

BlueField-3

ConnectX-7和ConnectX-8

Spectrum-4和Quantum-3网络解决方案

xaz3mp4sar56402431047.png

图1：NVIDIA Blackwell平台组件，包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和网络解决方案。

这些组件协同工作，为AI和高性能计算工作负载提供全面的解决方案。该平台建立在NVIDIA开发CUDA-X库的丰富经验基础上，这些库优化了各种应用领域的性能。
8 X2 r/ }$ E# c6 R2 X

Blackwell GPU：AI计算的新时代
Blackwell GPU是Blackwell平台的核心，这项工程奇迹推动了AI计算的可能性边界。

kvd42alc1cp6402431147.png

图2：NVIDIA Blackwell GPU，展示其主要特性和功能。

Blackwell GPU的主要特点包括：

使用台积电4NP工艺制造的2080亿晶体管

20 PetaFLOPS FP4 AI性能

8 TB/s内存带宽，采用8位HBM3e

1.8 TB/s双向NVLink带宽

与Grace CPU的高速NVLink-C2C连接

Blackwell GPU相比其前代产品有显着进步，提供更强大的AI计算能力、内存带宽和互连能力。

hrgzto5pnn46402431247.png

图3：从Volta到Blackwell的NVIDIA GPU演进，展示晶体管数量和芯片面积的增加。

Blackwell GPU的一项关键创新是NVIDIA高带宽接口（NV-HBI），在单边提供10 TB/s的双向带宽。这个接口允许创建具有全面性能的统一GPU，不牺牲速度或效率。

NVIDIA GB200 Grace Blackwell超级芯片
GB200 Grace Blackwell超级芯片将Grace CPU和Blackwell GPU的性能结合在一个封装中，为AI工作负载提供无与伦比的性能。

zpjgaokcfbe6402431348.png

图4：GB200 Grace Blackwell超级芯片，展示Grace CPU和Blackwell GPU的集成。

GB200 Grace Blackwell超级芯片的主要特点包括：

1个Grace CPU和2个Blackwell GPU

NVLink-C2C互连

40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能

高带宽和低延迟通信

针对AI工作负载中的键值（KV）缓存进行了优化

NVIDIA Quasar量化系统：实现低精度AI
Blackwell平台引入了NVIDIA Quasar量化系统，实现低精度AI计算而不牺牲准确性。该系统解决了与低精度计算相关的几个挑战：

精度损失

非均匀层敏感性

窄动态范围

量化噪声

m2i32vpsv536402431448.png

图5：NVIDIA Quasar量化系统，说明组件和研究领域。

Quasar量化系统包括几个关键组件：

Transformer引擎：硬件和软件优化

库：TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等

低精度数值算法：基于敏感度的层选择、动态范围正则化等
[/ol]
Blackwell GPU最显著的创新之一是第5代Tensor Core，引入了新的微张量缩放FP格式，包括FP4和FP6。

jqzkjevoimk6402431548.png

dph0fqkmada6402431648.png

图6：第5代Tensor Core支持的FP格式总结，比较Hopper和Blackwell的性能。

这些新格式提供了几个优势：

更宽的FP范围

放大的带宽

更低的功耗

更精细的量化粒度

Quasar量化系统的有效性通过令人印象深刻的FP4推理准确性结果得到证明：

ozl5hmaalel6402431748.png

图7：各种模型的FP4推理准确性结果，比较BF16和量化FP4性能。

这些结果表明，即使是像Nemotron-4 340B这样的大型语言模型，使用量化FP4也能达到出色的MMLU（大规模多任务语言理解）分数，匹配甚至略微超过BF16模型的性能。

AI网络：端到端性能和功率扩展
随着AI模型规模和复杂性的指数级增长，对大规模多GPU推理的需求变得越来越重要。Blackwell平台通过先进的网络解决方案应对这一挑战。

2jbtw32ba3z6402431848.png

图8：AI模型规模随时间的增长，说明参数数量的指数级增加。

为满足这些不断增长的模型需求，NVIDIA开发了世界级的NVLink PHY性能：

q4xfvrk3fa16402431948.png

图9：从Ampere到Blackwell的NVLink性能演进，展示带宽和链路速度的增加。

Blackwell平台引入了第5代NVLink PHY，通过18个NVLink提供1800GB/s的总带宽，每个NVLink能力达到100GB/s。

网络解决方案的另一个关键组件是第4代NVLink Switch Chip和NVLink Switch Tray：

35kxgkqpwzv6402432049.png

图10：第4代NVLink Switch Chip和NVLink Switch Tray，突出显示主要特性和功能。

NVLink交换芯片的主要特点包括：

台积电4NP工艺中>800 mm2的芯片面积

在GB200 NVL72上将NVLink扩展到72个GPU

通过72个端口实现7.2 TB/s全双向带宽

SHARP（可扩展分层聚合和规约协议）网内计算，3.6 TFLOPS性能

NVLink交换托盘包含两个NVLink交换芯片，提供总计14.4 TB/s的带宽。

GB200 NVL72和NVL36：新的计算单元
Blackwell平台引入了两种强大的配置：GB200 NVL72和GB200 NVL36，在单个机架中提供前所未有的计算能力。

eo3jvx51lyc6402432149.png

图11：GB200 NVL72和NVL36配置，展示每种设置中的GPU、CPU和NVLink交换托盘数量。

GB200 NVL72配置提供：

36个Grace CPU

72个Blackwell GPU

9个NVL72 NVLink交换托盘

720 PFLOPs的训练性能

1,440 PFLOPs的推理性能

支持27万亿参数的NVL模型大小

130 TB/s的多节点带宽

260 TB/s的多节点全规约

这种配置能够高效扩展大型AI模型，包括具有1.8T参数的GPT专家混合（MoE）等万亿参数架构。

imtnn4vne246402432249.png

图12：GB200 NVL72在万亿参数AI模型上的性能比较，展示吞吐量和能效的改进。

GB200 NVL72配置展示了令人印象深刻的性能提升：

与前代相比，吞吐量提高30倍

能效提升25倍

总拥有成本（TCO）降低25倍

结论：AI和加速计算的未来
NVIDIA Blackwell平台代表了AI和加速计算领域的重大进步。通过解决不断增长的模型规模、计算需求增加以及高效网络需求的挑战，Blackwell为性能和效率设立了新标准。

k5hui4llqno6402432349.png

图13：NVIDIA数据中心规模架构的路线图，展示从Hopper到Blackwell及未来的演进。

Blackwell平台的主要成就包括：

全栈、数据中心规模平台，涵盖GPU、CPU、NVSwitch、DPU、NIC和网络交换机

NVIDIA Quasar量化系统实现低精度AI而不牺牲准确性

实时万亿参数LLM推理性能提升超过一个数量级

AI训练、推理和加速计算的性能和功耗显著改善

通过提供必要的计算能力、内存带宽和网络能力，Blackwell使研究人员、开发人员和企业能够解决日益复杂的问题，在人工智能和高性能计算领域开启新的可能性。

参考文献
[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

: _7 c0 t0 n* U! G$ q

51ru2ery2g36402432449.gif

关注我们

gslhxcf1eyg6402432549.png

pks442qgcst6402432649.png

3u0h1j54xwh6402432749.png

1 I# E9 s, [* D+ U j

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Hot Chips 2024 | NVIDIA Blackwell平台推进生成式AI和加速计算

发表回复

精选推荐

浏览过的版块