NVIDIABlackwellGPU架构官方2080亿个晶体管5倍AI性能192GBHBM3e显存8TB/s带宽

导读 NVIDIA已正式推出其下一代BlackwellGPU架构,与HopperH100GPU相比,其性能提升高达5倍。NVIDIABlackwellGPU的AI性能比HopperH100快5倍,引...

NVIDIA已正式推出其下一代BlackwellGPU架构,与HopperH100GPU相比,其性能提升高达5倍。NVIDIABlackwellGPU的AI性能比HopperH100快5倍,引领下一代AI计算的潮流NVIDIA已正式公布其代号为Blackwell的下一代AI和TensorCoreGPU架构的完整细节。正如预期的那样,BlackwellGPU是第一个采用NVIDIA首个MCM设计的GPU,该设计将在同一个芯片上集成两个GPU。

世界上最强大的芯片—Blackwell架构GPU包含2080亿个晶体管,采用定制的4NPTSMC工艺制造,具有两个十字线极限GPU芯片,通过10TB/秒的芯片到芯片链路连接成单个统一的GPU。

第二代Transformer引擎—在新的微张量缩放支持和集成到NVIDIATensorRT™-LLM和NeMoMegatron框架中的NVIDIA先进动态范围管理算法的推动下,Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。

第五代NVLink—为了加速数万亿参数和混合专家AI模型的性能,最新迭代的NVIDIANVLink®为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信对于最复杂的法学硕士。

RAS引擎—Blackwell支持的GPU包含一个专用引擎,可实现可靠性、可用性和可服务性。此外,Blackwell架构还增加了芯片级功能,利用基于人工智能的预防性维护来运行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间并提高大规模人工智能部署的弹性,使其能够连续运行数周甚至数月,并降低运营成本。

安全人工智能——先进的机密计算功能可在不影响性能的情况下保护人工智能模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。

解压缩引擎-专用解压缩引擎支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。未来几年,公司每年花费数百亿美元的数据处理将越来越多地由GPU加速。

深入了解细节,NVIDIABlackwellGPU的每个计算芯片上总共有1040亿个晶体管,这些芯片是在台积电4NP工艺节点上制造的。有趣的是,Synopsys和台积电都利用NVIDIA的CuLitho技术来生产BlackwellGPU,这使得每颗芯片都加速了这些下一代AI加速器芯片的制造。B100GPU配备10TB/s高带宽接口,可实现超快速的芯片间互连。这些GPU统一为同一封装上的一颗芯片,提供多达2080亿个晶体管和完整的GPU缓存一致性。

与Hopper相比,NVIDIABlackwellGPU提供了1280亿个以上的晶体管、5倍的AI性能(每芯片提升至20petaFlops)以及4倍的片上内存。GPU本身与8个HBM3e堆栈相结合,具有世界上最快的内存解决方案,通过8192位总线接口提供8TB/s的内存带宽和高达192GB的HBM3e内存。为了快速总结与Hopper的性能数据,您将得到:

20PFLOPSFP8(2.5x料斗)

20PFLOPSFP6(2.5x料斗)

40PFLOPSFP4(5.0x漏斗)

740B参数(6.0x料斗)

34T参数/秒(5.0x料斗)

7.2TB/秒NVLINK(4.0x料斗)

NVIDIA将提供BlackwellGPU作为一个完整的平台,将其中两个GPU(四个计算芯片)与单个GraceCPU(72个ARMNeoverseV2CPU内核)相结合。GPU之间以及GraceCPU之间将使用900GB/sNVLINK协议互连。

2024年NVIDIABlackwellB200GPU-192GBHBM3e

首先,我们有NVIDIABlackwellB200GPU。这是两款Blackwell芯片中的第一款,将被采用到SXM模块、PCIeAIC和Superchip平台等各种设计中。B200GPU将是首款采用小芯片设计的NVIDIAGPU,具有两个基于台积电4nm工艺节点的计算芯片。

MCM(多芯片模块)在NVIDIA方面已经出现了很长时间,随着该公司试图解决与下一代工艺节点相关的挑战(例如良率和成本),它终于出现了。Chiplet提供了一种可行的替代方案,NVIDIA仍然可以在不影响其供应或成本的情况下实现更快的一代比一代性能,而这只是其Chiplet之旅的一块垫脚石。

NVIDIABlackwellB200GPU将是一款怪物芯片。它总共包含160个SM,20,480个核心。GPU将采用最新的NVLINK互连技术,支持相同的8GPU架构和400GbE网络交换机。它也将非常耗电,峰值TDP为700W,尽管这也与H100和H200芯片相同。总结一下这个芯片:

TMSC4NP工艺节点

多芯片封装GPU

1-GPU1040亿个晶体管

2-GPU2080亿个晶体管

160个SM(20,480个核心)

8个HBM包

192GBHBM3e内存

8TB/秒内存带宽

8192位内存总线接口

8层堆栈HBM3e

PCIe6.0支持

700WTDP(峰值)

在内存方面,BlackwellB200GPU将配备高达192GB的HBM3e内存。这将在八个8-hi模块堆栈中实现,每个模块在8192位宽总线接口上具有24GBVRAM容量。这将比H10080GBGPU增加2.4倍,从而使芯片能够运行更大的LLM。

NVIDIABlackwellB200及其各自的平台将开辟人工智能计算的新时代,并为AMD和英特尔尚未得到广泛采用的最新芯片产品带来残酷的竞争。随着Blackwell的亮相,NVIDIA再次巩固了自己作为AI市场主导力量的地位。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。