英伟达创始人兼CEO黄仁勋,不但是个出色的技术工程师,也是位杰出的市场管理专家和营销大师。 


(资料图片仅供参考)

黄仁勋的营销才能,从其对GPU的定义可以窥视。原先,GPU只是一张显卡,后来黄仁勋将服务器也称为GPU。最近,“黄氏”GPU定义,已扩展至CPU叠加GPU内存算力集群。 

英伟达最近发布的超级计算机DGX GH200,从参数上看,性能极为惊人,结构也堪称精巧。但是,从技术原理上看,DGX GH200原本很可能并非为AI集训所设计,其内核Grace Hopper是决策型AI(为AI推荐系统所用)性质。 

从结构设计上看,DGX GH200从决策型AI“转型”到LLM方向,但其真正价值并非为LLM定制,而是其可扩展性、以及将CPU内存与GPU内存,通过NVLINK C2C组件整合起来的技术,从而实现黄仁勋将GPU的定义扩展为超算集群的逻辑自洽。 

至于真正的为LLM定制的针对性综合解决方案,黄仁勋还没给出答案。 

CPU+GPU=?

DGX GH200的核心是Grace Hopper(CPU+GPU)。每台DGX GH200,都搭载了多达256个Grace Hopper。 

黄仁勋将Grace Hopper称为“superchip”(超级芯片),这很像是一种营销表达。 

实际上,Grace是CPU,确实是为AI而生,但本身的技术特性不是高性能CPU算力,而是能耗控制。换句话说,Grace负责还过得去的算力性能;Hopper则是GPU,与印象中的英伟达GPU负责AI算力不同,“Grace Hopper”中的Hopper,负责的是散热。 

根据英伟达技术白皮书显示,Hopper是英伟达基于Hopper架构的GPU(即H100系列),而Grace则是英伟达自研的基于ARM架构的高性能CPU。 

这颗芯片的CPU核(core)型号是Arm的公版neoverse N2。根据英伟达在2021年发布Grace Hopper时的PPT信息,Grace是一款包含了76个CPU核的N2多核处理器。 

通过LPDDR5X(内存)通信接口,Grace接了高达512GB的内存(实际480GB),内存带宽也达到546 GB/s;Hopper(GPU)则通过HBM3(显存)接口接了最多96GB的显存,带宽可达3TB/s。 

LPDDR,即Low Power Double Data Rate,中文全称“低功耗双倍数据速率”,是美国JEDEC固态技术协会(JEDEC Solid State Technology Association)面向低功耗内存制定的通信标准。 

LPDDR有时候也等同于Low Power Double Data Rate SDRAM,中文全称“低功耗双信道同步动态随机存取内存”。通常,这以先进封装技术直接堆在CPU处理器上方,以低功耗和小体积著称,是移动应用场景的主流内存产品。 

2019年2月,JEDEC发布JESD209-5,即LPDDR5低功耗内存传输速率(通信)标准。相较于2014年发布的第一代LPDDR4标准,LPDDR5的I/O速度提升到6400 MT/s,实现翻番。 

基于LPDDR5的性能基础,LPDDR5X更进一步:数据传输速率从6400Mbps增至8533Mbps,对于支持8533Mbps LPDDR5X内存的移动SoC,其峰值理论可用带宽将进一步增长到68.26GB/s,从而赋予更广泛的设备拥有更多基于AI和5G的功能。 

Grace用了LPDDR5X,就其16GB的容量而言,即使用了8片,CPU的总容量也只有128GB,远远达不到决策AI所需要的存储空间,更遑论对LLM的容量支持要求。但黄仁勋采用了新的结构,也就是集成8颗Grace CPU,还将之互联成一个Unified Memory。 

这时,内存容量就高达1TB(8*128G),等于用X86的2S结构,相当于512GB per Socket的1TB容量。 

回到Grace Hopper超级芯片,其高达144TB的Memory(显存)量,实际上是LPDDR5X的内存叠加HBM3的显存,即256组的CPU 480GB内存(LPDDR5X)叠加GPU 96GB显存(HBM3)。简单折算下,就是每个节点8组搭配,约3.75TB的CPU内存加上768GB的显存。 

乍看上去,如此神一样存在的存储容量令人惊叹。但实际上,Grace Hopper的整体容量,除了内存还包括显存,这是从所未见的结构设计。但这种结构忽略了CPU同样令人惊奇的延迟。 

这问题该怎么解决?若解决不了,以Grace Hopper为核心的DGX GH200,速度比蜗牛还慢,还怎么训练AI? 

因此,杰出的技术工程师黄仁勋,在Grace Hopper中,还应用了至关重要的组件“NVLink C2C”。这个组件的核心是NVLink通信协议,将Grace的CPU与Hopper的GPU之间传输数据量的带宽,以900GB/s的带宽速率联系起来,远超常规的64GB/s带宽速率。 

这就是黄仁勋敢于将LPDDR5X内存的CPU容量算到DGX GH200超算机整体存储规格的底气。虽然叠加高容量CPU内存会带来超级延迟的不利后果,但GPU对延迟并不敏感,通过以NVLINK通信协议为核心的NVLINK C2C组件,将CPU的内存变成了GPU内存,以此消除高容量CPU内存带来的延迟。 

这种结构和部件设计,也是DGX GH200超算机引以为傲的可扩展性特征。 

价值和不足

DGX GH200超算机的性能取决于存储空间的大小。144TB还能扩展吗?当然可以。这可通过将Grace Hopper与英伟达Bluefield DPU的接口连接InfiniBand,这样就可进一步扩展到更大的规模,从而实现更高性能的计算。 

虽然看上去有144TB超级内存空间,900GB/s的传输速率也相当牛逼,但平均下来每组Grace Hopper的带宽也就200GB/s,与144TB共享显存带宽差太远。 

总体来说,对DGX GH200超算机的性能来说,Grace Hopper芯片组的结构设计是关键,而英伟达的NVLink协议具有的超高性能数据互联能力是关键中的关键,核心中的核心。通过提供高达900GB/s的带宽并且提供一致性接口,Grace Hopper实现强悍的可扩展性。 

Grace Hopper中CPU与其他高性能服务器端ARM CPU的区别,也许就是对于NVLink接口的支持,而这也成了Grace Hopper的最显著亮点。 

虽然英伟达发布的DGX GH200超算机,其内核Grace Hopper的结构设计和软件超高速一致性内存接口NVLink的奇思妙想,并非是对AGI做的针对性整体解决方案。但是,黄仁勋的技术和结构设计能力肌肉秀,真正的价值是对处于AI生成式技术和应用阶段,对具有超强性能的算力集群产品做出符合AGI阶段的标准定义。 

这里可能需要简单解释下为什么DGX GH200超算机不是为AGI做出的针对性解决方案,而是主要面向决策式传统AI的推荐系统。 

首先,DGX GH200超算机的核心结构Grace Hopper芯片组发布于2021年。那时虽然AGI也在迭代中,但远远没有像2022年12月OpenAI发布的ChatGPT-3.5这种现象级应用带来的轰动效应,因而也没有像现在这样全球范围内的广泛关注度。 

其次,从技术原理看,传统AI决策型推荐系统的特点是内存占用大,但计算数据要转换的热数据(指频繁访问的在线类Data)并不多。因此,通行的做法是,通过系统设计,在CPU内存中临时存放热数据,再以GPU侧的HMB显存做cache并导入热数据,对带宽和CPU内存速度要求不高。 

大模型的数据转移特征是什么?内存占用也不小,但每次计算来回流动的基本是热数据,少有数据集之类的冷数据。所以就两难,若选择将海量热数据放到LPDDRX5,带宽还是有点不够(毕竟每组Grace Hopper带宽也只有200GB/s);若放冷数据,成本又太高。 

这里还有个问题,就是维护成本极高。Grace Hopper就物理形态看,CPU和GPU还各自独立,这两种芯片互联使用的是PCB板上的走线。在技术逻辑角度,这两种物理芯片的存储空间通过NVLink C2C组件和NVLink协议,被集成为一个整体。 

因此,高度集成的Grace Hopper,但凡坏一块LPDDR5X,整个芯片组就要报废。这样的维护成本,除了巨头比如微软和谷歌这种不差钱的公司,其他公司都难以承受。 

综合来说,Grace Hopper的LLM应用,在DGX GH200超算机的技术丛集中,并没有显现出惊艳的亮点;其结构设计确实表现出色,但这很像是以LLM需求所做的微调。因为这个结构,发布于2021年,那时LLM应用方向也还并不向今日这样如此明确。

风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

推荐内容