AMD、Intel这些竞争对手纷纷拥抱大小核,NVIDIA这次落后了吗?
20230122/本社公关部20230201引用
虽然摩尔定律已经逐渐走到尽头,但我们却来到了一个更加看点十足的时代,不同於以往每隔18个月靠技术换代带来的常规演变,以Intel、NVIDIA和AMD为首的晶片巨头之间的竞争变得异常激烈。从Intel、NVIDIA、AMD三家的产品布局来看,三家几乎都集齐了CPU、GPU甚至是DPU产品线。如今,他们正在酝酿更大的规划!
随著近日AMD推出CPU和GPU组合的下一代资料中心APU——Instinct MI300,自此,三家的「多PU组合」争斗战已经开打。
在此之前:
1)Intel的Falcon Shores XPU混合搭配CPU + GPU,
2)NVIDIA的Grace Hopper Superchip是Grace CPU + H100 GPU的组合,都是如出一辙。
3)AMD在CES 2023上披露了其下一代资料中心处理器Instinct MI300.
他们都在做一件伟大的事情:在一个晶片中内建CPU、GPU和AI加速器,最终成为一个类似APU的产品,目标是更广阔的超级运算市场。
但是在实现方式上,NVIDIA落后了?
Intel的XPU计画之一:Falcon Shores
首先来说下Intel的XPU计画?XPU是指使用多种运算架构以最好地满足单个工作负载的执行需求的想法,这是Intel过去几年来最感兴趣的一个方向。
Intel希望将X86和Xe结合起来用於超级运算/HPC市场。这也导致了Intel开始研发从CPU、GPU个一些ASIC产品(如IPU、VPU、FPGA)等等各种产品。
在Intel2022年年度投资者会议上,Intel披露了一个代号为Falcon Shores的处理器新架构,它将x86 CPU和Xe GPU硬体组合到单个Xeon插槽晶片中,利用下一代封装、记忆体和 I/O 技术,为运算大型资料集和训练巨大 AI 模型的系统提供巨大的性能和效率改进。
不过Intel的目标似乎不仅仅是将CPU和GPU内建在一起,Intel正在寻求为拥有绝对巨量资料集HPC使用者开辟市场——这种资料集无法轻松适应独立GPU相对有限的记忆体容量。
Falcon Shores的目标是在2024年推出,采用埃米级制程,这意味著它可能会使用Intel 20A或Intel 18A制造工艺制造。
Intel预计Falcon Shores在多个指标上比当前一代产品增长5倍,包括每瓦性能提高5倍,单个 (Xeon) 插槽的运算密度提高5倍,记忆体容量增加5倍,记忆体频宽增加5倍。
Intel表示,Falcon Shores的混合设计是透过使用tile(也称为小晶片)实现的,透过提供x86和Xe核心之间的灵活比例,这将使晶片制造商在设计过程的后期组态晶片方面具有更大的灵活性。
AMD发布Instinct MI300 APU
近日,AMD在CES 2023上披露了其下一代资料中心处理器Instinct MI300,被AMD称之为下一代资料中心APU。它采用了13个Chiplet,共有1460亿个电晶体,MI300可以说是AMD迄今为止最大的晶片。
该晶片的运算部分由九个5nm小晶片组成,它们包含CPU或GPU核心,但AMD没有详细说明每个小晶片的使用数量。
这九个裸片被3D堆叠在四个6nm基础裸片之上,而且这些裸片是有源的中介层,可以处理 I/O和各种其他功能。从下图中可以清晰的看到,Instinct MI300中心晶片侧面的八个HBM3堆叠。
MI300的关键优势除了将CPU核心和GPU核心放在同一设计中的操作简单性之外,还在於它可以让两种处理器类型共享一个高速、低延迟的统一记忆体空间。
这将使在CPU和GPU两个核之间快速且轻松的传递资料,能让每个核处理他们最擅长的运算方面。此外,它还可以透过让两种处理器类型直接存取同一记忆体池,简化插槽等级的HPC程式。
但是MI300晶片并不是批次产品,因为其价格昂贵且相对稀缺,所以它们不会像EPYC Genoa资料中心CPU那样得到广泛部署。AMD预计将在2023年下半年交付Instinct MI300。
但是,这一Chiplet的设计技术将会衍生出更多的变体。
NVIDIA Grace Hopper Superchip
不同於Intel和NVIDIA采用Chiplet架构的做法,NVIDIA首款GPU+CPU组合——Grace Hopper Superchip还是单晶片的方式,下图是算绘图。
Nvidia对其Grace Superchip的算绘图:两个带有RAM的处理器合二为一
NVIDIA?Grace Hopper架构将NVIDIA Hopper GPU与NVIDIA Grace? CPU结合在一起,在单个超级晶片中连接高频宽和记忆体一致的NVIDIA NVLink Chip-2-Chip(C2C)?互连,并支援新的NVIDIA NVLink开关系统。
NVLink C2C是NVIDIA为超级晶片开发的记忆体相干、高频宽和低延迟互连。它是Grace Hopper超级晶片的核心,提供高达900 GB/s的总频宽。这比加速系统中常用的x16 PCIe Gen5通道的频宽高7倍。
结合NVIDIA NVLink切换系统,所有运行在最多256个NVLink连接的GPU上的GPU执行绪现在都可以以高频宽存取高达150TB的记忆体。
NVIDIA表示,该超级晶片将为运行TB级资料的应用程式提供高达10倍的性能提升,NVIDIA已承诺在2023年上半年推出其超级晶片。
可以看出,Intel、NVIDIA和AMD都开始在CPU+GPU组合上发力,他们改采用的方式:要么晶片继续平铺做大,要么拼3D堆叠、Chiplet、拼架构。
目前从各家的CPU+GPU组合型产品推出的时间上来看,AMD和NVIDIA都在2023年,而Intel将在2024年。软体支援方面,Intel有oneAPI,NVIDIA有CUDA,AMD似乎还稍逊一些。
而在架构方面,Intel、AMD均已奔向3D Chiplet,但NVIDIA似乎仍在单晶片上努力。
NVIDIA何时拥抱Chiplet?
Chiplet用於CPU已经不是新闻了,AMD多年来一直在其Ryzen和Epic等CPU处理器中使用Chiplet设计并取得了巨大成功。
Intel也於2023年1月11日正式发布了基於Chiplet设计的第四代至强CPU-Sapphire Rapids,它透过内建加速器将目标工作负载的平均每瓦性能提升了2.9倍,在最佳化电源模式下每个CPU节能可高达70瓦,将总体成本降低52%-66%。
但是就目前的情况来看,GPU也已迈入了Chiplet时代。
如今Intel和AMD已经均已发布了3D Chiplet CPU和GPU中的产品。
而NVIDIA无论是GPU还是CPU似乎还在单晶片上努力,NVIDIA要落后了吗?
2023年1月11日,Intel发布了其首款Chiplet小晶片封装的GPU,代号Ponte Vecchio,GPU Max系列单个产品整合47个小晶片,内建超过1000亿个电晶体。
这是Intel性能最高、密度最高的通用独立GPU。Intel的这一晶片的具体性能对比情况暂未可知,但是我们暂且可以看看AMD与NVIDIA的GPU性能对比。
AMD最新一代的GPU Navi 31,是AMD第一款、也可以说是历史上第一个基於Chiplet设计的GPU,AMD的两款最新显示卡Radeon RX 7900 XTX和Radeon RX 7900 XT均是基於Navi 31。
其中,XTX是旗舰机型,拥有更多的shader处理器,更高的记忆体频宽,更多的视讯记忆体,而XT则是有些弱化的版本。
如果我们将AMD的显示卡和NVIDIA的RTX 4080作对比,AMD的GPU的性能非常接近NVIDIA的RTX 4080。
据chipsandcheese的评测对比资料,如下图所示,NVIDIA的4080采用4nm制程,电晶体密度比AMD的低一些,面积也更大一些,但NVIDIA4080具有更高的SM数量,这意味著暂存器档案和FMA单元相比AMD要有更多的逻辑控制。
NVIDIA还具有更简单的快取层次结构的优势,它仍然提供相当大的快取容量。
AMD 7900/6900与NVIDIA4080的比较(图源:chipsandcheese)
NVIDIA的GPU目前做法还是将所有的电晶体,都放在一个更大的单晶片上,采用尖端制程4奈米节点。
而AMD的Navi 31基於Chiplet设计和先进的RDNA3架构。其裸片由GCD核(图形运算晶片)和 MCD记忆体小晶片(记忆体快取晶片)组成。
从下图可以清晰的看到,中间部分是5nm制程的GCD核,周围分别是6颗6nm制程的MCD,包含记忆体控制器和Infinity快取。
AMD Navi 31裸片(图源:AMD)
两种不同工艺的晶片组装在一起,所使用的尺寸更小,与此同时,Chiplet的设计方式使得晶圆的缺陷晶片数量也少的多,从这个意义上来说,Chiplet架构的使用降低了成本。
Chiplet的设计还助於透过在图形晶片上使用更少的区域来实现VRAM连接,进而做到更高频宽的 VRAM 设定。但是也不是万利的,代价就是AMD必须支付更昂贵的封装解决方案,因为简单的封装走线在处理GPU的高频宽要求方面表现不佳。
此外,AMD Navi 31 GPU很重要的一项创新是Infinity Link汇流排,为何要说到这个呢?
因为Chiplet的设计方式绝对定会产生更多的延迟,而GPU是对延迟极其敏感的,所以AMD特意为此开发了全新的Infinity Link汇流排(即 Infinity Fanout Links 系统)来连接GDC和MCD部件,进而在GCD和MCD小晶片部件之间实现5.3 TB/s的频宽,这种超级先进的互连系统无疑是小晶片GPU设计的关键决定因素。
可以说,AMD的Navi 31为图形处理器世界带来了真正革命性的小晶片GPU设计,如果这一设计取得成功,那么未来GPU就可以不用依赖先进工艺来提升性能,而是透过堆叠更多的GCD来实现。GPU市场迎来新的战争。
3D IC设计逐渐成为了主流,Chiples也进一步崛起,在晶片大厂的推动下,基於Chiplet的3D IC设计进一步展示了其说服力。Chiplet将彻底改变这个行业。
NVIDIA何时采用Chiplet,备受业界关注,不过应该也快了,毕竟黄仁勋已指出,"Moore's Law is dead" 。
(20230201本社公关部)