分享

AMD Ryzen AI 300与Ryzen 9000浅析:AI PC的进阶形态

 爱极物 2024-08-07 发布于上海

接下的两周,AMD Ryzen AI 300笔记本与Ryzen 9000台式机CPU会相继发售,为了狙击Intel Lunar Lake,AMD特意将笔记本端的命名修改成300起步,以此暗示要比9月发布的Core Ultra 200系列强一点。

从参数来看,Ryzen AI 300(代号Strix Point)已经表现出了强劲的开局,Zen 5 微架构、图形、AI性能表现都将定义未来近一年的台式机和笔记本竞争格局,50 TOPS的XDNA 2 NPU和RDNA 3.5 iGPU也将帮助Ryzen AI 300进一步抢占市场,对英特尔造成更大的压力。

那么Ryzen AI 300和Ryzen 9000应该有什么值得期待的,未来一年台式机、笔记本、Windows掌机还会发生什么变化,不妨让我们稍微进行展开。

提升IPC

每周期指令数IPC(Instructions Per Cycle)是衡量CPU性能的重要指标之一,IPC越高,意味着CPU可以在每个时钟周期内执行更多指令,尤其是在比较不同架构、型号处理器时,IPC可以作为很好的参考。

提升IPC的方式有很多,包括改进微架构、增加流水线、提升指令集并行度等。Zen 5微架构中使用了双管取指(Dual-pipe Fetch)的方式,即使用两个取指管道并行从内存中获取指令,并行执行,以提高执行效率。与此同时,这项技术与AMD的高阶分支预测结合,以减少延迟并提升准确性和吞吐量。这样通过降低指令缓存延迟和带宽优化的方式,可以在不牺牲准确性的情况下进一步提高数据流和数据处理速度。

Zen 5整数执行能力在Zen 4的基础上也进行了提升,Zen 5使用了8宽的调度与退役系统,(8-wide Dispatch/Retire),即可以同时调度和退役最多8个整数指令。在逻辑单元部分,提供了6个计算逻辑单元ALU和3个乘法器,均通过ALU调度器进行控制,以此来适应更复杂的工作负载。

与此同时,Zen 5相对Zen 4提供了更多数据带宽,包括48KB的12路 L1数据缓存,可以满足4个周期的负载,可看到的是L1缓存的带宽增加了一倍,浮点单元也相当于Zen 4增加了一倍,Zen 5还改进了数据预取器,以保证更快、更可靠的数据访问和处理。

在Zen 4时代,AVX-512指令集使用的是两个256bit的数据路径(data paths),可以同时处理两个 256 位的数据,但每个数据路径只有256bit宽度,在处理 AVX-512指令时,需要使用两个数据路径来完成。而Zen 5还引入了完整的512bit AI数据路径,这个数据路径包含了6个流水线,并且在FADD(浮点加法)操作上具有两个周期的延迟。因此Zen 5能够一次性处理AVX-512指令所需的全部数据,是一个很明显的进步。

而对于玩家而言,IPC的直观提升更为重要。AMD表示Zen 5相对Zen 4的IPC平均提升达到了16%,在对比的数据中包括《孤岛惊魂6》提升了10%,《英雄联盟》提升了21%,Geekbench 5.4 AES-XTS提升了35%。

落实到具体产品上,基于Zen 5的Ryzen AI 300顶配是Ryzen AI 9 HX 370,配备12个Zen 5核心,最高频率5.1GHz,拥有24MB L3缓存。向下一级是Ryzen AI 9 365,配备10个Zen 5核心,5.0GHz频率,具备和HX 370相同的24MB L3缓存,仅仅在核心数量上有所减少。

AMD还会再晚些时候公布更多的SKU,但基本上已经定局HX和标准版两个产品线,具备TDP 15W到54W的性能释放,可以应用在轻薄本乃至游戏本中。基本上通过调整全尺寸Zen 5核心与紧凑Zen 5c核心数量,达到性能释放与续航的目的。

在iGPU上,两款产品都会推出基于RDNA 3.5的Radeon 890M的集成显卡,其中Ryzen AI 9 HX 370最高配置16个图形计算单元,Ryzen AI 9 365配备的是12个。

近期延期的台式机版本Ryzen 9000系列包含了4个SKU,均是不锁倍频的X结尾版本。旗舰Ryzen 9 9950X配备16个核心,最高增频可达5.7GHz,缓存总量为80 MB,其中包括64 MB L3缓存和16MB L2缓存(每个核心1MB L2缓存),热设计功耗TDP为170W。而Ryzen 9 9900X则提供了12个核心,最高频率可达5.6 GHz,64MB L3缓存,热设计功耗120W。

再往下还包括了8个核心的Ryzen 7 9700X和入门版的Ryzen 5 9600X。

在接口上,Ryzen 9000和Ryzen 7000没有太大区别,都使用的是LGA1718插槽,使用的是台积电6nm制造,不过只有Ryzen 9000使用的是Zen 5核心,Ryzen 7000依然是Zen 4。

另外针对Ryzen 9000还加入全新的超频功能Curve Shaper,本质上是Curve Optimizer的增强版本,允许用户进行3个温度和5个频率,共计15个方案的频率和电压曲线调整。

在性能上,AMD自然也不忘与Intel Core i9-14900K、Core i7-14700K以及Core i5-14600K进行对比。AMD Ryzen 9 9900X相对Core i9-14900K在UL Procyon Office中提升了2%,但在利用AVX-512指令的HandBrake负载中拥有41%的提升。

Ryzen 7 9700X相对Core i7-14700K提升幅度相当明显,包括7-Zip,UL Procyon Office和HandBrake全方位的提升。同时游戏上也有4%到31%提升的收益。

Ryzen 5 9600X相对Core i5-14600K也是类似的情况,包括HandBrake性能提升94%,主要利用了AVX-512性能。游戏测试中提升达到5%到29%。

AMD表示他们提升了CPU的整体热阻,相对Ryzen 7000系列提升了15%,并降低了Ryzen 9000系列的工作温度。在相同TDP下,平均工作温度降低7%。因此除了Ryzen 9 9950X,新系列所有产品均降低了TDP,例如Ryzen 9 7900X仅为170W TDP,Ryzen 9 9900X 120W TDP,Ryzen 7和Ryzen 5 65W TDP。

与此同时,Zen 5同样支持AM5平台,包括X670E、X670、B650E和B650主板,虽然新一波的AM5主板对应X870E、X870、B850、B840蓄势待发,如果想第一时间入手,600系列仍然是第一选择。

让NPU达到50 TOPS

AMD Ryzen AI 300 Strix Point与之前Ryzen 8040 Hawk Point相比,最大的进步增强了NPU。在2020年,AMD收购了赛灵思Xilinx,通过整合Xilinx技术从而启动了NPU开发,形成了最初的AMD XDNA架构。AMD Ryzen AI 300则为XDNA 2,进一步增强了扩展和性能,包括引入对块浮点16bit算法(Block FP16),通常情况下,半精度浮点数(FP16)用于减少存储和处理需求,但可能牺牲了一定的数值精度。块浮点16bit方法通过提升数据结构,以实现更好的性能和更接近完整精度的数值表现。同时,AMD表示这种方法结合了8bit的性能和16bit精确性。

与其他神经网络精度优化类似,Block FP16的目的是减少所需的计算工作量,在处理INT8数据时可以通过原生的方式应对,而非通过FP16兼容实现,从而提升速率和优化性能。当然,Block FP16本身不是一项新技术,只是AMD成为第一个将其纳入NPU范畴的厂商,未来英特尔Lunar Lake也会使用类似的设计。

AMD XDNA架构与多核处理器典型设计其实不太一样,XDNA必须将灵活计算与自适应内存层次结构结合,与固定计算模型或者静态内存层次结构模型相比,Ryzen AI XDNA引入了AIE(AI Engine,AI引擎)网络进行互联,每个引擎都能动态适应手头的任务,包括分配计算资源和内存资源,从而实现资源分配的效率和扩展性。

AMD将这套AIE连接方式称为空间架构(Spatial Architecture),它的设计具有很强的灵活性,同时将平铺数据流结构与可编程互联、灵活分区相结合,平铺数据流结构可以实现确定性性能,避免了缓存未命中带来的性能波动。这是因为每个任务的数据和计算可以在预定义的贴片(Tile)内完全控制和处理,不依赖于缓存。

此外,空间架构还有助于优化内存管理,减少对内存带宽需求,满足AI推理任务,包括实时视频和音频处理,内容创作工作流的不同要求。

XDNA 2架构可以理解为基于XDNA的升级版本,并增加了更多AI引擎以提升吞吐量。AMD Ryzen AI 300 Strix Point的XDNA 2中可包含32个AI引擎贴片Tile,比上一代多了12个,并且每个Tile的乘法累加器(Multiply-Accumulate,MAC)数量提升了一倍,片上内存提升了1.6倍。最终让NPU的性能达到50 TOPS,超过目前英特尔和高通的产品,同时符合微软对Copilot+设定的40 TOPS的标准。

XDNA 2除了提升TOPS,在电源效率上也有显著提升。AMD表示相对于Ryzen 7040中的NPU,XDNA 2 NPU可以用2倍的能效获得5倍的计算性能,能够帮助笔记本获得更长的电池续航,也能够在多任务处理时最多实现8个并发空间流。

简单的说,Ryzen AI 300中的XDNA 2 NPU实际上是通过分配AI工作负载,以更节能的方式运行微软Copilot+等离线AI功能,并且由于同时提供INT8和FP16的计算支持,也给了开发人员更多的调用硬件空间,从而发挥最高50 TOPS的NPU性能。从而也进一步确保AMD作为第一家在x86上使用NPU的厂商的领先地位。

核显的进阶

Ryzen AI 300的另一个进阶就是RDNA 3.5的核显图形架构。RDNA 3.5相对RDNA 3有着显著升级,一方面是AMD与ISV开发人员密切合作,以提高RDNA 3.5在游戏中的每瓦性能。其中包括改善常规图形着色器,减少内存访问时间,同时也确保在离电环境下进一步延长移动设备的续航时间。

与RDNA 3相比,RDNA 3.5着重针对了移动平台优化,确保了Ryzen AI 300中Radeon 890M在能效和性能上有长足的进步,包括RDNA 3.5的插值和比较率提高了两倍,这对于处理高质量图形非常重要。插值操作能够平滑地处理图像中的细节和过渡效果,而比较率则影响到处理复杂图像算法时的效率和精度。同时也优化向量指令集架构(ISA),以获得进一步的图形展现能力。

RDNA 3.5还优化了LPDDR5内存访问的频率,让其在整体上更节能。在最终工作负载体现上,RDNA 3.5有着更强的表现,相比Ryzen 8040核显每瓦性能提升了32%,特别是在15W功耗下,3DMark Timespy和3DMark Night Raid提升达到了19%到32%。

写在最后

目前Ryzen AI 300系列的笔记本已经开卖,相比骁龙X Elite搭配Windows on Arm被限制应用场景,基于x86平台的Ryzen AI 300和即将到来的台式机CPU Ryzen 9000系列,会帮助我们进一步加速进入AI PC时代。特别是对于依赖iGPU和NPU的轻薄型笔记本和游戏掌机而言,能在移动端获得更强的的性能无疑是让人振奋的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多