芯片参数 “卷疯了”！MI450 对决 Vera Rubin，TGP、带宽双双猛增

AI科技 2025年10月01日 01:18 1 admin

现在AI对算力的需求涨得那叫一个快，大模型训练也从以前的FP32精度往FP8、FP4这种低精度走，这就对硬件的能效、内存快慢还有瞬间能爆发出的算力要求更高了,这不直接把NVIDIA和AMD在AI架构这块儿逼得贴身肉搏了。

芯片参数 “卷疯了”！MI450 对决 Vera Rubin，TGP、带宽双双猛增

两家都在紧急改下一代产品的设计，而这场比拼的核心，就落在AMD的Instinct MI450 AI系列和NVIDIA的Vera Rubin身上，比之前任何一代产品都打得凶。 AMD的高管Forrest Norrod说MI450是他们家的“米兰时刻”，这话其实挺有底气的。

当年EPYC 7003系列服务器芯片一出来，直接把英特尔在服务器市场的垄断给破了，现在他们就盼着MI450能在AI芯片这儿再来一回这风光事儿。Norrod甚至直说，MI450肯定比NVIDIA的Vera Rubin更能打，而且下一代产品线肯定用自家的技术栈，绝对不用“Team Green”（就是NVIDIA）的。

这话不是空口吹牛，看产品参数的调整就知道了。为了压过对方，MI450X的热设计功耗（TGP）比最开始多了200瓦，NVIDIA那边也没辙，把Vera Rubin的TGP加了500瓦，直接干到2300瓦了。

内存带宽更狠,Vera Rubin每块GPU从13 TB/s飙到20 TB/s。我觉得啊，这种参数猛涨，一方面是行业里对算力太着急了，另一方面也看出现在AI硬件竞争有点短视,光靠加功耗、提带宽换性能，虽然能快点满足大模型当下的需求，但长远来看，能效比才是真本事，能靠这个拉开差距。

AMD敢这么叫板NVIDIA，除了参数追上了，更关键的是它在服务器芯片那儿攒下的chiplet设计经验，这给MI450的架构优化托了底。 ## 二、技术都差不多了？

AMD追上来的门道在这儿以前AMD在AI芯片这儿跟NVIDIA差得挺多，倒不是说它不会设计硬件，主要是产品更新速度跟不上NVIDIA。NVIDIA有CUDA生态这个先发优势，能跟着市场需求快速调产品路线，AMD之前在软件适配和开发者这块儿没跟上，显得硬件差距更大了。不过等Vera Rubin和MI450一交手，这差距眼看着要变小了，关键就在于两家要用的核心技术都差不多。

从硬件底子来看，不管是HBM4高速内存、台积电N3P工艺节点，还是基于chiplet的模块化设计，都是两家的标配了。

这可不是巧合：HBM4能存更多东西，速度还快，正好解决AI计算里“内存不够快”的瓶颈；台积电N3P工艺比以前的更省电，性能还好，高端芯片想降功耗都得靠它；chiplet设计就是把不同功能的小模块拼起来，能省研发钱，还能更快出新品。值得说的是，台积电N3P工艺的产能有限，两家同时用，说不定会在供应链上较劲，甚至影响产品啥时候能上市。

Dan NVIDIA真正的优势不是硬件参数，是CUDA平台攒下的几百万开发者和一大堆优化工具。AMD要是真想打破垄断，除了硬件能打，还得在ROCm生态的适配速度、给开发者的支持上多下功夫——不然硬件再强，没有软件撑着，也落不了地。

D2D互连技术

除了AI芯片打架，AMD还有个技术突破得说说,给Zen6处理器准备的D2D（芯片到芯片）互连技术，现在已经能在Strix Halo APU上看到点影子了。这背后其实是行业的需求变了，现在NPU（神经网络处理单元）都往CPU里塞，传统的芯片间通信技术早就不够用了，成了性能的绊脚石。

在这之前AMD从Zen 2开始就一直用SERDES PHY技术让芯片之间通信——简单说就是把并行数据转成一串比特流，在基板上传，到另一边再转回去。这方法虽然解决了传统基板上不好布几百条铜线的问题，但转来转去特别费电，还会拖慢速度，尤其是NPU要跟CPU、GPU快速配合的时候，这毛病就更明显了。

现在Strix Halo直接不用SERDES了，改用台积电的InFO-oS技术和重分布层（RDL），但具体咋弄的呢？

就在芯片下面由RDL做的“中介层”里，布了几条又短又细的并行线路，靠着InFO-oS技术在硅芯片和有机基板之间布线，这样CPU就能通过宽端口直接通信了。

说起来能发现这新方法，是因为Strix Halo上有块长方形的小焊盘，这是“扇出”技术的典型样子，而且原来的大“SERDES”模块也没了,这么一改不用转来转去了，功耗和延迟都降了不少，更关键的是CPU上多加了些端口，整体带宽也上去了。不过这方法也有麻烦，多层RDL设计起来挺复杂的，而且芯片下面的空间都被这些线占了，得好好调布线的优先级。