跟着“必吃榜”等美食榜单、看评价评分探寻本地特色美食已经成为主流趋势,每逢假期,各地“必吃榜”餐厅门口排起的长队更是一道独特的风景线。不少游客“痛并快...
2025-10-01 1
现在AI对算力的需求涨得那叫一个快,大模型训练也从以前的FP32精度往FP8、FP4这种低精度走,这就对硬件的能效、内存快慢还有瞬间能爆发出的算力要求更高了,这不直接把NVIDIA和AMD在AI架构这块儿逼得贴身肉搏了。
两家都在紧急改下一代产品的设计,而这场比拼的核心,就落在AMD的Instinct MI450 AI系列和NVIDIA的Vera Rubin身上,比之前任何一代产品都打得凶。 AMD的高管Forrest Norrod说MI450是他们家的“米兰时刻”,这话其实挺有底气的。
当年EPYC 7003系列服务器芯片一出来,直接把英特尔在服务器市场的垄断给破了,现在他们就盼着MI450能在AI芯片这儿再来一回这风光事儿。Norrod甚至直说,MI450肯定比NVIDIA的Vera Rubin更能打,而且下一代产品线肯定用自家的技术栈,绝对不用“Team Green”(就是NVIDIA)的。
这话不是空口吹牛,看产品参数的调整就知道了。为了压过对方,MI450X的热设计功耗(TGP)比最开始多了200瓦,NVIDIA那边也没辙,把Vera Rubin的TGP加了500瓦,直接干到2300瓦了。
内存带宽更狠,Vera Rubin每块GPU从13 TB/s飙到20 TB/s。 我觉得啊,这种参数猛涨,一方面是行业里对算力太着急了,另一方面也看出现在AI硬件竞争有点短视,光靠加功耗、提带宽换性能,虽然能快点满足大模型当下的需求,但长远来看,能效比才是真本事,能靠这个拉开差距。
AMD敢这么叫板NVIDIA,除了参数追上了,更关键的是它在服务器芯片那儿攒下的chiplet设计经验,这给MI450的架构优化托了底。 ## 二、技术都差不多了?
AMD追上来的门道在这儿 以前AMD在AI芯片这儿跟NVIDIA差得挺多,倒不是说它不会设计硬件,主要是产品更新速度跟不上NVIDIA。NVIDIA有CUDA生态这个先发优势,能跟着市场需求快速调产品路线,AMD之前在软件适配和开发者这块儿没跟上,显得硬件差距更大了。 不过等Vera Rubin和MI450一交手,这差距眼看着要变小了,关键就在于两家要用的核心技术都差不多。
从硬件底子来看,不管是HBM4高速内存、台积电N3P工艺节点,还是基于chiplet的模块化设计,都是两家的标配了。
这可不是巧合:HBM4能存更多东西,速度还快,正好解决AI计算里“内存不够快”的瓶颈;台积电N3P工艺比以前的更省电,性能还好,高端芯片想降功耗都得靠它;chiplet设计就是把不同功能的小模块拼起来,能省研发钱,还能更快出新品。 值得说的是,台积电N3P工艺的产能有限,两家同时用,说不定会在供应链上较劲,甚至影响产品啥时候能上市。
Dan NVIDIA真正的优势不是硬件参数,是CUDA平台攒下的几百万开发者和一大堆优化工具。AMD要是真想打破垄断,除了硬件能打,还得在ROCm生态的适配速度、给开发者的支持上多下功夫——不然硬件再强,没有软件撑着,也落不了地。
除了AI芯片打架,AMD还有个技术突破得说说,给Zen6处理器准备的D2D(芯片到芯片)互连技术,现在已经能在Strix Halo APU上看到点影子了。 这背后其实是行业的需求变了,现在NPU(神经网络处理单元)都往CPU里塞,传统的芯片间通信技术早就不够用了,成了性能的绊脚石。
在这之前AMD从Zen 2开始就一直用SERDES PHY技术让芯片之间通信——简单说就是把并行数据转成一串比特流,在基板上传,到另一边再转回去。这方法虽然解决了传统基板上不好布几百条铜线的问题,但转来转去特别费电,还会拖慢速度,尤其是NPU要跟CPU、GPU快速配合的时候,这毛病就更明显了。
现在Strix Halo直接不用SERDES了,改用台积电的InFO-oS技术和重分布层(RDL),但具体咋弄的呢?
就在芯片下面由RDL做的“中介层”里,布了几条又短又细的并行线路,靠着InFO-oS技术在硅芯片和有机基板之间布线,这样CPU就能通过宽端口直接通信了。
说起来能发现这新方法,是因为Strix Halo上有块长方形的小焊盘,这是“扇出”技术的典型样子,而且原来的大“SERDES”模块也没了,这么一改不用转来转去了,功耗和延迟都降了不少,更关键的是CPU上多加了些端口,整体带宽也上去了。不过这方法也有麻烦,多层RDL设计起来挺复杂的,而且芯片下面的空间都被这些线占了,得好好调布线的优先级。
但不管咋说AMD在Strix Halo的D2D互连这儿做得是真不错,而且这方法估计会用在Zen6处理器上。我觉得这能看出AMD的思路,不跟NVIDIA在生态上硬拼,而是从硬件底层找突破,解决通信这个小瓶颈来建立优势。
虽然见效慢,但能攒下别人抄不走的技术家底。等Zen6用上这技术,AMD说不定在服务器、电脑这些地方,既能提升AI性能,通用计算能力也能涨,跟NVIDIA的差距就更小了。
相关文章
跟着“必吃榜”等美食榜单、看评价评分探寻本地特色美食已经成为主流趋势,每逢假期,各地“必吃榜”餐厅门口排起的长队更是一道独特的风景线。不少游客“痛并快...
2025-10-01 1
现在AI对算力的需求涨得那叫一个快,大模型训练也从以前的FP32精度往FP8、FP4这种低精度走,这就对硬件的能效、内存快慢还有瞬间能爆发出的算力要求...
2025-10-01 1
苹果有望在2025年底前推出配备M5芯片的iPad Pro,或作为第二场秋季发布会的一部分。不过,这款即将发布的平板可能已提前现身。一位俄罗斯YouT...
2025-10-01 1
文丨壹观察 宿艺一场重新定义全球高端电视市场的科技浪潮,正向我们汹涌袭来。9月26日,海信继RGB-Mini LED超旗舰UX之后,推出RGB-Min...
2025-10-01 1
30余家公司披露2025年前三季度业绩预告。新型光刻胶制备方法开发成功据中国化工报,华东理工大学副教授庄黎伟、美国约翰霍普金斯大学教授迈克尔·萨帕希斯...
2025-10-01 1
微软正在对其Windows工程团队进行重组,宣布将核心Windows团队重新整合为一个统一的组织。这一举措旨在强化公司在人工智能等优先发展领域的工作。...
2025-10-01 1
机器人已经有望成为承载万亿级流量的新入口,谁先打通机器人+流量的闭环,谁就能定义下一代商业生态。2025年9月30日,智元机器人全国首家开放式具身智能...
2025-10-01 1
9月24日,市场监管总局组织起草的《外卖平台服务管理基本要求(征求意见稿)》正式向社会公开征求意见。该文件聚焦外卖平台收费机制、促销活动规范等关键环节...
2025-10-01 1
发表评论