她是全球最赚钱的女CEO之一,却被美国政界骂成“卖国贼”;她是芯片圈的技术女王,却主动把核心技术授权给中国;她的年薪超过4亿人民币,却不靠华尔街哄抬身...
2025-10-06 0
假期看了一圈北美AI,在AI模型参数突破万亿后,一个事实越来越清晰:算力的增长,或许越来越明显。
还有,过去几年,大家比的是谁采购的GPU多,谁建的集群大。
但当集群规模从几百卡扩展到上大规模GPU集群,一个反直觉的现象出现了:算力投入翻倍,训练时间却没减半。
这其实不是芯片算力的的问题,是系统导致的。。
于是,“超节点”(Superpod)开始从技术术语变成基础设施重要节点。
它不是简单的服务器堆叠,而是一种为解决大规模AI计算效率衰减而生的系统架构。
阿里云在云栖大会上发布的“磐久128”,hw持续推进的CloudMatrix与Atlas SuperPoD路线图,们是在回答同一个问题:当AI算力走向大规模GPU集群级,瓶颈在哪里,解法是什么?
笔者通过阅读最近关于AI的相关研报,有一个观点提到,AI训练中,90%以上的时间其实在“等”——等梯度同步,等参数更新,等下一批数据加载。
尤其是在大模型分布式训练中,AllReduce这类通信操作会频繁发生,一旦网络带宽不足或延迟过高,GPU就会陷入“空转”。
传统集群用InfiniBand或以太网连接服务器,跨节点延迟动辄几十微秒,带宽受限于物理接口。
超节点的解法是:把通信层级往下沉。不是服务器之间连,而是GPU之间直连;不是电互联,而是光互联;
不是通用交换机,而是专用互联架构。
这个变化的意义,可以比喻成专为AI计算设计的“内网5G”。
很多人把光互联、液冷、交换设备列为“三大独立赛道”,这或许是误解。
它们其实是同一个问题的不同表现形式。
1. 光互联:“传得快”
当芯片间通信频率达到每秒数百GB,传统电接口无法承受,或许就要用光。
CPO(共封装光学)、LPO、硅光技术,目的都是把光模块尽可能靠近芯片,减少电信号走线长度,降低延迟和功耗。
据公开资料介绍,阿里磐久128的EIC/MOC网卡 + CIPU 2.0,本质是构建一张芯片级光网络,实现Pb/s级带宽和百纳秒级延迟。这不是“加个高速网卡”,而是重构了数据通路。
2. 液冷:“传得稳”
高密度集成意味着高热密度。单柜100kW+的功耗下,风冷无法有效散热,芯片会因过热降频,通信延迟上升,甚至触发保护机制中断训练。
液冷(冷板式或浸没式)的出现,不是为了省电,而是为了维持通信链路的稳定性。
只有温度可控,信号完整性才有保障,高速互联才能持续运行。
3. 交换架构与自研芯片:“管得住”
当万卡互联,通信路径呈指数级增长。通用交换机无法应对如此复杂的流量调度,容易拥塞、重传、死锁。
解法是:专用架构 + 自研控制芯片。
阿里CIPU 2.0、hw星河AI交换机,本质是超节点的“通信调度中心”。它知道每个芯片的状态、每条通路的负载,能动态优化数据流向,避免“堵车”。
随着2025-2028年国内超节点渗透率预计将从5%跃升至72%(浙商证券预测)
未来竞争不再局限于单点性能,而是谁能在光互联、液冷、交换三大环节实现垂直整合与协同优化,构建出更高能效比、更低TCO(总拥有成本)的完整解决方案。
更重要的是,超节点的普及将重塑AI产业链格局:上游芯片企业需适配新型互联标准,中游系统厂商掌握集成话语权,下游云服务商则通过自研超节点建立长期竞争力壁垒。
这不仅是一次技术升级,更是一场关乎AI的基础设施重构。
超节点或许是一种新的计算范式。
它的核心指标不是“多少卡”,或许是“多少有效算力”。
它的技术主线不是“堆硬件”,或许是“降损耗”。
它的想要目标,或许是让大规模GPU集群的协同效率。
这方面来看,这或许值得我们去关注。
特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。
如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是小猎豹坚持的动力~
相关文章
她是全球最赚钱的女CEO之一,却被美国政界骂成“卖国贼”;她是芯片圈的技术女王,却主动把核心技术授权给中国;她的年薪超过4亿人民币,却不靠华尔街哄抬身...
2025-10-06 0
假期看了一圈北美AI,在AI模型参数突破万亿后,一个事实越来越清晰:算力的增长,或许越来越明显。还有,过去几年,大家比的是谁采购的GPU多,谁建的集群...
2025-10-06 0
记者从中国科学院金属研究所获悉,该所科研团队近日在固态锂电池领域取得突破,为解决固态电池界面阻抗大、离子传输效率低的关键难题提供了新路径。该研究成果已...
2025-10-06 0
2025年9月份的Steam硬件调查报告已经出炉,凸显了几个非常有意思的趋势。显卡方面,RTX 4060 Laptop几个月来一直稳居榜首,份额还在继...
2025-10-06 0
在电视画质的进化史上,对比度与色域如同两条并行的赛道:前者早已通过分区技术实现了从 “明暗分明” 到 “纤毫毕现” 的跨越,后者却长期在技术瓶颈前徘徊...
2025-10-06 0
前几天体验ChatGPT那个Pulse功能,三天下来感受跟坐过山车似的,一开始打开侧边栏的“动态”(这是Pulse的中文名叫法,说实话精准是精准,但一...
2025-10-06 0
以真心服务,用行动担当——京东家政带教师、京东家政实操讲师 张晶张晶,一位来自黑龙江的普通女性,今年48岁。2020年,她的孩子考上了大学,为了离孩子...
2025-10-06 0
本篇文章给大家谈谈微乐河南麻将小程序有挂吗,以及微信小程序微乐河南麻将开挂方法对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微乐河南麻将没有...
2025-10-06 0
发表评论