首页 AI科技文章正文

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

AI科技 2025年10月06日 04:51 0 admin

假期看了一圈北美AI,在AI模型参数突破万亿后,一个事实越来越清晰:算力的增长,或许越来越明显。

还有,过去几年,大家比的是谁采购的GPU多,谁建的集群大。

但当集群规模从几百卡扩展到上大规模GPU集群,一个反直觉的现象出现了:算力投入翻倍,训练时间却没减半。

这其实不是芯片算力的的问题,是系统导致的。。

于是,“超节点”(Superpod)开始从技术术语变成基础设施重要节点。

它不是简单的服务器堆叠,而是一种为解决大规模AI计算效率衰减而生的系统架构

阿里云在云栖大会上发布的“磐久128”,hw持续推进的CloudMatrix与Atlas SuperPoD路线图,们是在回答同一个问题:当AI算力走向大规模GPU集群级,瓶颈在哪里,解法是什么?

为什么要发展超节点

笔者通过阅读最近关于AI的相关研报,有一个观点提到,AI训练中,90%以上的时间其实在“等”——等梯度同步,等参数更新,等下一批数据加载。

尤其是在大模型分布式训练中,AllReduce这类通信操作会频繁发生,一旦网络带宽不足或延迟过高,GPU就会陷入“空转”。

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

传统集群用InfiniBand或以太网连接服务器,跨节点延迟动辄几十微秒,带宽受限于物理接口。

超节点的解法是:把通信层级往下沉。不是服务器之间连,而是GPU之间直连;不是电互联,而是光互联;

不是通用交换机,而是专用互联架构。

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

这个变化的意义,可以比喻成专为AI计算设计的“内网5G”。

如何支撑超节点——光互联、液冷、交换架构,都是通信效率的延伸

很多人把光互联、液冷、交换设备列为“三大独立赛道”,这或许是误解。

它们其实是同一个问题的不同表现形式

1. 光互联:“传得快”

当芯片间通信频率达到每秒数百GB,传统电接口无法承受,或许就要用光。

CPO(共封装光学)、LPO、硅光技术,目的都是把光模块尽可能靠近芯片,减少电信号走线长度,降低延迟和功耗。

据公开资料介绍,阿里磐久128的EIC/MOC网卡 + CIPU 2.0,本质是构建一张芯片级光网络,实现Pb/s级带宽和百纳秒级延迟。这不是“加个高速网卡”,而是重构了数据通路。

2. 液冷:“传得稳”

高密度集成意味着高热密度。单柜100kW+的功耗下,风冷无法有效散热,芯片会因过热降频,通信延迟上升,甚至触发保护机制中断训练。

液冷(冷板式或浸没式)的出现,不是为了省电,而是为了维持通信链路的稳定性

只有温度可控,信号完整性才有保障,高速互联才能持续运行。

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

3. 交换架构与自研芯片:“管得住”

当万卡互联,通信路径呈指数级增长。通用交换机无法应对如此复杂的流量调度,容易拥塞、重传、死锁。

解法是:专用架构 + 自研控制芯片

阿里CIPU 2.0、hw星河AI交换机,本质是超节点的“通信调度中心”。它知道每个芯片的状态、每条通路的负载,能动态优化数据流向,避免“堵车”。

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

未来趋势

随着2025-2028年国内超节点渗透率预计将从5%跃升至72%(浙商证券预测)

未来竞争不再局限于单点性能,而是谁能在光互联、液冷、交换三大环节实现垂直整合与协同优化,构建出更高能效比、更低TCO(总拥有成本)的完整解决方案。

更重要的是,超节点的普及将重塑AI产业链格局:上游芯片企业需适配新型互联标准,中游系统厂商掌握集成话语权,下游云服务商则通过自研超节点建立长期竞争力壁垒。

这不仅是一次技术升级,更是一场关乎AI的基础设施重构。

写在最后

超节点或许是一种新的计算范式。

它的核心指标不是“多少卡”,或许是“多少有效算力”。

它的技术主线不是“堆硬件”,或许是“降损耗”。

它的想要目标,或许是让大规模GPU集群的协同效率。

这方面来看,这或许值得我们去关注。

突发,趋势大消息!节后,这一方向或直接起飞,新热点?(附股)

特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。

如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是小猎豹坚持的动力~



发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap