突发，趋势大消息！节后，这一方向或直接起飞，新热点？（附股）

AI科技 2025年10月06日 04:51 0 admin

假期看了一圈北美AI，在AI模型参数突破万亿后，一个事实越来越清晰：算力的增长，或许越来越明显。

还有，过去几年，大家比的是谁采购的GPU多，谁建的集群大。

但当集群规模从几百卡扩展到上大规模GPU集群，一个反直觉的现象出现了：算力投入翻倍，训练时间却没减半。

这其实不是芯片算力的的问题，是系统导致的。。

于是，“超节点”（Superpod）开始从技术术语变成基础设施重要节点。

它不是简单的服务器堆叠，而是一种为解决大规模AI计算效率衰减而生的系统架构。

阿里云在云栖大会上发布的“磐久128”，hw持续推进的CloudMatrix与Atlas SuperPoD路线图，们是在回答同一个问题：当AI算力走向大规模GPU集群级，瓶颈在哪里，解法是什么？

为什么要发展超节点

笔者通过阅读最近关于AI的相关研报，有一个观点提到，AI训练中，90%以上的时间其实在“等”——等梯度同步，等参数更新，等下一批数据加载。

尤其是在大模型分布式训练中，AllReduce这类通信操作会频繁发生，一旦网络带宽不足或延迟过高，GPU就会陷入“空转”。

传统集群用InfiniBand或以太网连接服务器，跨节点延迟动辄几十微秒，带宽受限于物理接口。

超节点的解法是：把通信层级往下沉。不是服务器之间连，而是GPU之间直连；不是电互联，而是光互联；

不是通用交换机，而是专用互联架构。

这个变化的意义，可以比喻成专为AI计算设计的“内网5G”。

如何支撑超节点——光互联、液冷、交换架构，都是通信效率的延伸

很多人把光互联、液冷、交换设备列为“三大独立赛道”，这或许是误解。

它们其实是同一个问题的不同表现形式。

1. 光互联：“传得快”

当芯片间通信频率达到每秒数百GB，传统电接口无法承受，或许就要用光。

CPO（共封装光学）、LPO、硅光技术，目的都是把光模块尽可能靠近芯片，减少电信号走线长度，降低延迟和功耗。

据公开资料介绍，阿里磐久128的EIC/MOC网卡 + CIPU 2.0，本质是构建一张芯片级光网络，实现Pb/s级带宽和百纳秒级延迟。这不是“加个高速网卡”，而是重构了数据通路。

2. 液冷：“传得稳”

高密度集成意味着高热密度。单柜100kW+的功耗下，风冷无法有效散热，芯片会因过热降频，通信延迟上升，甚至触发保护机制中断训练。

液冷（冷板式或浸没式）的出现，不是为了省电，而是为了维持通信链路的稳定性。

只有温度可控，信号完整性才有保障，高速互联才能持续运行。

3. 交换架构与自研芯片：“管得住”

当万卡互联，通信路径呈指数级增长。通用交换机无法应对如此复杂的流量调度，容易拥塞、重传、死锁。

解法是：专用架构 + 自研控制芯片。

阿里CIPU 2.0、hw星河AI交换机，本质是超节点的“通信调度中心”。它知道每个芯片的状态、每条通路的负载，能动态优化数据流向，避免“堵车”。

未来趋势

随着2025-2028年国内超节点渗透率预计将从5%跃升至72%（浙商证券预测）

未来竞争不再局限于单点性能，而是谁能在光互联、液冷、交换三大环节实现垂直整合与协同优化，构建出更高能效比、更低TCO（总拥有成本）的完整解决方案。

更重要的是，超节点的普及将重塑AI产业链格局：上游芯片企业需适配新型互联标准，中游系统厂商掌握集成话语权，下游云服务商则通过自研超节点建立长期竞争力壁垒。

这不仅是一次技术升级，更是一场关乎AI的基础设施重构。

写在最后

超节点或许是一种新的计算范式。

它的核心指标不是“多少卡”，或许是“多少有效算力”。

它的技术主线不是“堆硬件”，或许是“降损耗”。

它的想要目标，或许是让大规模GPU集群的协同效率。

这方面来看，这或许值得我们去关注。

特别声明：以上内容绝不构成任何投资建议、引导或承诺，仅供学术研讨。

如果觉得资料有用，希望各位能够多多支持，您一次点赞、一次转发、随手分享，都是小猎豹坚持的动力~

新突破！祝贺我国科研人员

突发讣告！知名机器人公司副总裁因病去世，年仅49岁，“血管瘤破裂出血引起脑疝，未能及时抢救”

发表评论