最高384GB显存，英特尔锐炫多卡方案给AI部署来点猛料

AI科技 2025年10月18日 17:23 0 aa

前段时间Computex 2025，英特尔推出了英特尔锐炫Pro B系列GPU，包括英特尔锐炫Pro B60、锐炫Pro B50两款产品，凭借着高性价比，在短时间内就获得了不少OEM和客户的支持。就在这周英特尔锐炫多卡方案正是上线，覆盖边缘计算到数据中心，给全场景AI部署提供了更多可能性，特别最多16块锐炫Pro B60 24GB组成的Battlematrix（战斗阵列）推理工作站平台，一举将显存容量提升到了384GB，做到200并发和2000 token/s。

向智能体AI与物理AI进发

自从2012年AlexNet推动卷积神经网络图像识别，AI推动多模态图像、视频、声音感知应用已经开始变得愈发普遍。特别是随着算法、硬件的井喷式升级，以ChatGPT和Stable Diffusion、Sora开始出圈的生成式AI则在过去三年中蓬勃发展，极大提升了工作和学习效率。

显然技术不会就此停歇，Token消耗的本质就是告知AI一个最终目的，让AI自己进行推理、规划、调用不同模型、应用、AI来完成任务。这是仅仅依靠感知AI、生成式AI所无法做到的，而是需要调用多种大模型共同实现，最终汇聚成智能体AI。

举个简单的例子，现在我们使用专业软件进行图片、视频编辑，同时需要文字软件进行文案工作，这意味着我们即需要掌握具体软件的特效使用或者剪辑操作逻辑，也需要用办公软件对文本进行创作，虽然每个领域都有专门的AI提供加速，但是他们之间是不互通的。智能体AI则可以略过这些学习和经验成本，帮助用户直接略过繁琐的操作过程，直达目标。

智能体AI是一个新的开始，目前已经有多家创业公司展开投入。更庞大的AI算力需求也意味着AI硬件仍然等待新一轮的指数级井喷，AI算法、硬件在当下仍然非常重要。

而智能体AI的终极方向，英特尔中国区显卡和AI高级产品总监徐金平给出的预测是物理AI，通过机器人等形式与人类物理世界产生互动，最终直接解决物理问题。

英特尔中国区显卡和AI高级产品总监徐金平发表演讲

无论智能体AI还是物理AI，模型发展在其中已经扮演了非常重要的作用。数年前，颠覆大家对AI认知的AlexNet其实只有6000万个参数，而自从谷歌开创Transformer模型，BERT是3.4亿参数，GPT-3是1000多亿哥参数，Kimi K2参数更是达到了1万亿以上，同样，没有公开信息的Sora 2和GPT-5也必然是1万亿以上参数的模型。这时候，AI算力的重要性得以凸显。

Battlematrix战斗阵列

今年Computex2025上的英特尔锐炫Pro B60、锐炫Pro B50两款产品实际上就是解决个人工作站、数据中心AI算力而生的。其中锐炫Pro B50面向工作站，提供16GB显存、170 TOPS算力，功耗仅为70W。更高阶的锐炫Pro B60则面向推理工作站，24GB显存，197 TOPS算力，200W功耗。

锐炫Pro B60单卡运行下其实已经表现出了不错的战斗力，如果对比竞争对手的RTX 2000、GeForce RTX 5060 Ti，在14B-int4模型上，锐炫Pro B60都有着不错的战斗力，甚至而在Qwen 2.5，QwQ，Phi4，Llama3上，锐炫Pro B60表现更为突出。

这是因为模型在进行量化的Data Type中，都需要更大的显存容量才能流畅运行，如果GPU刚好满足16GB的及格线，算上计算消耗，实际上还是会有性能限制。这时候24GB显存在其中就起到了更好的作用。

只有一块GPU是无法满足更大规模的AI推理的。锐炫多卡方案为此而生，进而诞生出了Battlematrix（战斗阵列）项目，即将服务器与GPU进行了整合，并通过各项硬件和软件认证。比如2个锐炫Pro B60 GPU实际上可以并成一张显卡，共享一个PCIe 5.0 x8接口，从而获得单卡48GB显存。按照这个扩展方式，在一个工作站中插入8张双GPU的锐炫Pro B60，就能获得384GB显存，从而可以满足100B甚至200B的FP8大语言模型。

重点是，这并不是一套硬件堆叠的设想。在过去数个月中，英特尔已经针对服务器、Linux工作站、AI推理工作站完成了全栈验证，帮助客户加速部署这套全新的AI应用方案。

深耕应用场景

企业用户对AI的需求五花八门，比如是否运行在公有云、私有云上，如何进行集中化AI处理，还是分散给每一台工作站、AI PC都是问题。因此英特尔在企业部署AI分层架构的考量中，分成了企业中央级、企业部门级/边缘级、企业个人员工级几个方向，这也正好与英特尔锐炫 Pro B60多应用场景契合。比如空间受限的AI PC中，一张双GPU的英特尔锐炫 Pro B60就能实现48GB显存和用满PCIe 5.0 x16通道，进而提升计算密度。

不仅如此，英特尔锐炫经过了50多项专业设计类软件性能优化和认证，包括Linux的全栈验证，vLLM专门优化支持，以远程管理等等。

同时，多卡方案还包括了同一个服务器中GPU的GPU Direct P2P（GPU Direct Peer-to-Peer）通信技术，GPU可以相互方位显存，不必通过CPU，进而高效的利用显存容量，完成多卡互联。同时，服务器与服务器之间的通讯，而也准备了GDR实现，访问效率同样也获得了很好的提升。

由于英特尔锐炫配置的灵活性，无论是个人工作站，2U服务器，甚至4U服务器。都能找到英特尔锐炫的适配方案，前面提到的16个B60 GPU联合就是应用在4U服务器中，从而实现最高200并发，2000TOPS的AI算力表现，已经能够满足100人以上的用户同时使用。

最后：做企业级甜点GPU

在NVIDIA与AMD的强势拓展下，错位竞争必然是一个不错的市场策略，英特尔锐炫Pro B60、锐炫Pro B50正是在这样的需求下诞生，通过更大显存、优秀的软件匹配以及不错的功耗表现，能够帮助企业很好的降低TCO，方便边缘计算、部门级AI部署，进而完成与高端AI GPU之间的错位竞争。

凭借着锐炫Pro B60显卡和Battlematrix项目的融合，英特尔为企业边缘AI部署打造了一套大显存、多卡扩展、软件栈成熟、容器化部署的甜点方案，也进而满足包括教、物流、智慧公园、智能工厂在内的多种AI应用场景，进一步帮助企业控制TCO成本，提升效率。

与消费级锐炫一样，锐炫Pro系列在意可见的速度快速成长，特别是在市场环境快速变化的当下，可靠、高效的AI应用方案自然也更容易受到青睐，因此我们也有更多的理由期待锐炫Pro进一步的表现。

具身智能简史：AI 从“大脑”到“身体”的演变与未来

工厂 “搬料难” 的尽头：自动上料小车成刚需

发表评论

最高384GB显存，英特尔锐炫多卡方案给AI部署来点猛料

具身智能简史：AI 从“大脑”到“身体”的演变与未来

工厂 “搬料难” 的尽头：自动上料小车成刚需

热门文章

最新文章