十年前,AI还停留在算力、模型与数据此消彼长的层面。如今,技术的发展早已超乎想象。2025年上半年,Google DeepMind重磅推出的Alpha...
2025-10-21 0
在近日于韩国首尔举办的顶级学术会议SOSP 2025(操作系统原理研讨会)上,阿里云发布了其“Aegaeon”计算池化解决方案。
Aegaeon方案的核心在于解决AI模型服务中普遍存在的GPU资源浪费问题,尤其针对那些需求突发或不可预测的大型语言模型。
它打破了传统的“一个模型绑定一个GPU”的低效模式,而是在Token级别虚拟化GPU访问,这意味着单个GPU可以被多个不同模型共享服务,实现精细化的资源调度。
阿里云Aegaeon系统作为一种推理时间调度器,它能在每次生成下一个token后,动态决定是否切换模型,从而将微小的工作片段安排到共享池中。
通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低了97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。
在阿里云模型市场为期超三个月的Beta测试中,Aegaeon系统在服务数十个参数量高达720亿的大模型时,所需的NVIDIA H20 GPU数量从1192个锐减至213个,削减比例高达82%。
GPU用量的大幅削减,对于硬件采购成本高昂的大型模型服务商而言,意味着成本将显著降低。
目前,这项核心技术已成功应用在阿里云百炼平台。
相关文章
十年前,AI还停留在算力、模型与数据此消彼长的层面。如今,技术的发展早已超乎想象。2025年上半年,Google DeepMind重磅推出的Alpha...
2025-10-21 0
10月20日,支付宝宣布自本周起暂停AI健康管家AQ在支付宝首页的广告投放,主要因广告创意与用户理解存在偏差,引发大量负面反馈。支付宝表示,AQ广告创...
2025-10-21 0
10月18日,重庆江北机场国际航空枢纽建设再传好消息!2025年货邮吞吐量累计突破40万吨大关,较去年提前25天达成目标!9月江北机场保障货邮5.24...
2025-10-21 0
IT之家 10 月 21 日消息,索尼现已悄悄对 PlayStation 商店 (PS Store 进行调整,在主机端浏览打折游戏时,商品页面会明确...
2025-10-21 0
在近日于韩国首尔举办的顶级学术会议SOSP 2025(操作系统原理研讨会)上,阿里云发布了其“Aegaeon”计算池化解决方案。Aegaeon方案的核...
2025-10-21 0
来源:新浪科技新浪科技讯 10月21日午间消息,近日,飞书多个工区挂出“飞书AI军 备战双11”标语,据飞书相关人士表示,赋能客户备战双11已成为飞书...
2025-10-21 0
10月21日,凯度电器正式官宣杨幂担任其全球代言人。凯度电器CEO柯漫表示,此次合作是品牌面向未来、深化情感联结的重要一步。她还表示,公司将加速布局海...
2025-10-21 0
来源:【津滨海客户端】津滨海讯(记者 单毅 张惺卓 王鼎鑫)2025年10月26日起,全国民航将正式进入冬春航季。10月20日,记者从天津航空获悉,新...
2025-10-21 0
发表评论