封面新闻记者 张越熙10月14日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T在9月30日开源的预...
2025-10-16 0
封面新闻记者 张越熙
10月14日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力。
据悉,此次百灵团队挑战了难度更高的IMO2025(国际数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO国际奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与Gemini 2.5 Pro 相同的“4048”(正确答案为2112)。作为一款思考模型,Ring-1T也表现出了极佳的通用能力,在“人类偏好对齐”测试Arena-Hard V2中,Ring-1T以81.59的成功率居于开源模型榜首,逼近GPT-5-Thinking(High)82.91的成绩。
万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在Ring-1T模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模RL训练稳定跑成日常。
图左:GRPO训推差异随着训练成指数上升,icepop较为平稳;图右:训推差异最大值,GRPO随着训练上升非常明显,icepop维持在较低水位
此外,本次发布的Ring-1T模型继续采用Ling 2.0架构的1T base模型做后训练,Ling 2.0采用了包括高度稀疏的MoE架构,1/32的专家激活比、FP8混合精度、MTP等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。
据百灵团队透露,Ring-1T模型是其在万亿思考模型上的首次尝试,团队会在后续的版本中继续完善模型性能。
相关文章
封面新闻记者 张越熙10月14日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T在9月30日开源的预...
2025-10-16 0
尼康公司宣布推出一款兼容APS-C画幅/DX格式微单相机的变焦镜头尼克尔 Z DX 16-50mm f/2.8 VR。尼克尔 Z DX 16-50mm...
2025-10-16 0
中国电子商会正式发布国内首部聚焦生成式人工智能领域的知识产权团体标准——《生成式人工智能知识产权指南》(T/CECC 42-2025)(以下简称《指南...
2025-10-16 0
据福布斯中文网报道,美国铸币局今日宣布,苹果公司联合创始人史蒂夫・乔布斯(Steve Jobs)将出现在明年发行的“美国创新一美元硬币计划”(Amer...
2025-10-16 1
北京商报讯(记者 魏蔚)10月16日,阿里云宣布其位于迪拜的第二座数据中心正式投入使用。这是今年以来,阿里云继泰国、韩国、马来西亚、墨西哥及中国北京、...
2025-10-16 1
解放日报记者从今天举行的2025世界顶尖科学家论坛新闻发布会获悉,以“未来科学:上海与世界(Science in Future)”为主题的2025世界...
2025-10-16 0
来源:【长城网】河北省推动“人工智能+”行动计划(2025—2027年)》新闻发布会现场。长城网·冀云客户端讯(记者 康宁)10月10日,记者从河北省...
2025-10-16 0
央视网消息:第七届中国天津国际直升机博览会16日—19日在天津滨海新区举行。本届天津直博会有哪些亮点?我们先睹为快。本届天津国际直升机博览会以“一会一...
2025-10-16 1
发表评论