10月17号,Meta悄悄发了篇论文,标题叫《TheArtofScalingReinforcementLearningComputeforLLMs》。...
2025-10-28 0
10月17号,Meta悄悄发了篇论文,标题叫《TheArtofScalingReinforcementLearningComputeforLLMs》。
一开始我以为就是篇普通技术文,没太当回事,后来翻了几页才发现,这东西可能要改改LLM强化学习的玩法了毕竟人家光实验就砸了超40万GPU小时,这投入可不是闹着玩的。
先说说现在LLM强化学习的现状吧,说直白点就是“花钱没谱”。
大语言模型要解锁那些关键能力,强化学习是绕不开的技术,不管是测试时的推理,还是和智能体的交互,这技术的水平直接决定了模型能不能打。
但问题是,现在技术迭代越来越快,强化学习训练要的算力也跟着疯涨。
之前Deepseek-R1-Zero那回,强化学习训练就用了10万H800GPU小时,OpenAI从o1到o3,这部分的算力投入更是翻了10倍还多。
本来算力涨就涨吧,要是有章法也行,可行业里偏偏没个科学的方法论。
现在多数企业和机构搞强化学习训练,还停留在“凭感觉调参、靠堆算力试错”的阶段没有成熟的算力和性能评估体系,也不知道该怎么选设计方案,结果就是大量算力被白白浪费。
我之前听朋友说,有个小团队为了测一个7B模型的RL性能,盲目的投了5万GPU小时,最后效果没达标,钱也打了水漂。
这种“粗放式投入”不光推高了研发成本,更麻烦的是把学术社区的门槛也抬上去了小实验室根本扛不住这么烧钱,想参与研究都没机会。
如此看来,Meta这篇论文算是踩在了行业的痛点上。
他们团队搞这项研究,就是想借鉴预训练领域成熟的“缩放定律”,给强化学习训练建一套能预测算力和性能关系的框架。
整个研究前后投入了超40万GPU小时的算力,覆盖了数学推理这些典型任务,最后才拿出了“ScaleRL”这个解决方案。
其实之前我也想过,为啥强化学习领域就没个像预训练那样的“缩放定律”呢?后来查了些资料才发现,主要是RL训练的性能变化太不规则低算力的时候,性能涨得慢;到了中算力阶段,又突然加速;等算力够多了,又会进入饱和期。
这种波动让很多团队摸不着头脑,只能硬着头皮堆算力,赌一把能出效果。
就拿OpenAI来说,从o1到o3,他们在强化学习上的算力投入翻了10倍,效果确实有提升,但没人知道这10倍投入里,有多少是必要的,又有多少是浪费的。
还有些企业,为了追求更高的性能,不管设计方案合不合理,先把算力拉满再说,最后性能没上去多少,成本倒翻了好几倍。
这种情况要是一直持续,不光小企业扛不住,整个行业的发展都会被拖慢。
Meta团队显然也看到了这点,所以他们的研究重点没放在“怎么提升性能”上,而是放在“怎么让性能可预测”上。
这思路其实挺聪明的先解决“钱花在哪才有用”的问题,再谈提升,总比瞎烧钱强。
ScaleRL最核心的突破,就是提出了基于S型曲线的RL算力-性能预测模型。
本来想简单解释下这个模型,后来发现用大白话讲更清楚:这个曲线能精准抓住RL训练“慢-快-饱和”的规律,还能用三个参数把这种规律量化。
第一个参数A是“渐近性能上限”,说白了就是算力再多,模型性能也超不过这个天花板,它主要受损失函数、模型精度这些关键设计影响;第二个参数B是“缩放指数”,数值越大,单位算力带来的性能提升就越多,也就是算力效率越高;第三个参数C是“50%性能增益算力”,指的是性能达到总提升的一半时需要的算力,能看出中期训练的速度。
有了这个模型还不够,Meta团队还从超40万GPU小时的实验里,提炼出了三条核心原则。
第一条是性能天花板只受损失函数、模型精度这些核心设计影响,比如用FP32精度比FP16精度,A值就能高一点;第二条是多数常见设计,比如基础的数据清洗方式,只影响算力效率,不改变性能上限,没必要在这些地方过度投算力;第三条最实用,稳定的方案能通过小算力实验推导出大算力的效果,不用再等完整训练结束。
基于这些原则,他们整合出了ScaleRL的最优配置:用PipelineRL异步框架提效率,选CISPO损失函数增强鲁棒性,用FP32精度消除数值偏差,再加上数据优化和长度控制。
这套配置不算多复杂,但胜在实用比如长度控制里的强制中断设计,能把生成截断率稳定在5%以下,而实验证明,截断率一旦超过10%,模型就容易崩。
ScaleRL最让我觉得有用的地方,就是它的“可预测性”。
以前想知道大算力下的训练效果,必须等整个训练跑完,现在用小算力实验拟合曲线,就能精准算出大算力的表现。
有个8B模型的例子特别典型,只用前8000GPU小时的数据拟合曲线,就能预测16000GPU小时的性能,误差还特别小。
这对企业来说,能省不少试错成本;对学术圈来说,更是个好消息小实验室不用再扛巨额算力成本,靠小实验就能做研究。
更贴心的是,Meta不光公开了核心实验数据,还把S型曲线拟合的代码库开源了,地址就在GitHub上(https://github.com/devvrit/ScaleRL-Curve-Fitting),论文也能在arxiv上查到(arxiv.org/abs/2510.13786)。
本来我还担心,这么实用的技术会不会被藏着掖着,没想到他们直接开放了,这波操作确实能帮到不少人。
我之前还跟一个高校的老师聊过,他说之前他们实验室想做RL规模化的研究,光算力成本就吓退了他们,现在有了开源的代码和数据,学生们用少量算力就能验证自己的算法,门槛一下就降下来了。
还有个企业的朋友说,他们最近在用ScaleRL测试13B模型的训练,原本计划投20万GPU小时,用小实验推导后,12万小时就达到了预期效果,省了不少钱。
Meta这40万GPU小时没白费。
ScaleRL不光解决了LLM强化学习“算力虚耗”的痛点,还通过开源拉低了行业门槛,不管是企业还是学术圈,都能从中受益。
以后大家搞RL训练,不用再“瞎猜瞎堆”,靠数据和模型就能算清投入产出,这对整个大模型行业来说,都是个不小的推动。
要是后续能在多模态模型上也用上这套方案,说不定还能带来更多惊喜。
相关文章
10月17号,Meta悄悄发了篇论文,标题叫《TheArtofScalingReinforcementLearningComputeforLLMs》。...
2025-10-28 0
作为养着一只掉毛季能 “褪毛成球” 的毛孩子、还留着及腰长发的人,以前每天清晨的清洁时光简直是 “渡劫”—— 毛孩子换季时掉的短绒毛能飘满客厅,粘在刚...
2025-10-28 0
大家是不是觉得机器人跟人一样才叫“先进”?其实,真相出乎你的意料!有人说,机器人做成人形,完全是“泡沫”,没有任何实际意义。理由在于:我们用轮子可以无...
2025-10-28 0
根据科技媒体XiaomiTime消息,小米HyperOS 3于近期启动更大范围设备推送,此次升级覆盖智能手机、平板、电视、智能手表等多品类产品,包含小...
2025-10-28 0
近日,由兰石集团、兰州大学、国网甘肃电力公司、中国电力科学研究院、甘肃光热发电公司联合申报的“甘肃兰州电氢融合创新实验平台项目”成功入选国家能源局能源...
2025-10-28 0
在10月27日的科大讯飞1024开发者节线上直播中,一款名为“招采首席官”的AI数字员工正式亮相。直播演示中,该产品展现出在招采全流程中的智能化能力,...
2025-10-28 0
大皖新闻讯10月28日,安徽省人民政府新闻办公室召开第八届世界声博会暨2025科大讯飞全球1024开发者节筹备情况新闻发布会。记者从发布会上获悉,第八...
2025-10-28 0
格隆汇10月28日|据凤凰网科技,昨日,来源于社交媒体的截图显示,“美的集团(000333 因价格问题遭京东罚款500万元”。从接近美的、京东的人士处...
2025-10-28 0
发表评论