教育行业因其场景清晰性、数据丰富性和需求刚性,正成为AI技术落地的黄金赛道。“AI+教育软件”通过算法分析学情数据、动态定制学习路径,实现教学流程智能...
2025-10-08 0
编辑:香瓜
清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 Diffusion Negative-aware FineTuning (DiffusionNFT)。
该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。
长久以来,我们训练生成模型的方式,要么是让它拼命模仿海量的“好学生”作业,也就是监督学习。要么就是让它像个无头苍蝇一样在黑暗中摸索,偶尔撞上一点奖励,也就是强化学习。这两种路径都有些偏执,它们似乎都忽略了一个最朴素的道理:从错误中学习,往往比单纯模仿正确更高效。
传统的对齐方法,不论是用于扩散模型的FlowGRPO,还是大语言模型的PPO,都面临着各自的瓶颈。它们有的严重依赖对数似然估计,这会带来系统性的偏差。有的训练过程复杂无比,效率低下得让人抓狂。大家似乎都在一个圈子里打转,拼命想让模型“做得更好”,却没人告诉它“别那么做”。
现在,一种颠覆性的思路出现了。由清华大学、英伟达和斯坦福大学联手推出的负例感知微调(NFT)范式,就像一位高明的棋手,不仅懂得如何进攻,更懂得如何防守和规避。它要做的,就是把那些被我们随手丢弃的“负样本”,那些生成失败的、低质量的结果,从无人问津的垃圾堆里捡回来。
NFT的魔法核心,藏在一个叫“隐式负向模型”的精妙设计里。你可能会以为,要让模型学会“避坑”,就得再找个“监工”模型来指指点点,或者弄一个复杂的判别器。但NFT的开发者们,包括论文的共同一作、清华博士生郑凯文与陈华玉,却走了一条完全不同的路。
他们让同一个模型,同时扮演两个角色。它既是那个积极向上、追求高质量产出的“正向策略”,也是那个小心翼翼、时刻警惕低质量区域的“负向策略”。这就像一枚硬币的两面,本质同源,却展现出截然相反的倾向。这种“一体两面”的设计,实在是太聪明了。
这一创新的根基,是对“拒绝采样微Tuning”(RFT)算法的扩展。RFT只知道利用那些被接受的高质量样本进行学习,而NFT则大胆地将那些被拒绝的、带有瑕疵的样本也纳入了训练体系。它不再是简单地“趋优”,而是学会了主动“避劣”。
这种转变的直接好处就是效率的解放。整个优化过程不再需要额外的判别器网络,也不需要复杂的双模型结构。训练师要做的,仅仅是提供最终生成的样本,再给它打个分(比如美学评分,或者数学题答案的对错),模型自己就能完成这场内部的“左右互搏”,从而将复杂的正负样本分布对抗,简化成了一个单一网络的优化任务。
你可能会觉得,这不就是用好坏样本做微调嘛,听起来还是监督学习那套。没错,它的形式看上去确实很像监督学习,但它的灵魂,却是不折不扣的强化学习。这正是NFT理论深度的体现,它像一座桥梁,第一次如此清晰地连接了监督学习与强化学习这两块看似独立的大陆。
研究者们发现了一个惊人的事实:NFT损失函数的梯度,在特定条件下,竟然与一种名为GRPO的策略梯度算法完全等价。这意味着,当你用NFT的方式训练模型时,你实际上是在执行一种极其高效的在线策略优化。模型表面上是在分辨好坏样本,但其内在的数学机制,却是在不断调整自身的生成策略,以最大化未来的奖励期望。
这种理论上的统一,在扩散模型领域的应用DiffusionNFT上,展现得淋漓尽致。过去,想用强化学习优化扩散模型,简直是场噩梦。你得时刻盯着漫长的反向去噪过程,依赖那个既不稳定又可能带偏模型的对数似然估计。
但DiffusionNFT彻底掀了桌子。它做出了一个史无前例的举动:直接在扩散模型的“前向加噪过程”上动刀。这相当于它不再关心“如何画得更好”,而是关心“如何从一张白纸变成一幅好画的初始噪声状态”。这种从源头入手的优化,完全绕开了对反向生成轨迹的依赖。
更妙的是,整个训练过程严格遵循福克-普朗克方程,保证了优化后的模型在数学上依然是一个“良定义”的扩散模型,不会因为魔改而变得不稳定。这不仅摆脱了似然估计的诅咒,还实现了“采样器自由”。训练和采样过程彻底解耦,无论你用什么样的黑盒求解器去生成图像,都毫无影响。
理论再漂亮,也得靠实力说话。NFT的强大之处在于,它不是纸上谈兵的屠龙技,而是在视觉和语言两个AI核心战场上都取得了实打实的战绩。
在视觉生成领域,DiffusionNFT的表现堪称一场效率革命。研究团队用它来优化StableDiffusion3.5-Medium模型,结果令人瞠目。在GenEval这个评估任务上,训练效率相比之前的方法提升了3到25倍之多。这意味着别人还在吭哧吭哧跑5000步训练才能勉强拿到0.95分时,DiffusionNFT只用了1000步,分数就从0.24飙升到了0.98。
这还不是全部。经过NFT优化的模型,即便在没有分类器引导(CFG-free)的情况下,生成的图像在美感和文本对齐度上也有了质的飞跃。它仿佛将引导能力内化于心,不再需要那个额外的“拐杖”。团队甚至在SD3.5-M上同时优化了多种奖励指标,包括GenEval、OCR和ClipScore等,结果是全方位超越了未经优化的原始模型。
更夸张的是,这个中等规模的SD3.5-M,在经过NFT的调教后,其表现在多项指标上竟然反超了更大规模的SD3.5-L和FLUX.1-Dev模型。这充分证明了优化范式的先进性,远比单纯堆砌模型参数更重要。
而在语言领域,NFT同样展现了它的威力。当研究者将其应用于Qwen-7B和Qwen-32B这样的大语言模型,并专注于提升它们的数学推理能力时,效果同样显著。在这个非对即错的领域,“负例”就是那些错误的答案。通过让模型充分感知和理解这些错误,它的逻辑推理能力得到了极大的增强,表现与当前顶尖的强化学习算法不相上下。
一个有趣的发现是,NFT在提升模型性能的同时,并没有扼杀它的创造力。相反,它增加了模型的熵,鼓励模型进行更充分的探索,避免了许多优化算法容易陷入的“模式僵化”陷阱,即为了追求高分而只会生成千篇一律的答案。
NFT的出现,可能远不止是一个新算法那么简单。它通过“负例感知”这一核心思想,简洁、高效且理论完备地统一了监督学习的形式与强化学习的目标,为我们打开了一扇全新的大门。
它所倡导的“前向一致性”、“似然无关”以及“框架简洁”等特性,正在逐一击破当前生成模型对齐领域的诸多技术壁垒。从图像到语言,它的成功已经预示了其作为一种基础性优化范式的巨大潜力。我们可以大胆展望,在不久的将来,NFT的原则会被推广到更复杂的视频生成、多模态交互乃至通用人工智能的对齐任务中。
它或许会成为未来我们构建更安全、更可控、更强大AI系统的统一理论基石。毕竟,NFT所蕴含的哲学是如此深刻而古老:一个真正强大的智能,不仅要懂得从成功中汲取经验,更要懂得从失败中获得智慧。
相关文章
教育行业因其场景清晰性、数据丰富性和需求刚性,正成为AI技术落地的黄金赛道。“AI+教育软件”通过算法分析学情数据、动态定制学习路径,实现教学流程智能...
2025-10-08 0
在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑:香瓜清华大学朱军教授团队, NVIDI...
2025-10-08 0
钱学森是中国航天事业的奠基人70年前的今天(10月8日)他冲破重重阻挠毅然回到当时百废待兴的祖国从茫茫戈壁中的导弹试验到“东方红一号”卫星遨游太空他以...
2025-10-08 1
往年的双11活动,都是在20号左右才开启的,而今年的双11提前了不少,很多主流电商平台上,从9号就开启双11活动了,维持到下个月14号。进入到10月份...
2025-10-08 0
四姑娘山申创世界地质公园工作于2022年正式启动,2024年通过国家林业和草原局评审,被列入2024年中国世界地质公园候选地;2025年6月30日至7...
2025-10-08 2
“你家那位是不是一回家就戴耳机?做饭戴、拖地戴、就连陪娃写作业都戴着?”最近社交平台上的这个话题,戳中了无数网友的共鸣。打开朋友圈不难发现,越来越多中...
2025-10-08 1
本文仅在今日头条发布,谢绝转载欧美怎么都想不明白,中国高科技到底是怎么发展起来的。10年前,中国科技还是落后的代名词,只能承接欧美,甚至日韩淘汰的产能...
2025-10-08 1
苹果公司近日悄然在其零售店内的MagSafe充电支架上添加了一圈保护性硅胶环,以应对部分iPhone 17系列展示机出现的痕迹问题。据法媒Consom...
2025-10-08 1
发表评论