日前饿了么方面发布新一期沟通简报,就骑士关心的超时免罚落地进展、接单难、商户出餐慢报备流程能否优化等问题,进行了解答。例如针对骑士反馈的“接单难”等问...
2025-10-15 0
2025年10月15日,来自Meta超级智能实验室、Meta的FAIR团队以及俄亥俄州立大学的研究人员在发布了一项突破性研究,他们找到了一种让AI像真正的孩子一样学习的方法。团队共同探索了一个全新的AI训练范式,这个范式不需要外部奖励信号,就能让AI从自己的探索经历中不断成长。
这项研究的革命性在于,它打破了传统AI训练的两难困境。以往的AI智能体要么只能机械地模仿专家示范,就像只会照着菜谱做饭的厨师,遇到缺了某个食材就束手无策。要么需要通过大量试错和即时反馈来学习,这在很多真实场景下根本行不通,就像让学生做一百道题但永远不告诉他对错一样。研究团队提出的"早期经验"方法,则让AI可以在没有明确对错评判的情况下,通过观察"如果我这样做会发生什么"来建立对环境的理解。这种方法在八个截然不同的任务场景中都表现出色,从网页购物到科学实验,从旅行规划到多步骤工具使用,证明了其广泛的适用性。更令人兴奋的是,这种早期经验训练不仅立即提升了AI的表现,还为后续的强化学习训练打下了更坚实的基础,就像一个经过充分探索和试错的学生,在面对正式考试时会表现得更加出色。
AI学习的三个时代:从模仿到探索的演变
要理解这项研究的意义,我们先要明白AI是如何学习的。想象一个学校里有三种不同的教学模式,每种模式代表着AI发展的一个阶段。
第一种是传统课堂模式,也就是研究团队称之为"人类数据时代"的阶段。在这个阶段,AI就像一个只能坐在教室里听课的学生,老师会详细演示每一个步骤,学生则认真记笔记并模仿。比如,当教AI如何在网上购物时,我们会展示成千上万个真实用户的操作记录:他们如何搜索商品、如何筛选价格、如何添加购物车。AI通过观察这些专家示范来学习正确的行为模式。这种方法就是所谓的"监督微调"或"模仿学习"。听起来挺不错的,对吧?
但问题来了。就像那个只会按照菜谱做饭的厨师,这种纯粹靠模仿学习的AI遇到新情况时往往会犯傻。假设它学会了在某个购物网站上买蓝色耳机,但如果网站的界面稍微改变,或者它需要买的是红色耳机而不是蓝色,它可能就不知道该怎么办了。因为它从来没有真正理解"为什么"要这样做,只是机械地重复它见过的动作。更糟糕的是,收集这些专家示范数据非常昂贵和耗时。想象一下,为了教一个AI学会所有可能的购物场景,你需要录制多少人的操作记录?这个工作量实在太大了,而且永远无法覆盖所有可能的情况。
于是,研究者们想到了第二种模式:考试驱动模式,也就是"经验时代"或者说强化学习阶段。这就像那种完全不听课,直接去做题,然后根据分数来调整学习策略的学生。AI在这个阶段可以自由尝试各种行动,每次尝试后环境会给它一个分数,告诉它这次做得好不好。通过成千上万次的试错,AI逐渐学会了哪些行动能获得高分。这种方法理论上很强大,因为AI可以从自己的经验中学习,甚至有可能发现人类专家都没想到的策略。著名的AlphaGo就是用这种方法训练出来的,它通过自己跟自己下几百万盘棋,最终战胜了世界冠军。
但在现实世界中,这种方法遇到了严重的障碍。许多实际任务根本无法提供清晰的即时反馈。比如,当AI在网页上填写一个表单时,即使表单提交成功,它也不知道每个字段是否填对了,因为网站不会告诉你具体哪里对哪里错。再比如,在复杂的多步骤任务中,比如规划一次七天的旅行,AI可能要执行几十个甚至上百个步骤,但只有在最后才知道整个计划是否可行。这就像让一个学生做一道超级复杂的数学题,做了两个小时,最后只告诉他答案是对还是错,但不告诉他具体哪一步算错了。在这种情况下学习效率极低,而且AI很容易陷入困境,不知道该如何改进。
这两种模式都有明显的局限性。第一种太依赖昂贵的专家数据,而且不够灵活。第二种需要明确的反馈信号,但在很多实际场景中这种信号根本不存在或者太过稀疏。那么,有没有一种中间路径呢?这正是Meta和俄亥俄州立大学研究团队想要回答的问题。
早期经验:让AI学会"假如我这样做会怎样"
研究团队提出的"早期经验"范式,就像是介于传统课堂和考试之间的"实验课"或"自习时间"。在这个阶段,学生已经听过老师的基本讲解,知道了一些正确答案,但还没到考试的时候。这时候,学生可以自己拿着课本和笔记,尝试做一些习题,观察不同方法会导致什么样的结果。虽然没有人立即告诉他对错,但通过观察结果,他能够建立对知识的更深理解。
具体来说,早期经验是这样工作的。首先,研究团队会给AI提供一些专家示范作为起点,就像给学生一些标准答案作参考。然后,在每一个专家示范经过的状态点上,他们让AI自己提出一些不同的行动方案。比如,专家示范在购物网站上点击了蓝色耳机,AI会想:"如果我点击红色耳机会怎样?如果我点击筛选按钮会怎样?如果我直接点购买会怎样?"然后,AI真的去执行这些动作,观察网页会发生什么变化。注意,这里没有人告诉AI这些动作是对是错,AI只是单纯地收集信息:采取这个动作后,环境变成了什么样子。
这种方法的巧妙之处在于,它不需要外部的奖励信号,但仍然能提供非常有价值的学习信号。环境本身的响应,也就是那些观察到的"未来状态",就构成了学习的素材。就像一个孩子在厨房里探索时,他不需要妈妈每次都说"做得好"或"做得不好",他只需要观察:当我转动这个旋钮时,炉火会变大;当我打开冰箱门时,里面会亮起灯。这些观察本身就帮助孩子建立对世界的理解。
研究团队用这种方法收集了大量的状态转换数据。以WebShop为例,他们从专家示范中提取了大约一万五千个状态-行动对。然后,在每个状态点上,他们让AI提出五到八个替代行动,并执行这些行动来观察结果。这样一来,原本只有一万五千个学习样本的数据集扩充到了十几万个样本,而且这些新增样本都是AI自己探索得来的,不需要人工标注。更重要的是,这些样本展示了更丰富多样的情况:不仅包括正确的做法会导致什么结果,还包括各种不那么理想的做法会导致什么结果。这就像一个学生不仅看到了标准答案的解题过程,还亲自尝试了各种可能的错误做法,观察它们为什么不对,从而对问题有了更全面的理解。
关键的创新在于,这种方法具有高度的可扩展性。不需要昂贵的人工标注,只需要让AI自己去尝试,就能产生大量有用的训练数据。同时,它又不像强化学习那样需要明确的奖励函数。环境只需要能够响应AI的动作,提供下一个状态的观察就足够了。这在绝大多数实际场景中都是可行的。比如,一个网站不需要告诉AI"你这次操作得了80分",它只需要展示点击按钮后页面会变成什么样子。一个科学实验模拟器不需要评判AI的每个操作是对是错,它只需要根据物理规律展示实验结果。这种方法的适用范围远比强化学习广泛得多。
两种学习策略:建立内在理解和学会自我反思
基于早期经验的数据,研究团队开发了两种互补的学习策略。这两种策略就像学生学习的两个不同方面:一个是理解知识本身的运作规律,另一个是学会自我评价和反思。
第一种策略叫做"隐式世界建模"。这个名字听起来有点抽象,但其实概念很简单。想象你在教一个从未见过汽车的人开车。一种方法是直接告诉他:踩油门车会前进,踩刹车车会停止,转方向盘车会转向。但更好的方法是让他坐在驾驶座上,亲自尝试这些操作,观察车的反应。通过这种亲身体验,他不仅知道了这些操作的效果,还能逐渐形成一种直觉:车是如何响应我的操作的?不同操作之间有什么关联?这种直觉就是所谓的"世界模型",对环境运作规律的内在理解。
在隐式世界建模中,研究团队让AI预测:如果我在当前状态下采取某个动作,环境会变成什么样子?这是一个纯粹的预测任务,不需要判断好坏对错。AI就像一个物理学家,通过大量观察来总结规律。关键在于,这些观察来自AI自己的探索,而不仅仅是专家示范。专家示范只展示了一条"最优路径",而AI的探索展示了"各种可能的路径"。这就好比学习地理,如果你只看过从北京到上海的高速公路,你对这片区域的理解是很有限的。但如果你还看过国道、省道、甚至一些乡间小路,你就能建立一个更完整的地图。
通过训练AI预测状态转换,研究团队实际上是在帮助AI建立对环境的内在表征。这种表征不是显式的规则或公式,而是融入神经网络参数中的隐式知识。当AI在实际执行任务时,这种内在理解会帮助它做出更好的决策。比如,在WebShop环境中,经过世界建模训练的AI不仅知道点击某个按钮会导航到某个页面,它还理解了不同页面类型的特点,不同操作的潜在后果,以及如何根据当前状态选择合适的下一步。这种理解是通过预测上千上万次状态转换积累起来的,远比单纯记住专家示范要丰富得多。
研究团队发现,这种方法在状态转换规律清晰的环境中特别有效。比如在ALFWorld中,物体的位置和状态变化是确定的:如果你把书从桌子上拿起来,桌子上就不会再有这本书;如果你打开抽屉,你就能看到里面的物品。通过大量探索这些转换,AI能够建立对环境规则的可靠理解。在WebShop中也是如此,点击某个筛选条件,商品列表会以可预测的方式更新。这些规律性帮助AI形成了类似人类的"常识":什么样的操作会导致什么样的结果。
第二种策略叫做"自我反思"。如果说世界建模是在理解"环境如何运作",那么自我反思就是在学习"如何做出更好的决策"。想象一个学生在做数学题时,他不仅要知道正确答案是什么,还要明白为什么其他答案是错的。这种理解能力对于真正掌握知识至关重要。
在自我反思方法中,研究团队让AI进行一种特殊的思维训练。对于每个专家示范的状态-行动对,AI会生成几个替代行动,然后让AI自己用自然语言解释:为什么专家的选择比这些替代方案更好?这就像让学生写解题过程中的"反思日记",不仅要写出正确答案,还要分析错误选项的问题所在。
这个过程非常巧妙。AI首先提出了替代方案,然后在环境中执行这些方案,观察结果,最后生成一段推理过程来对比专家行动和替代行动。比如在TravelPlanner环境中,假设专家选择了一个符合预算的航班,而AI提出了一个超预算的替代航班。通过对比这两个选择的后果,AI生成这样的推理:"虽然替代航班的时间更方便,但它超出了预算限制。专家选择的航班虽然出发时间稍晚,但在预算范围内,这确保了后续行程能够顺利进行。在资源受限的规划任务中,遵守预算约束比追求单个环节的最优更为重要。"
这种推理过程被加入到训练数据中。在后续训练时,AI不仅学习专家的行动,还学习这些解释性的推理过程。这就像教一个学生不仅要记住公式,还要理解公式背后的道理。通过这种训练,AI逐渐学会了在决策时考虑多个约束条件,权衡不同因素,而不是盲目模仿表面的行动模式。
自我反思在需要复杂推理和约束满足的任务中特别有效。在BFCLv3环境中,AI需要选择合适的工具并按正确顺序调用它们。通过自我反思训练,AI学会了分析:"为什么在这一步要用工具A而不是工具B?因为工具A能提供后续步骤需要的信息,而工具B虽然也相关但在当前上下文中不是必需的。"这种推理能力使得AI能够更好地处理长序列的多步骤任务。
两种策略的结合创造了协同效应。世界建模帮助AI理解环境的客观规律,而自我反思帮助AI学会在这些规律的基础上做出明智的选择。就像一个好学生,既要掌握知识本身,也要培养批判性思维和问题解决能力。研究团队在不同环境中发现,有时世界建模效果更好,有时自我反思效果更好,这取决于任务的性质。但在几乎所有情况下,两种方法都显著优于传统的纯模仿学习。
惊人的实验成果:从购物到旅行规划的全面验证
为了验证早期经验方法的有效性,研究团队进行了大规模的实验。他们选择了八个截然不同的环境,涵盖了AI智能体可能遇到的各种挑战。这就像给学生出了一套包含各种题型的综合考卷:有选择题、填空题、应用题,还有需要多步推导的证明题。只有在所有题型上都表现良好,才能说明这个学习方法是真正有效的。
在WebShop这个模拟购物网站环境中,结果令人印象深刻。使用传统模仿学习的AI成功率只有百分之四十七左右,这意味着它常常无法找到符合要求的商品或者在购买过程中出错。经过隐式世界建模训练后,成功率跃升到接近百分之六十,提升了十多个百分点。而使用自我反思训练的AI也达到了类似的成绩。更有趣的是,当研究团队把这些经过早期经验训练的AI用作后续强化学习的起点时,它们的表现进一步飙升到百分之九十以上。这说明早期经验不仅本身有效,还为更高级的学习打下了坚实基础。
想象一下这个场景。一个纯粹靠模仿学习的AI在购物网站上可能会机械地点击它在训练数据中见过的按钮和商品。但当商品的位置稍有变化,或者需要筛选的条件略有不同时,它就会困惑。相比之下,经过早期经验训练的AI已经通过大量探索了解了购物网站的运作规律:点击筛选按钮会如何改变商品列表,选择不同颜色会如何更新页面,添加购物车后会跳转到哪里。这种深层理解使得它能够灵活应对各种情况,就像一个真正懂得如何网购的人,而不是只会按照固定步骤操作的机器人。
在ALFWorld这个模拟家居任务的环境中,成果同样显著。这个环境要求AI在虚拟房间中寻找物品、移动物品、完成各种家务任务。传统模仿学习已经表现不错,达到了百分之八十左右的成功率。但早期经验方法进一步将成功率提升到百分之八十五以上。更重要的是,在陌生的房间布局下,早期经验训练的AI表现出更强的适应能力。它们不仅记住了在某个特定房间里如何完成任务,而是理解了一般的物品位置规律和任务完成策略,因此能够迁移到新环境。
在长期规划任务TravelPlanner中,早期经验的优势更加明显。这个环境要求AI规划一次多日旅行,需要预订航班、酒店、餐厅,安排景点参观,同时满足预算、饮食偏好、房间类型等多个约束。这是一个非常复杂的任务,因为每个决策都会影响后续的可能性:如果第一天选择了昂贵的航班,预算就会收紧,影响后续的住宿和餐饮选择。传统模仿学习在这个任务上的成功率只有百分之十七左右,而自我反思方法则将成功率提升到百分之三十二,几乎翻倍。这个提升来自于AI学会了推理:在每个决策点,它能够考虑这个选择对整体计划的影响,权衡不同约束的优先级。
研究团队还在ScienceWorld这个科学实验模拟器中进行了测试。这个环境模拟了各种物理和化学实验,AI需要操作实验器材,观察实验现象,完成给定的科学任务。比如,判断某个材料是否导电,或者测量物质的温度变化。在这里,自我反思方法表现特别出色,在某些模型上将成功率从百分之五十四提升到百分之六十八,增幅超过百分之十三。这是因为科学实验往往需要严谨的步骤推理和因果理解:为什么要先连接电池的正极而不是负极?为什么要先加热再测量而不是反过来?通过自我反思训练,AI学会了这种步骤间的逻辑关系。
在多轮工具使用任务BFCLv3和Tau-Bench中,结果也很好。这两个环境要求AI通过调用不同的工具来完成复杂任务。每个工具都有特定的功能和使用条件,AI需要选择正确的工具序列。早期经验训练使AI的成功率提升了百分之五到百分之八不等。更重要的是,当任务条件发生变化时,经过早期经验训练的AI表现出更好的鲁棒性。它们不是死记硬背工具的使用方法,而是理解了每个工具在不同情境下的适用性。
在SearchQA这个多跳问答任务中,AI需要通过多次搜索和推理来回答复杂问题。比如,要回答"某个村庄所在国家的第九任总督是谁",AI首先要搜索找到村庄所在的国家,然后搜索该国的总督列表。早期经验方法在这个任务上也展现了优势,虽然提升幅度相对较小,但考虑到这是一个本身就很具挑战性的任务,这个提升依然有意义。
最重要的发现之一是早期经验与强化学习的协同效应。在三个具备明确奖励信号的环境中,研究团队进行了一个额外实验:他们先用早期经验方法训练AI,然后在此基础上再进行强化学习训练。结果显示,这种两阶段训练的最终效果远超直接用强化学习。就像一个学生如果先通过自习和探索打好了基础,再通过考试和反馈进一步提升,会比一开始就直接参加考试学得更快更好。这个发现特别重要,因为它表明早期经验不仅在无奖励环境中有用,在有奖励的环境中也能作为强化学习的优质热启动,大大提高学习效率。
至顶AI实验室洞见
在当今AI开发中,获取高质量训练数据往往是最大的挑战。训练一个能熟练操作各种网站的AI需要大量人工标注的操作记录,每个网站、每种任务都需要专人演示,成本高昂且无法覆盖所有情况。早期经验方法提供了优雅的解决方案:只需少量初始示范,AI就可以自己生成大量额外的训练数据。实验显示,使用一半甚至更少的专家数据配合早期经验训练,就能达到使用全部数据进行传统训练的效果,这意味着数据收集成本可以大幅降低。
传统AI往往在见过的场景中表现良好,但遇到不同情况就会失效。通过早期经验训练,AI接触到更多样的状态和转换,不仅看到专家会怎么做,还看到各种其他做法的后果。这种经验多样性帮助AI建立更鲁棒的理解,使其在陌生环境中也能做出合理决策。更重要的是,这种方法为许多无法应用强化学习的领域打开了大门。强化学习需要明确的奖励信号,但网页自动化、客户服务对话等许多实际任务都难以量化评估。早期经验提供了第三条路:不需要奖励信号,只需观察环境响应就能学习,大大扩展了AI的应用范围。
研究团队将早期经验定位为通向"经验时代"的桥梁。这种递进式学习路径,先模仿学习,再早期经验,最后强化学习,模仿了人类的自然学习过程。我们先从父母和老师那里学习基础知识,然后自己探索和实践,最后通过反馈不断优化。这种多阶段学习可能是通往真正智能的关键。从实用角度看,网页自动化、客户服务AI、科研助手、个人助理等领域都将直接受益。
这项研究的核心价值在于:监督信号不一定要来自外部标注或奖励函数,环境本身的动态变化就可以作为丰富的学习信号。这开辟了新的可能性,未来AI系统可能像生物一样,通过持续与环境交互来不断学习和适应。研究的价值不仅在于实验效果好,更在于其现实可行性:不需要特殊硬件、复杂基础设施或昂贵的人工标注,任何能让AI与之交互并观察结果的环境都可应用这种方法。
未来AI智能体将成为真正的学习者,能从经验中成长,适应新环境,处理意外情况,成为人类的智能伙伴。让AI学会从自己的早期经验中学习,就像孩子学会与世界互动一样,这或许是迈向真正智能的最关键一步。
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:早期经验和强化学习有什么区别?
A:最大的区别在于是否需要奖励信号。强化学习需要环境明确告诉AI"这次做得好不好",而早期经验只需要观察"这样做会怎样"。就像学生做题,强化学习相当于每道题都要老师打分,而早期经验相当于自己做题看答案、观察不同做法的后果。早期经验不需要奖励,所以适用范围更广,但强化学习在有明确反馈的环境中可能达到更高的性能上限。研究显示,两者结合效果最好。
Q2:早期经验会不会让AI学到错误的做法?
A:不会,因为AI不是在"学习"那些替代动作本身,而是在"理解"不同动作的后果。就像一个孩子摸热水壶被烫到,他学到的不是"要去摸热水壶",而是"热水壶会烫手,应该避免"。在自我反思方法中,AI明确地学习为什么专家选择更好;在世界建模中,AI学习预测结果,这种预测能力可以帮助它在决策时避开不好的选择。实验数据显示,早期经验训练后的AI表现持续优于只看专家示范的AI。
Q3:这种方法什么时候可以应用到实际产品中?
A:技术本身已经相当成熟,可以立即应用于很多场景。研究团队使用的是开源模型和标准的训练框架,这意味着任何有基本AI开发能力的团队都可以复现和应用这些方法。最快能落地的领域包括网页自动化工具、客户服务机器人和办公助理应用。不过,要做成消费级产品还需要考虑用户体验、安全性等工程问题。预计在未来一到两年内,我们会看到基于这项技术的商业产品陆续出现。
相关文章
日前饿了么方面发布新一期沟通简报,就骑士关心的超时免罚落地进展、接单难、商户出餐慢报备流程能否优化等问题,进行了解答。例如针对骑士反馈的“接单难”等问...
2025-10-15 0
极空间Z425首发评测:顶级配置,性能炸裂,面向未来的AI NAS旗舰哈喽小伙伴们好,我是Stark-C~,今天为大家上大货--极空间Z425旗舰版的...
2025-10-15 0
如果一个孩子学骑自行车,只能通过观看专业教练的示范视频来学习,而永远不能自己上车尝试,会发生什么?这个孩子可能会记住所有正确的动作姿势,但一旦遇到路面...
2025-10-15 0
声音 | 小白本月新机非常多,此前还差真我GT8系列、红米K90系列、一加15未官宣发布会日期,今日真我GT8系列正式定档。如上图所见,真我GT8系列...
2025-10-15 0
硅谷程序员因拒用AI工具一周被解雇——这个夏天,当十年寒窗苦读的代码手艺,抵不过一行AI提示词的效率碾压,山姆·奥特曼却说:“被替代的本就不是真工作。...
2025-10-15 0
OPPO ColorOS 16全新发布!极光引擎、潮汐引擎、繁星编译器三大核心技术打造“机圈德芙”。全新小布助手、小布记忆焕发AI新活力!快来围观OP...
2025-10-15 0
作为世界城市日同期活动之一,上海国际城市与建筑博览会(简称“城博会”)将于10月30日至11月1日在上海世博展览馆举行。10月15日上午,上海召开新闻...
2025-10-15 0
本报记者 李乔宇“目前eSIM功能仅支持iPhone Air国行版手机,后续将开放至其他符合相关要求的终端。”10月14日,《证券日报》记者走访北京市...
2025-10-15 0
发表评论