卡帕西：强化学习很糟糕，但其他所有方法都更糟

AI科技 2025年10月18日 19:02 0 aa

时令发自凹非寺

量子位 | 公众号 QbitAI

卡帕西大神的最新专访来了！

作为特斯拉前AI总监、OpenAI创始成员，卡帕西在近两个半小时的访谈中，深入回答了一系列引人深思的问题：

为何强化学习表现糟糕（但其他方法更糟糕）？
为何通用人工智能会延续2%的GDP增长率？
为何自动驾驶技术历经漫长攻坚期？

解答问题之余，由于卡帕西早已宣布全职搞教育，那不得不提的还有他对未来教育发展的见解。

网友表示：知识点实在太密集了，卡帕西访谈的两个小时等于别人的四个小时。

干货要来了，请系好安全带，别被轰晕了！

AGI起码还要十年

访谈一开始，主持人就先对卡帕西提出了一个人令许多人都很好奇的问题：

为什么说未来将是“智能体的十年”，而不是“智能体的一年”？

卡帕西解答道，现在确实有一些非常早期的智能体，比如他每天都在使用的Claude、Codex等，它们已经展现出令人惊叹的能力。

但不可否认的是，这些系统还需要不断进化，最终达到理想状态，而十年正是实现这一蜕变所需要的时间跨度。

那这个时间节点为什么是十年呢？

卡帕西接着举了个例子，他认为，当智能体能够像员工或实习生一样与人协作时，才是它真正发挥作用的时候。

显然，目前智能体还做不到这样。那么，为了让它们做到，需要什么条件呢？为什么人们今天还没用它们来做呢？

原因很简单，就是现有系统尚未成熟。智能水平尚未达标、多模态能力存在局限、也缺乏操作计算机完成复杂任务的能力。

此外，它们也没有持续学习能力——你无法通过单次告知就让系统永久掌握知识。在认知架构层面仍存在显著缺陷，导致现有方案完全不可行。

凭借卡帕西15年做AI的经验，要系统性解决这些难题，大约还需要十年。

LLM认知缺陷

之后，卡帕西还讲了自己构建代码仓库的一些事情。

他认为目前人们与代码交互的方式主要有三类：

完全拒绝所有大语言模型（LLM），坚持手动编写所有代码。
中间派系（也是卡帕西所属的阵营）仍然会亲自编写大量代码，但会利用现有的自动补全功能。
氛围编程，直接输入“请实现某某功能”，然后让模型完成。

卡帕西承认，现有的智能体在做模块化代码方面确实很有效，但他做的NanoChat是一个很独特的仓库，几乎每行都需要深度思考，所有细节都必须精确安排。

然而，现有的模型存在太多认知缺陷。由于它们在训练中吸收了网络上常见的编程范式，所以它们总是无法突破思维定势，执意要将代码改造成生产级标准。

但卡帕西的代码本身已包含若干假设，根本不需要那些冗余内容。它们不仅膨胀了代码库规模，增加了复杂度，还频繁使用已弃用的API，最终搞得一团糟。

总的来说，卡帕西认为现在的模型还没有达到理想状态，业界对它们的能力有些过度夸大，其实它们仍需要大量改进。

强化学习很糟糕

接着，主持人聊到了现在大火的强化学习。

卡帕西表示：

强化学习远比普通人想象的还要糟糕，它确实很差，但其他方法更差。

以解数学题为例，在强化学习中，你会首先生成大量尝试方案：针对同一问题产出数百种解法，可能涉及不同思路的探索与调整，最终某个答案恰好正确。

这时强化学习的做法是：对最终正确的解题路径上的每个步骤都进行权重强化，仿佛在说“请多做这类操作”。

但问题在于这种做法充满噪声。它默认正确解法的每个环节都完美无缺，但现实中人们常会绕弯路，只是最终误打误撞找到答案。只要结果正确，所有错误步骤反而都被强化了——这显然不合理。

人们投入大量计算资源，最终仅获得“正确/错误”的二元判断，并据此对整个轨迹进行加权，卡帕西认为，“这实在荒谬”。

真正的人类绝不会这么干。第一，人类不会做数百次尝试；第二，当人类找到答案时，会进行复杂的复盘：“哪些做得好，哪些没做好”。他们会思考，而当前LLM完全没有这种机制。

以阅读为例，当LLM“阅读”时，只是在做下一个词预测并从中获取知识。但人类阅读时，书本更像是激发思考的提示集——人们会通过信息重组来内化知识。

对此，卡帕西期待在预训练阶段加入“思考消化”环节，让模型能真正整合新信息与既有认知。

AGI将延续2%的GDP增长趋势

接着，主持人还提到了衡量AGI的标尺，以教育水平为例，AGI是从高中生水平通过强化学习达到大学生水平，最终取得博士学位。

卡帕西可不认同上述标准，他认同的是OpenAI初创时对AGI的定义：能完成任何具有经济价值任务且达到或超越人类水平的系统。

这就涉及到现有工作被替代的程度，卡帕西认为，即使是如客服中心员工这种更易自动化的职业，AGI也不能瞬间完全替代，而是实现“自主性滑块”——AI处理80%常规工作，剩下20%留给人类监督。

那如果有AGI替代人类工作，它的并行复制会显著加速AI进步吗？会出现智力爆炸吗？

卡帕西回答道：智力爆炸已经在发生了，通过历史GDP的指数增长就能体现出来。这是渐进的自动化趋势：工业革命是物理自动化，早期软件是数字自动化。

他认为：

这种增长模式大体保持不变。就像互联网让我们维持2%的增长一样，AGI也只是延续这种模式，不会突然产生巨大的跳跃。

自动驾驶为何耗时如此之长

主持人还提到了卡帕西在特斯拉的经历，问道：“你曾在2017年到2022年领导特斯拉自动驾驶项目，为什么这个项目耗时如此之长？”

首先，卡帕西澄清了一点：自动驾驶还远未完成。

对于某些任务或工作来说，演示到产品的差距非常大。演示可能很容易，但做成真正的产品非常难。自动驾驶尤其如此，因为失败代价太高。

软件工程也有类似特性。比如普通编程可能没那么严格，但如果你写的是生产级代码，任何小错误都可能导致安全漏洞，泄露数百万人的个人信息。

自动驾驶如果出错可能有人受伤，但软件出错可能带来的后果几乎是无限的。

其中的关键在于所谓的“9的进度”。每增加一位9（比如从90%到99%的可靠性），都需要大量工作。卡帕西在特斯拉的五年里，他们可能达到了三位或两位9，但还有更多9等着去完成。

毕竟真正的产品要面对现实中的各种挑战，需要不断修补各种边缘情况。

教育的未来

最后，卡帕西作为一名全职教育家，不得不提的还有教育。

卡帕西表示：

我们在尝试建立一所技术知识方面的顶尖学府，一所非常现代化、领先的学校。我想做的是一种真正的“导师体验”。

以他学韩语为例，一开始是自学，然后加入韩国的一个小班，和十来个学生一起上课。后来他换成了一对一导师。他发现这位导师的教学非常棒，可以迅速判断他的知识水平，提出合适的问题来理解他的认知模型。

目前，即使是优秀的LLM也做不到这一点，但好的导师可以做到。一旦导师了解自己，就能提供给学生最需要的知识——适度的挑战，既不太难也不太简单。

此外，卡帕西还想做一门非常优秀的课程，让学生学习AI时能有顶尖的体验。这个课程就是LLM101N，Nanochat是其中的经典项目。之后他还需要构建中间内容，招募助教团队，完善整门课程。

最后的最后，有的网友也是狠狠附议了卡帕西访谈中的一些观点。

比如LLM的“健忘症”。

但有的人也表示：

完全不同意，现在的编码智能体已经很可靠了。

对此，你怎么看呢？欢迎在评论区分享你的观点～

参考链接：https://www.dwarkesh.com/p/andrej-karpathy

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI智能儿童阅读馆里体验别样阅读#

京东外卖、饿了么、美团宣布试点取消骑手超时罚款

发表评论