电脑也懂“物体恒存”？Meta新AI堪比一岁婴儿，未来应用前景惊人

今日快讯 2025年10月06日 16:11 1 aa

前言

谁敢信，电脑现在也开始“长心眼”了！

科学家搞出了个新AI，它不用人教，自己看看视频就能琢磨出物理常识，像个几个月大的小宝宝一样，懂得东西不会凭空消失。

更神的是，要是让它看见球滚到木板后面却没出来这种“怪事”，它居然还会“吃惊”！

这到底是咋做到的？跟我们的未来有啥关系？

电脑为啥“死脑筋”？

要想让机器变聪明，首先得让它能“看懂”世界，过去几十年，科学家们教电脑看视频的方法，有点像让一个特别实诚的人去数沙子，他们把视频画面打碎成无数个密密麻麻的小点（这叫像素），然后让电脑去分析每一个小点的变化。

这方法一开始还行，比如让电脑认出一张图片里是猫还是狗。但一到看动态视频，麻烦就来了。现实世界多复杂啊？风吹树叶动，光影变化，行人走路带起的尘土……这些都会让屏幕上的小点乱变一通。电脑一下就懵了，它可能光顾着数树叶有多少种绿色，反而忘了看马路上那辆车是不是要拐弯了。这就叫“捡了芝麻，丢了西瓜”，电脑变得很“死脑筋”，无法理解场景中真正重要的关系。

不数“沙子”，学看“门道”

那咋办呢？就得换个教法。大名鼎鼎的Meta公司（就是原来的脸书）旗下的人工智能实验室，想了个新点子。他们的专家，一位叫杨立昆的科学家，在2022年提出了一个叫JEPA的架构。最近，他们把这个架构用在了视频理解上，弄出了个新模型，叫V-JEPA。

纽约大学计算机科学家、Meta 人工智能研究主任 Yann LeCun 于 2022 年创建了 JEPA

这个新方法，妙就妙在它不跟像素点较劲了。它教电脑的不是“看什么”，而是“怎么想”。它让电脑学习在更高、更抽象的层面去理解视频，科学家管这叫“潜在空间”。打个比方，就像咱看一幅画，不再去数它用了多少种颜色，而是看它画了啥，构图怎么样，主题是啥。V-JEPA就是逼着电脑去抓住视频的“筋骨”，忽略那些“皮毛”。

V-JEPA是怎么“学”的？

这个模型学习的过程，有点像咱们玩“猜猜后面会发生啥”的游戏。

研究人员会找一段视频，比如一个球在桌上滚。但他们不会让电脑看全，而是像打马赛克一样，把视频的一部分遮起来，有时候甚至把最后几秒全挡上。

然后，模型里的两个“编码器”分工合作：一个专门分析那些打了马赛克的残缺画面，总结出核心信息，比如：“有个圆形物体，在桌面中央，正向右滚动”。它不关心这球是红是蓝，只关心关键特征。另一个编码器则看着完整的、没打码的视频，得出“标准答案”。

最后，重头戏来了，一个叫“预测器”的部件上场。它的任务就是凭着从马赛克画面里猜出的那点线索（“圆形物，中央，右滚”），去预测完整的“标准答案”应该是啥。它学的不是猜马赛克底下原本是什么颜色，而是根据眼前的信息，推理出接下来最合乎情理的事情是什么。比如，球滚到一块木板后面暂时看不见了，那最合理的预测就是，它应该从木板的另一侧滚出来。

就这么着，让电脑看了海量的视频后，它自己心里就慢慢摸出点门道了，好像有了一种模糊的“物理直觉”。