近日据国家网络安全通报中心通报经国家计算机病毒应急处理中心检测69款移动应用存在违法违规收集使用个人信息情况快喊你的朋友来瞅瞅有没有在用的?69款移动...
2025-10-06 1
谁敢信,电脑现在也开始“长心眼”了!
科学家搞出了个新AI,它不用人教,自己看看视频就能琢磨出物理常识,像个几个月大的小宝宝一样,懂得东西不会凭空消失。
更神的是,要是让它看见球滚到木板后面却没出来这种“怪事”,它居然还会“吃惊”!
这到底是咋做到的?跟我们的未来有啥关系?
要想让机器变聪明,首先得让它能“看懂”世界,过去几十年,科学家们教电脑看视频的方法,有点像让一个特别实诚的人去数沙子,他们把视频画面打碎成无数个密密麻麻的小点(这叫像素),然后让电脑去分析每一个小点的变化。
这方法一开始还行,比如让电脑认出一张图片里是猫还是狗。但一到看动态视频,麻烦就来了。现实世界多复杂啊?风吹树叶动,光影变化,行人走路带起的尘土……这些都会让屏幕上的小点乱变一通。电脑一下就懵了,它可能光顾着数树叶有多少种绿色,反而忘了看马路上那辆车是不是要拐弯了。这就叫“捡了芝麻,丢了西瓜”,电脑变得很“死脑筋”,无法理解场景中真正重要的关系。
那咋办呢?就得换个教法。大名鼎鼎的Meta公司(就是原来的脸书)旗下的人工智能实验室,想了个新点子。他们的专家,一位叫杨立昆的科学家,在2022年提出了一个叫JEPA的架构。最近,他们把这个架构用在了视频理解上,弄出了个新模型,叫V-JEPA。
纽约大学计算机科学家、Meta 人工智能研究主任 Yann LeCun 于 2022 年创建了 JEPA
这个新方法,妙就妙在它不跟像素点较劲了。它教电脑的不是“看什么”,而是“怎么想”。它让电脑学习在更高、更抽象的层面去理解视频,科学家管这叫“潜在空间”。打个比方,就像咱看一幅画,不再去数它用了多少种颜色,而是看它画了啥,构图怎么样,主题是啥。V-JEPA就是逼着电脑去抓住视频的“筋骨”,忽略那些“皮毛”。
这个模型学习的过程,有点像咱们玩“猜猜后面会发生啥”的游戏。
研究人员会找一段视频,比如一个球在桌上滚。但他们不会让电脑看全,而是像打马赛克一样,把视频的一部分遮起来,有时候甚至把最后几秒全挡上。
然后,模型里的两个“编码器”分工合作:一个专门分析那些打了马赛克的残缺画面,总结出核心信息,比如:“有个圆形物体,在桌面中央,正向右滚动”。它不关心这球是红是蓝,只关心关键特征。另一个编码器则看着完整的、没打码的视频,得出“标准答案”。
最后,重头戏来了,一个叫“预测器”的部件上场。它的任务就是凭着从马赛克画面里猜出的那点线索(“圆形物,中央,右滚”),去预测完整的“标准答案”应该是啥。它学的不是猜马赛克底下原本是什么颜色,而是根据眼前的信息,推理出接下来最合乎情理的事情是什么。 比如,球滚到一块木板后面暂时看不见了,那最合理的预测就是,它应该从木板的另一侧滚出来。
就这么着,让电脑看了海量的视频后,它自己心里就慢慢摸出点门道了,好像有了一种模糊的“物理直觉”。
光说不行,得考试。研究人员设计了专门的测试,比如一个叫“IntPhys”的考试。里面有很多小短片,有些很正常,比如球撞倒了瓶子;有些则很“诡异”,比如球滚到箱子后面,就再也没出来,凭空消失了!
您猜怎么着?当V-JEPA看到这种“不可能”的怪事时,它内部计算出的误差会猛地升高!研究人员说,这就好比电脑“吃惊”了,“懵了”,觉得“这不对啊!”。这反应,跟小宝宝看到违反常理的事情时会愣住、会更长时间注视,原理上是相通的。
根据Meta团队在今年2月公布的成绩,V-JEPA在这个直观物理考试中,拿到了接近98分(满分100)的好成绩!而用老方法教的模型,得分常常只在及格线边缘徘徊。这进步可不是一星半点。
自主机器人需要类似物理直觉的东西来规划其动作并与物理环境互动。
您可能会问,费这么大劲让电脑“开窍”,图个啥?这用处可大了去了,尤其是对于未来要进入咱们生活的自主机器人。
现在的机器人,可能能认出“这是个杯子”,但它不一定明白:你推杯子,杯子会动;一松手,杯子会因为重力掉下去;劲儿用大了,杯子会碎。它没有这种“常识”。
而V-JEPA培养的,正是这种底层的、对物理环境的直觉。有了这种直觉,机器人才能更安全、更灵巧地工作。比如,它就能更好地规划怎么伸手拿杯子才不会碰倒旁边的瓶子,怎么走路才不会撞到人。这就让机器从“认识世界”向“理解世界”迈了一大步。
当然,咱们也得清醒地看到,现在的AI还像个小宝宝,远未成熟。有专家就指出,它现在还不会表达“不确定”,遇到复杂情况只会硬猜,不会说“我拿不准”。它的“记性”也短,只能考虑几秒钟内的事,记性堪比“金鱼”。为了应对更难的挑战,科学家们已经推出了更强大的V-JEPA 2模型,但前路依然漫长。
不过,这条路的方向无疑是正确的。让机器像婴儿一样通过观察来学习,而不是靠人一条条输入死板的规则,这或许是通向更智能、更贴近人类思维方式的AI的关键一步。说不定在不久的将来,您家里的机器人助手,就是因为今天这些研究,而变得更善解人意、更靠谱。
相关文章
近日据国家网络安全通报中心通报经国家计算机病毒应急处理中心检测69款移动应用存在违法违规收集使用个人信息情况快喊你的朋友来瞅瞅有没有在用的?69款移动...
2025-10-06 1
前言谁敢信,电脑现在也开始“长心眼”了!科学家搞出了个新AI,它不用人教,自己看看视频就能琢磨出物理常识,像个几个月大的小宝宝一样,懂得东西不会凭空消...
2025-10-06 1
大象新闻记者 张松涛 通讯员 张国伟 王晓梅9月28日,由油田群团工作部主办,勘探开发研究院、石油工程技术研究院、物探研究院、信息化管理中心四家科研单...
2025-10-06 1
国庆中秋假日期间 国网新源江西洪屏抽水蓄能电站二期 项目建设者们仍然坚守奋战在施工一线全力推进项目建设进度目前项目进入施工高峰期各个作业面同步开展作业...
2025-10-06 1
芯片制造中的光刻机机有多么重要,大家都是清楚的,特别是EUV光刻机。所以很多人其实是用芯片发展引擎来形容光刻机的,因为只有光刻机不断的前进,才能带动芯...
2025-10-06 1
自从台积电将芯片的设计、制造分开之后,全球的芯片代工业就此繁荣起来。不仅如此,甚至可以说台积电带动了全球整个芯片产业的发展,因为它让更多的企业,可以参...
2025-10-06 1
当Meta宣布豪掷百亿美金,誓要在人工智能领域与OpenAI和谷歌一较高下时,外界看到的,是这家科技巨头转型求生的决心。可谁曾想,在这光鲜亮丽的宏大叙...
2025-10-06 1
发表评论