青藏高原的冰川与裸岩之间的最高处,被称作华夏的“水塔”。这里是长江、黄河、湄公河的起点,水源源头。2000年,国家成立了自然保护区,这片水源地才有了正...
2025-10-18 0
编辑:康康
忘记传统3D建模吧!当所有人都试图用蛮力构建虚拟世界时,李飞飞教授团队却用一个颠覆性理念,彻底改写了游戏规则。
他们让AI学会了“渲染”,而非构建几何体,巧妙避开了天文数字般的算力需求。
更令人震撼的是,这项名为RTFM的成果,竟能在一块H100 GPU上,实时跑出一个几何持久、无限探索的3D宇宙,将“世界模型”的未来瞬间拉到眼前!
关于RTFM的颠覆性,首先体现在它的核心哲学上,它没有走传统计算机图形学的老路,也就是用三角网格、高斯溅射这类技术,费力地去构建一个显式的、可触摸的3D模型。
传统路线虽然直观,但却高度依赖人工设计的算法,天花板很低,很难随着数据和算力的爆炸性增长而扩展。
RTFM彻底抛弃了“构建三维”的执念。它不生成任何3D几何体,它的工作方式更像是一个“学会了渲染的AI”。整个过程完全是端到端学习,它吸收海量的视频数据,然后基于你给它的几个2D图像帧,直接预测并生成下一个全新的2D视角图像。
它的内部逻辑是这样的:当RTFM接收到输入的图像帧时,会将其转化为一种神经网络内部的“激活值”,也就是我们常说的KV缓存。
然后,当需要生成新画面时,模型就通过注意力机制,从这个庞大的隐式记忆库里“读取”相关信息,像一个技艺高超的画师一样,渲染出一幅与原始场景在几何上完全一致的新画面。
这种“学习型渲染器”最神奇的地方在于,它在学习过程中产生了惊人的“副产品”。仅仅通过观察现实世界的视频,它自己就领悟了光影的追逐、水面的反射、光源的光晕等极其复杂的物理与光学现象。这些在传统CG里需要工程师编写大量代码才能实现的效果,RTFM自己就学会了。
这背后,其实呼应了人工智能领域一个深刻的理念——“苦涩的教训”。这个教训告诉我们,那些放弃复杂的人工设计,转而拥抱简单、通用、且能随算力提升而扩展的方法,最终会笑到最后。
RTFM正是这一理念的完美践行者,它将宝押在了未来计算成本持续下降的大趋势上。
说到RTFM最让人拍案叫绝的地方,莫过于它的效率。在解决了理念问题后,它用一种极其优雅的方式,攻克了那个最棘手的计算难题:如何在一个无限的虚拟世界里实现“持久性”。
什么是持久性?很简单,就是你探索过的东西,在你回头时它依然还在那里,不会因为你的视线移开而消失。
对于传统的自回归模型来说,这是一个噩梦,因为要实现持久性,就意味着上下文窗口必须不断增长,把你看过的所有东西都记下来。
记忆越多,计算就越慢,成本就持续攀升,最终你的探索范围会被硬件的算力预算死死框住。
而RTFM的破解之道堪称神来之笔。它引入了一套“空间记忆”系统。它不只是线性地记住一连串的图像,而是为它看到的每一个2D帧,都建模了一个3D空间中的“位姿”,也就是它的精确位置和朝向。
通过这种方式,它等于给模型植入了一个微弱但至关重要的先验知识:“这个世界是三维的,遵循欧几里得空间法则”。
有了这个地图,接下来的关键技术“上下文调度”就能大显身手了。这项技术彻底改变了信息检索的方式。当模型需要生成一个新视角时,它不再需要回顾全部历史帧,搞得自己不堪重负。
取而代之的是,系统会根据你当前的位姿,从那个空间记忆地图里,只检索出物理空间上最邻近的几个帧,来构建一个小的、高度相关的上下文。这种“按需索取”的机制,就像一个记忆力超群但从不浪费脑细胞的天才。
最终的效果令人震惊。这套机制让模型在探索广阔世界时,既能保持完美的几何持久性,又能将计算成本维持在一个极低的恒定水平。
这一切,最终被浓缩到了一个几乎不可思议的硬件要求上:仅仅一块H100GPU,就能实现实时交互式的帧率。这引得有网友开玩笑说,没准我们所处的世界,本身就是在这么一块H100上运行的。
RTFM的出现,不仅在技术层面实现了突破,更在应用层面模糊了许多传统计算机视觉任务的边界,展现出一种更通用、更强大的世界建模能力。
过去,场景重建和内容生成,通常是两个泾渭分明的领域,由不同的算法各司其职。RTFM却用一个统一的框架,将这两种行为模式融合在了一起。
当输入信息充足且密集时,比如你给了它一段稀疏拍摄的照片序列,它的行为就更接近于“重建”。它会严格遵循这些约束,忠实地重建出真实世界的那个具体地点,插值出中间缺失的视角。
可一旦输入的信息变得稀疏,比如你只给它一张照片,它就必须切换到另一种模式。这时,模型的大部分工作就变成了外推和想象,它的行为更接近于“生成”,去创造那些从未被看到过的场景部分。
它与WorldLabs自家的Marble模型结合时,这种能力体现得淋漓尽致。从一张孤零零的图像开始,RTFM就能参与到一个3D世界的创造过程中去。
这种在“忠实复刻”和“合理想象”之间无缝切换的能力,预示着一种全新的、更加整合的空间智能范式的到来。一位前谷歌的高级工程师就认为,这项成果直接解决了世界模型这个领域长期以来悬而未决的可扩展性难题。
李飞飞团队在一篇博客里,聊过他们为什么要做这件事。他们觉得,跟语言比起来,空间智能才是人类更底层的能力。我们靠它来理解世界,和周围的一切互动。
虽然现在文生图、文生视频已经很火了,但这其实只是摸到了一点皮毛。真正的未来,是打造有空间智能的AI,让AI能像人一样,在三维时空里思考物体、位置和互动。
这,就是WorldLabs正在干的事。他们的目标,是把AI从二维的像素平面,彻底解放到完整的三维世界里。
今年对李飞飞来说,意义非凡。她不仅休了个长假,还出了本自传,叫《我看见的世界》。不管是书名,还是公司名,都带着“世界”这个词。这背后,既有最前沿的技术思考,也藏着深刻的哲学味道。
他们正在做的,远不止是给创作者一个新工具那么简单,而是在探索一个更宏大的命题:如何赋予AI,一颗真正能理解世界的心。
相关文章
青藏高原的冰川与裸岩之间的最高处,被称作华夏的“水塔”。这里是长江、黄河、湄公河的起点,水源源头。2000年,国家成立了自然保护区,这片水源地才有了正...
2025-10-18 0
在各大内容与广告平台上我们常看到平台方宣称要实现“多方共赢”但现实情况是内容平台越赚钱创作者却可能越难盈利广告平台的广告收入持续冲高广告主的实际回报却...
2025-10-18 0
在阅读此文之前,辛苦您点击一下“关注”既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑:康康忘记传统3D建模吧!当所有人都试图用...
2025-10-18 0
10月18日,享誉世界的物理学家、诺贝尔物理学奖获得者,中国科学院院士,清华大学教授、清华大学高等研究院名誉院长杨振宁先生,因病于北京去世,享年103...
2025-10-18 0
9月下旬的杭州,直接进入了“数贸时间”,第四届全球数字贸易博览会就在这儿开了。这展会规模真不小,154个国家和地区的人来,还有33个国际组织、1800...
2025-10-18 0
本文由半导体产业纵横(ID:ICVIEWS)综合该结构由2个垂直晶体管和n个可堆叠HZO基铁电存储器组成,实现了并行操作。清华大学吴华强教授团队将在I...
2025-10-18 0
云南锗业:是国内锗产业链较为完整、锗金属保有储量最大、产销量最大的企业。巨化股份:是国内制冷剂的主要生产企业之一;产品覆盖 R22、R134a、R32...
2025-10-18 0
发表评论