单GPU生成3D世界，打破枷锁，李飞飞团队RTFM颠覆AI虚拟交互赛道

今日新闻 2025年10月19日 17:52 0 aa

李飞飞团队刚搞出个大动静，单块GPU就能实时生成可随便逛的3D世界，这就是WorldLabs新发布的RTFM技术。

OpenAI还在到处囤显卡撑Sora2，Google的Genie3藏着掖着不公开，RTFM直接用一张H100就实现了实时交互，这波操作确实让人眼前一亮。

之前九月推出的Marble技术，虽然能从一张照片生成3D世界，但总觉得少了点“参与感”，就像看一场不能互动的展览。

RTFM完全不一样，它不仅能生成3D场景，还能让你拖着摇杆随便逛，光影、反射这些细节都跟着实时变化。

更有意思的是它的Demo叫FRAMEBOY，网页布局一看就想起小时候玩的GameBoy，瞬间勾起满满怀旧感。

本来以为这种高保真的3D交互，得靠一堆显卡堆起来才能实现，实际体验后才发现，单块H100就能扛住。

拖动Demo里的两个摇杆，视角能随便转，光滑地面的倒影会跟着视角移动，阳光照在物体上的阴影也会实时调整，透过玻璃看对面的场景也不违和。

小时候玩GameBoy，只能盯着小小的屏幕按方向键，画面都是像素风。

现在这个FRAMEBOYDemo，能在3D世界里自由探索，某种意义上也算圆了当年的“虚拟探险梦”。

而且它不用复杂的操作，点开链接就能玩，就算不是技术党也能快速上手。

RTFM的核心本事，就是把一张静态照片变成能逛的3D场景。

它不用传统的图形学编程，全靠海量视频数据自己学，慢慢就摸清了光影、空间的规律。

传统3D制作太麻烦了，建模、上材质、打光一步都不能少，没点专业知识根本搞不定。

RTFM把这些步骤都省了，一张图就能搞定，对普通创作者来说太友好了。

这体验背后，藏着RTFM的三个核心逻辑，正是这三点让它跳出了“堆算力”的怪圈。

咱们先聊聊最让人意外的效率问题，这也是它和其他模型最大的区别。

三大核心逻辑破局

OpenAI为了Sora2到处买显卡，说白了就是算力不够用。

生成高质量的交互视频，需要处理的数据量大得吓人，之前有研究说，每秒要处理的内容差不多相当于一本长篇小说的文字量。

要是想连续交互一小时，数据量更是天文数字，普通硬件根本扛不住。

RTFM偏偏反其道而行，李飞飞团队的目标就是“在今天的硬件上，跑明天的模型”。

他们把架构重新设计，还做了模型蒸馏和推理优化，硬生生让单块H100就能实时生成。

如此看来，行业里一直默认的“高性能=高算力”，其实并不是唯一答案，优化算法同样能实现突破。

传统3D引擎靠的是三角网格、体素这些复杂结构，每个物体都得单独处理。

RTFM不用这套，它学的是Sora的“自回归扩散Transformer”，直接从视频帧里学空间规律。

它不用知道“这是墙”“那是灯”，看的视频多了，自然就懂了“空间感”，能准确预测新视角的画面。

这种方式的好处很明显，数据和算力越多，它的表现就越好，不用反复调整底层结构。

反观传统3D制作，一旦场景复杂了，就得重新优化模型，费时又费力。

毫无疑问，RTFM的这条路，扩展性确实强多了。

最让人惊喜的是它的持久性，这解决了很多视频生成模型的“老毛病”。

大部分模型都是“短时记忆”，Sora能生成25秒的画面，但结束了就没了，没法持续交互。

要是想让模型记住所有场景，算力又会跟着暴涨，根本不现实。

RTFM搞了个“空间记忆”机制，给每帧画面都标上3D空间里的位置和方向。

生成新画面时，它只参考附近的帧，不是所有内容，这就省了很多算力。

就算你退出再进去，这个世界还能保持一致，不用重新加载。

不过有点可惜，现在Demo只能玩3分钟，时间一到还是会“失忆”，希望后续能优化这个问题。

RTFM不是花架子，已经有了实际应用的苗头。

独立游戏开发者不用再熬夜建模，一张图就能生成可交互的游戏场景；

建筑设计师和客户沟通时，直接点开3D世界让对方逛，比看二维图纸直观多了；虚拟旅游平台也能用它，一张风景照就能让用户“走进”目的地，提前感受景点风貌。

但它也有明显的短板，H100一块就要2万5千美元以上，普通团队和个人根本负担不起，这就限制了它的普及。

而且目前在极端天气场景下，比如暴雨、暴雪，它的光影模拟精度还不够，细节上还有提升空间。

另外3分钟的体验时长也太短了，根本玩不过瘾，要是能延长到半小时以上，体验会好很多。

李飞飞之前说过，空间智能才是AGI的下一个方向，RTFM算是朝着这个方向迈出了扎实的一步。

现在AI世界模型赛道，要么像Sora那样堆算力，要么像传统3D引擎那样拼建模，RTFM走出了第三条路，靠算法优化和数据学习实现突破。

之前我也觉得AI要生成全真世界，必须得等算力成本大幅下降才行。

但RTFM让我改变了这个想法，算法的潜力远比想象中大。

听说2026年GPU算力成本可能会降不少，到时候普通设备说不定也能跑起来RTFM这类技术。

到那时候，虚拟世界和现实的联系可能会更紧密。

咱们或许能对着一张家里的照片，生成可交互的3D家居场景，提前试试家具摆放效果；也能在虚拟世界里和朋友一起逛“数字景点”，不用出门就能体验旅行的乐趣。

毫无疑问，RTFM的发布给AI世界模型赛道带来了新的思路。

它证明了不用堆算力，也能做出高保真、可交互的3D世界。

虽然现在还有算力成本、体验时长这些问题，但随着技术不断优化，这些短板迟早会被补齐。

未来某一天，当我们能用普通电脑甚至手机，就能生成持续存在、自由交互的虚拟世界，那时候数字生活可能会变成另外一副模样。

RTFM这波操作，不仅是技术上的突破，更给行业指了一条实用的路，期待它后续能带来更多惊喜。

玩家必看攻略“微信小程序河北麻将自建房输赢规律”（万能开挂器)

iQOO 15 手机参数曝光，明日发布并开售

发表评论

单GPU生成3D世界，打破枷锁，李飞飞团队RTFM颠覆AI虚拟交互赛道

三大核心逻辑破局

玩家必看攻略“微信小程序河北麻将自建房输赢规律”（万能开挂器)

iQOO 15 手机参数曝光，明日发布并开售

热门文章

最新文章