首页 今日新闻文章正文

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

今日新闻 2025年10月19日 17:52 0 aa
单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

李飞飞团队刚搞出个大动静,单块GPU就能实时生成可随便逛的3D世界,这就是WorldLabs新发布的RTFM技术。

OpenAI还在到处囤显卡撑Sora2,Google的Genie3藏着掖着不公开,RTFM直接用一张H100就实现了实时交互,这波操作确实让人眼前一亮。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

之前九月推出的Marble技术,虽然能从一张照片生成3D世界,但总觉得少了点“参与感”,就像看一场不能互动的展览。

RTFM完全不一样,它不仅能生成3D场景,还能让你拖着摇杆随便逛,光影、反射这些细节都跟着实时变化。

更有意思的是它的Demo叫FRAMEBOY,网页布局一看就想起小时候玩的GameBoy,瞬间勾起满满怀旧感。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

本来以为这种高保真的3D交互,得靠一堆显卡堆起来才能实现,实际体验后才发现,单块H100就能扛住。

拖动Demo里的两个摇杆,视角能随便转,光滑地面的倒影会跟着视角移动,阳光照在物体上的阴影也会实时调整,透过玻璃看对面的场景也不违和。

小时候玩GameBoy,只能盯着小小的屏幕按方向键,画面都是像素风。

现在这个FRAMEBOYDemo,能在3D世界里自由探索,某种意义上也算圆了当年的“虚拟探险梦”。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

而且它不用复杂的操作,点开链接就能玩,就算不是技术党也能快速上手。

RTFM的核心本事,就是把一张静态照片变成能逛的3D场景。

它不用传统的图形学编程,全靠海量视频数据自己学,慢慢就摸清了光影、空间的规律。

传统3D制作太麻烦了,建模、上材质、打光一步都不能少,没点专业知识根本搞不定。

RTFM把这些步骤都省了,一张图就能搞定,对普通创作者来说太友好了。

这体验背后,藏着RTFM的三个核心逻辑,正是这三点让它跳出了“堆算力”的怪圈。

咱们先聊聊最让人意外的效率问题,这也是它和其他模型最大的区别。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

三大核心逻辑破局

OpenAI为了Sora2到处买显卡,说白了就是算力不够用。

生成高质量的交互视频,需要处理的数据量大得吓人,之前有研究说,每秒要处理的内容差不多相当于一本长篇小说的文字量。

要是想连续交互一小时,数据量更是天文数字,普通硬件根本扛不住。

RTFM偏偏反其道而行,李飞飞团队的目标就是“在今天的硬件上,跑明天的模型”。

他们把架构重新设计,还做了模型蒸馏和推理优化,硬生生让单块H100就能实时生成。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

如此看来,行业里一直默认的“高性能=高算力”,其实并不是唯一答案,优化算法同样能实现突破。

传统3D引擎靠的是三角网格、体素这些复杂结构,每个物体都得单独处理。

RTFM不用这套,它学的是Sora的“自回归扩散Transformer”,直接从视频帧里学空间规律。

它不用知道“这是墙”“那是灯”,看的视频多了,自然就懂了“空间感”,能准确预测新视角的画面。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

这种方式的好处很明显,数据和算力越多,它的表现就越好,不用反复调整底层结构。

反观传统3D制作,一旦场景复杂了,就得重新优化模型,费时又费力。

毫无疑问,RTFM的这条路,扩展性确实强多了。

最让人惊喜的是它的持久性,这解决了很多视频生成模型的“老毛病”。

大部分模型都是“短时记忆”,Sora能生成25秒的画面,但结束了就没了,没法持续交互。

要是想让模型记住所有场景,算力又会跟着暴涨,根本不现实。

RTFM搞了个“空间记忆”机制,给每帧画面都标上3D空间里的位置和方向。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

生成新画面时,它只参考附近的帧,不是所有内容,这就省了很多算力。

就算你退出再进去,这个世界还能保持一致,不用重新加载。

不过有点可惜,现在Demo只能玩3分钟,时间一到还是会“失忆”,希望后续能优化这个问题。

RTFM不是花架子,已经有了实际应用的苗头。

独立游戏开发者不用再熬夜建模,一张图就能生成可交互的游戏场景;

建筑设计师和客户沟通时,直接点开3D世界让对方逛,比看二维图纸直观多了;虚拟旅游平台也能用它,一张风景照就能让用户“走进”目的地,提前感受景点风貌。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

但它也有明显的短板,H100一块就要2万5千美元以上,普通团队和个人根本负担不起,这就限制了它的普及。

而且目前在极端天气场景下,比如暴雨、暴雪,它的光影模拟精度还不够,细节上还有提升空间。

另外3分钟的体验时长也太短了,根本玩不过瘾,要是能延长到半小时以上,体验会好很多。

李飞飞之前说过,空间智能才是AGI的下一个方向,RTFM算是朝着这个方向迈出了扎实的一步。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

现在AI世界模型赛道,要么像Sora那样堆算力,要么像传统3D引擎那样拼建模,RTFM走出了第三条路,靠算法优化和数据学习实现突破。

之前我也觉得AI要生成全真世界,必须得等算力成本大幅下降才行。

但RTFM让我改变了这个想法,算法的潜力远比想象中大。

听说2026年GPU算力成本可能会降不少,到时候普通设备说不定也能跑起来RTFM这类技术。

到那时候,虚拟世界和现实的联系可能会更紧密。

咱们或许能对着一张家里的照片,生成可交互的3D家居场景,提前试试家具摆放效果;也能在虚拟世界里和朋友一起逛“数字景点”,不用出门就能体验旅行的乐趣。

单GPU生成3D世界,打破枷锁,李飞飞团队RTFM颠覆AI虚拟交互赛道

毫无疑问,RTFM的发布给AI世界模型赛道带来了新的思路。

它证明了不用堆算力,也能做出高保真、可交互的3D世界。

虽然现在还有算力成本、体验时长这些问题,但随着技术不断优化,这些短板迟早会被补齐。

未来某一天,当我们能用普通电脑甚至手机,就能生成持续存在、自由交互的虚拟世界,那时候数字生活可能会变成另外一副模样。

RTFM这波操作,不仅是技术上的突破,更给行业指了一条实用的路,期待它后续能带来更多惊喜。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap