OPPO最近搞出了个大动作,推出了一款叫AndesVL的端侧多模态大模型,还直接开源了。现在的AI手机看着花哨,但很多功能其实离不开云端支持,要么反应...
2025-10-19 0
李飞飞团队刚搞出个大动静,单块GPU就能实时生成可随便逛的3D世界,这就是WorldLabs新发布的RTFM技术。
OpenAI还在到处囤显卡撑Sora2,Google的Genie3藏着掖着不公开,RTFM直接用一张H100就实现了实时交互,这波操作确实让人眼前一亮。
之前九月推出的Marble技术,虽然能从一张照片生成3D世界,但总觉得少了点“参与感”,就像看一场不能互动的展览。
RTFM完全不一样,它不仅能生成3D场景,还能让你拖着摇杆随便逛,光影、反射这些细节都跟着实时变化。
更有意思的是它的Demo叫FRAMEBOY,网页布局一看就想起小时候玩的GameBoy,瞬间勾起满满怀旧感。
本来以为这种高保真的3D交互,得靠一堆显卡堆起来才能实现,实际体验后才发现,单块H100就能扛住。
拖动Demo里的两个摇杆,视角能随便转,光滑地面的倒影会跟着视角移动,阳光照在物体上的阴影也会实时调整,透过玻璃看对面的场景也不违和。
小时候玩GameBoy,只能盯着小小的屏幕按方向键,画面都是像素风。
现在这个FRAMEBOYDemo,能在3D世界里自由探索,某种意义上也算圆了当年的“虚拟探险梦”。
而且它不用复杂的操作,点开链接就能玩,就算不是技术党也能快速上手。
RTFM的核心本事,就是把一张静态照片变成能逛的3D场景。
它不用传统的图形学编程,全靠海量视频数据自己学,慢慢就摸清了光影、空间的规律。
传统3D制作太麻烦了,建模、上材质、打光一步都不能少,没点专业知识根本搞不定。
RTFM把这些步骤都省了,一张图就能搞定,对普通创作者来说太友好了。
这体验背后,藏着RTFM的三个核心逻辑,正是这三点让它跳出了“堆算力”的怪圈。
咱们先聊聊最让人意外的效率问题,这也是它和其他模型最大的区别。
OpenAI为了Sora2到处买显卡,说白了就是算力不够用。
生成高质量的交互视频,需要处理的数据量大得吓人,之前有研究说,每秒要处理的内容差不多相当于一本长篇小说的文字量。
要是想连续交互一小时,数据量更是天文数字,普通硬件根本扛不住。
RTFM偏偏反其道而行,李飞飞团队的目标就是“在今天的硬件上,跑明天的模型”。
他们把架构重新设计,还做了模型蒸馏和推理优化,硬生生让单块H100就能实时生成。
如此看来,行业里一直默认的“高性能=高算力”,其实并不是唯一答案,优化算法同样能实现突破。
传统3D引擎靠的是三角网格、体素这些复杂结构,每个物体都得单独处理。
RTFM不用这套,它学的是Sora的“自回归扩散Transformer”,直接从视频帧里学空间规律。
它不用知道“这是墙”“那是灯”,看的视频多了,自然就懂了“空间感”,能准确预测新视角的画面。
这种方式的好处很明显,数据和算力越多,它的表现就越好,不用反复调整底层结构。
反观传统3D制作,一旦场景复杂了,就得重新优化模型,费时又费力。
毫无疑问,RTFM的这条路,扩展性确实强多了。
最让人惊喜的是它的持久性,这解决了很多视频生成模型的“老毛病”。
大部分模型都是“短时记忆”,Sora能生成25秒的画面,但结束了就没了,没法持续交互。
要是想让模型记住所有场景,算力又会跟着暴涨,根本不现实。
RTFM搞了个“空间记忆”机制,给每帧画面都标上3D空间里的位置和方向。
生成新画面时,它只参考附近的帧,不是所有内容,这就省了很多算力。
就算你退出再进去,这个世界还能保持一致,不用重新加载。
不过有点可惜,现在Demo只能玩3分钟,时间一到还是会“失忆”,希望后续能优化这个问题。
RTFM不是花架子,已经有了实际应用的苗头。
独立游戏开发者不用再熬夜建模,一张图就能生成可交互的游戏场景;
建筑设计师和客户沟通时,直接点开3D世界让对方逛,比看二维图纸直观多了;虚拟旅游平台也能用它,一张风景照就能让用户“走进”目的地,提前感受景点风貌。
但它也有明显的短板,H100一块就要2万5千美元以上,普通团队和个人根本负担不起,这就限制了它的普及。
而且目前在极端天气场景下,比如暴雨、暴雪,它的光影模拟精度还不够,细节上还有提升空间。
另外3分钟的体验时长也太短了,根本玩不过瘾,要是能延长到半小时以上,体验会好很多。
李飞飞之前说过,空间智能才是AGI的下一个方向,RTFM算是朝着这个方向迈出了扎实的一步。
现在AI世界模型赛道,要么像Sora那样堆算力,要么像传统3D引擎那样拼建模,RTFM走出了第三条路,靠算法优化和数据学习实现突破。
之前我也觉得AI要生成全真世界,必须得等算力成本大幅下降才行。
但RTFM让我改变了这个想法,算法的潜力远比想象中大。
听说2026年GPU算力成本可能会降不少,到时候普通设备说不定也能跑起来RTFM这类技术。
到那时候,虚拟世界和现实的联系可能会更紧密。
咱们或许能对着一张家里的照片,生成可交互的3D家居场景,提前试试家具摆放效果;也能在虚拟世界里和朋友一起逛“数字景点”,不用出门就能体验旅行的乐趣。
毫无疑问,RTFM的发布给AI世界模型赛道带来了新的思路。
它证明了不用堆算力,也能做出高保真、可交互的3D世界。
虽然现在还有算力成本、体验时长这些问题,但随着技术不断优化,这些短板迟早会被补齐。
未来某一天,当我们能用普通电脑甚至手机,就能生成持续存在、自由交互的虚拟世界,那时候数字生活可能会变成另外一副模样。
RTFM这波操作,不仅是技术上的突破,更给行业指了一条实用的路,期待它后续能带来更多惊喜。
相关文章
OPPO最近搞出了个大动作,推出了一款叫AndesVL的端侧多模态大模型,还直接开源了。现在的AI手机看着花哨,但很多功能其实离不开云端支持,要么反应...
2025-10-19 0
前几天刷那些不那么硬核的论文时,偶然翻到篇宾夕法尼亚州立大学的研究。篇幅特别短,就5页,标题叫《MindYourTone:InvestigatingH...
2025-10-19 0
李飞飞团队刚搞出个大动静,单块GPU就能实时生成可随便逛的3D世界,这就是WorldLabs新发布的RTFM技术。OpenAI还在到处囤显卡撑Sora...
2025-10-19 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-19 0
不知道差友们对 OPPO 的平板还有多少印象?自从绿厂决定下场做平板以来,它们的平板产品在市面上就一直有点不温不火的。一方面因为自己没有像小米那样高的...
2025-10-19 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自...
2025-10-19 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-10-19 0
在民用建筑领域,电源及用房设计是保障建筑电气系统稳定、安全运行的关键环节。下面从用电负荷分级、电源配置以及电气装置用房布置等方面,为大家详细解读相关知...
2025-10-19 0
发表评论