今天给各位分享海豚大厅拼三张透视视频的知识,其中也会对海豚拼三张透视挂进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!海豚音怎么...
2025-09-25 2
2025年9月23日,有个叫LightVLA的技术火了,它专门解决VLA模型的难题,还第一次做到了性能和效率一起提升。
这技术是仨团队一起搞的,共同第一作者蒋体通是清华直博五年级学生,研究VLA、自动驾驶这些方向;另一位共同第一作者蒋雪枫,是中科院计算所的直博生,专做弱监督学习和大模型应用;通讯作者朗咸朋更熟,是理想汽车智能驾驶的副总裁。
现在项目主页和论文链接都公开了,想深究的朋友能直接去看。
说实话,之前VLA模型在机器人身上用的时候,总有点“力不从心”。
比如家用机器人要帮着做点事,VLA模型计算起来特别费劲儿,反应还慢,根本没法大规模用。
本来大家想靠剪枝解决,就是删掉一些没用的视觉token,可老办法要么得依赖模型中间的注意力输出,要么剪完效率上去了,性能又掉下来,跟拆东墙补西墙似的。
我之前还觉得,可能VLA模型就只能在这俩里面选一个,没想到LightVLA居然把这事儿给理顺了。
LightVLA核心是两个创新方向。
一个是无参数可微分token剪枝框架,简单说就是不让人提前定规矩,让模型自己根据任务选有用的视觉token。
它用了无参数查询初始化和Gumbelsoftmax技术,本来想可能会很复杂,后来发现原理挺直观,模型能顺着任务需求,挑出对完成事最有用的“关键信息”。
另一个是LightVLA*,加了可学习查询,能作用在视觉编码器或者LLM浅层解码器上,靠额外参数引导模型选token,效果也不错。
这两种方式都绕开了传统剪枝的死胡同,我觉得最妙的是它们让模型“变聪明”了,不是机械删token,而是主动找重点。
LightVLA的剪枝流程其实分三步,但没那么死板。
第一步是生成Query,它不是随便造的,而是把视觉token和语言token的跨注意力融合起来,这样Query能同时懂“看什么”和“要做什么”。
比如让机器人“把咖啡壶放炉子上”,Query就知道得盯着咖啡壶和炉子,不是瞎找。
第二步是给token评分,算Query和视觉token的内积,分值高的就是重要的。
第三步是筛选,每个Query选一个最高分的token留下,其他的删掉。
这里有个关键问题,普通的选最高分操作没法反向传播,模型没法学。
LightVLA用了Gumbelsoftmax技术,把这个操作变成可导的,还会给评分加一点点噪声。
本来担心噪声会捣乱,后来发现它还会慢慢降低噪声的影响,训练前期让模型多试试不同选法,后期再稳定下来,这个设计还挺细心的。
而且它不搞固定比例剪枝,比如有的任务需要100个token,有的只要50个,模型自己说了算,比传统的“一刀切”灵活多了。
聊完技术思路,咱再看实际效果。
LightVLA在LIBERO基准上的表现很亮眼,所有任务都拿了最好成绩,平均成功率很高。
对比其他模型,比如OpenVLA-OFT,人家要处理512个视觉token,LightVLA平均只留78个,算下来FLOPs和延迟都降了不少,性能反而更好。
我觉得这最能说明问题,之前大家总觉得视觉token多就好,其实很多都是冗余的,LightVLA刚好把这些没用的“包袱”卸了。
为了证明不是偶然,团队还做了可视化和消融实验。
可视化里,“把咖啡壶放炉子上”的任务很清楚,每帧图里亮着的就是被选中的token,全集中在咖啡壶、炉子和机械臂上,背景一点没沾。
这一看就知道模型没跑偏,确实在盯着关键东西。
消融实验更有意思。
比如试了不加噪声的情况,模型留的token最少,性能却没到最好,说明噪声能帮模型多探索,不然容易“钻牛角尖”;要是一直用固定噪声,模型留的token又太多,选关键信息的能力就弱了,只有慢慢降噪声,性能才会上去。
还有个实验,在LightVLA选好的token里再加点随机token,或者删掉一点,结果性能都降了。
这就证明,LightVLA选出来的全是“硬通货”,多一个没用的都不行,少一个关键的也不行。
现在看,LightVLA不光是技术上有突破,对行业也挺有意义。
理想汽车已经打算把它用在下一代智能驾驶系统里,据说能让车载芯片的能耗降不少,反应还更快。
家用机器人领域也有企业想合作,目标是把延迟控制在0.2秒以内,到时候机器人响应指令会更及时,用着更顺手。
老实讲,之前觉得VLA模型要落地还得等好久,毕竟又要性能又要效率太难了。
LightVLA出来后,我觉得这条路清楚多了。
它不是靠堆参数、堆算力,而是靠更聪明的方法解决问题,这可能才是VLA模型轻量化的正确方向。
未来要是能适配更高清的视觉输入,再融合点触觉之类的信息,说不定能让机器人在更多场景里发挥作用,比如工业操作、家庭服务这些,真正从实验室走进日常生活。
LightVLA最牛的不是拿了多少好成绩,而是它打破了“性能和效率只能选一个”的固有认知,给VLA模型的发展提供了新思路。
以后再聊起VLA轻量化,大家可能不会先想到“怎么删token”,而是会想“怎么让模型更聪明地选token”。
这大概就是这个技术最有价值的地方吧。
相关文章
今天给各位分享海豚大厅拼三张透视视频的知识,其中也会对海豚拼三张透视挂进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!海豚音怎么...
2025-09-25 2
IT之家 9 月 25 日消息,雷神 THUNDEROBOT 本月 23 日宣布,其 2025 款猎刃 S 游戏笔记本电脑新增英特尔酷睿 Ultra...
2025-09-25 2
2025年9月23日,有个叫LightVLA的技术火了,它专门解决VLA模型的难题,还第一次做到了性能和效率一起提升。这技术是仨团队一起搞的,共同第一...
2025-09-25 1
9月24日,在杭州举办的云栖大会上,趣丸科技正式对外发布自主研发的首款生成式AI吉他——TemPolor Melo-D智能吉他。这是目前首款将生成式A...
2025-09-25 2
小程序麻将有什么规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“必赢...
2025-09-25 13
微乐麻将铺牌器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“必赢”...
2025-09-25 13
财神十三张确实是有挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“必赢...
2025-09-25 10
第十二届丝绸之路国际电影节刚在福州结束,台上台下都是两岸的电影人,没人知道,撑起全场网络的,是超高压环境下搭起来的通信系统,开幕那天,上千号人挤在场馆...
2025-09-25 2
发表评论