首页 抖音热门文章正文

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

抖音热门 2025年09月25日 14:33 1 aa

2025年9月23日,有个叫LightVLA的技术火了,它专门解决VLA模型的难题,还第一次做到了性能和效率一起提升。

这技术是仨团队一起搞的,共同第一作者蒋体通是清华直博五年级学生,研究VLA、自动驾驶这些方向;另一位共同第一作者蒋雪枫,是中科院计算所的直博生,专做弱监督学习和大模型应用;通讯作者朗咸朋更熟,是理想汽车智能驾驶的副总裁。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

现在项目主页和论文链接都公开了,想深究的朋友能直接去看。

说实话,之前VLA模型在机器人身上用的时候,总有点“力不从心”。

比如家用机器人要帮着做点事,VLA模型计算起来特别费劲儿,反应还慢,根本没法大规模用。

本来大家想靠剪枝解决,就是删掉一些没用的视觉token,可老办法要么得依赖模型中间的注意力输出,要么剪完效率上去了,性能又掉下来,跟拆东墙补西墙似的。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

我之前还觉得,可能VLA模型就只能在这俩里面选一个,没想到LightVLA居然把这事儿给理顺了。

LightVLA核心是两个创新方向。

一个是无参数可微分token剪枝框架,简单说就是不让人提前定规矩,让模型自己根据任务选有用的视觉token。

它用了无参数查询初始化和Gumbelsoftmax技术,本来想可能会很复杂,后来发现原理挺直观,模型能顺着任务需求,挑出对完成事最有用的“关键信息”。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

另一个是LightVLA*,加了可学习查询,能作用在视觉编码器或者LLM浅层解码器上,靠额外参数引导模型选token,效果也不错。

这两种方式都绕开了传统剪枝的死胡同,我觉得最妙的是它们让模型“变聪明”了,不是机械删token,而是主动找重点。

从“一刀切”到“精准挑”:LightVLA的剪枝新思路

LightVLA的剪枝流程其实分三步,但没那么死板。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

第一步是生成Query,它不是随便造的,而是把视觉token和语言token的跨注意力融合起来,这样Query能同时懂“看什么”和“要做什么”。

比如让机器人“把咖啡壶放炉子上”,Query就知道得盯着咖啡壶和炉子,不是瞎找。

第二步是给token评分,算Query和视觉token的内积,分值高的就是重要的。

第三步是筛选,每个Query选一个最高分的token留下,其他的删掉。

这里有个关键问题,普通的选最高分操作没法反向传播,模型没法学。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

LightVLA用了Gumbelsoftmax技术,把这个操作变成可导的,还会给评分加一点点噪声。

本来担心噪声会捣乱,后来发现它还会慢慢降低噪声的影响,训练前期让模型多试试不同选法,后期再稳定下来,这个设计还挺细心的。

而且它不搞固定比例剪枝,比如有的任务需要100个token,有的只要50个,模型自己说了算,比传统的“一刀切”灵活多了。

聊完技术思路,咱再看实际效果。

LightVLA在LIBERO基准上的表现很亮眼,所有任务都拿了最好成绩,平均成功率很高。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

对比其他模型,比如OpenVLA-OFT,人家要处理512个视觉token,LightVLA平均只留78个,算下来FLOPs和延迟都降了不少,性能反而更好。

我觉得这最能说明问题,之前大家总觉得视觉token多就好,其实很多都是冗余的,LightVLA刚好把这些没用的“包袱”卸了。

实验说话:LightVLA到底有多能打?

为了证明不是偶然,团队还做了可视化和消融实验。

可视化里,“把咖啡壶放炉子上”的任务很清楚,每帧图里亮着的就是被选中的token,全集中在咖啡壶、炉子和机械臂上,背景一点没沾。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

这一看就知道模型没跑偏,确实在盯着关键东西。

消融实验更有意思。

比如试了不加噪声的情况,模型留的token最少,性能却没到最好,说明噪声能帮模型多探索,不然容易“钻牛角尖”;要是一直用固定噪声,模型留的token又太多,选关键信息的能力就弱了,只有慢慢降噪声,性能才会上去。

还有个实验,在LightVLA选好的token里再加点随机token,或者删掉一点,结果性能都降了。

这就证明,LightVLA选出来的全是“硬通货”,多一个没用的都不行,少一个关键的也不行。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

现在看,LightVLA不光是技术上有突破,对行业也挺有意义。

理想汽车已经打算把它用在下一代智能驾驶系统里,据说能让车载芯片的能耗降不少,反应还更快。

家用机器人领域也有企业想合作,目标是把延迟控制在0.2秒以内,到时候机器人响应指令会更及时,用着更顺手。

老实讲,之前觉得VLA模型要落地还得等好久,毕竟又要性能又要效率太难了。

LightVLA出来后,我觉得这条路清楚多了。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

它不是靠堆参数、堆算力,而是靠更聪明的方法解决问题,这可能才是VLA模型轻量化的正确方向。

未来要是能适配更高清的视觉输入,再融合点触觉之类的信息,说不定能让机器人在更多场景里发挥作用,比如工业操作、家庭服务这些,真正从实验室走进日常生活。

LightVLA最牛的不是拿了多少好成绩,而是它打破了“性能和效率只能选一个”的固有认知,给VLA模型的发展提供了新思路。

清华+中科院+理想汽车联合研发!LightVLA重塑VLA技术格局

以后再聊起VLA轻量化,大家可能不会先想到“怎么删token”,而是会想“怎么让模型更聪明地选token”。

这大概就是这个技术最有价值的地方吧。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap