清华+中科院+理想汽车联合研发！LightVLA重塑VLA技术格局

抖音热门 2025年09月25日 14:33 1 aa

2025年9月23日，有个叫LightVLA的技术火了，它专门解决VLA模型的难题，还第一次做到了性能和效率一起提升。

这技术是仨团队一起搞的，共同第一作者蒋体通是清华直博五年级学生，研究VLA、自动驾驶这些方向；另一位共同第一作者蒋雪枫，是中科院计算所的直博生，专做弱监督学习和大模型应用；通讯作者朗咸朋更熟，是理想汽车智能驾驶的副总裁。

现在项目主页和论文链接都公开了，想深究的朋友能直接去看。

说实话，之前VLA模型在机器人身上用的时候，总有点“力不从心”。

比如家用机器人要帮着做点事，VLA模型计算起来特别费劲儿，反应还慢，根本没法大规模用。

本来大家想靠剪枝解决，就是删掉一些没用的视觉token，可老办法要么得依赖模型中间的注意力输出，要么剪完效率上去了，性能又掉下来，跟拆东墙补西墙似的。

我之前还觉得，可能VLA模型就只能在这俩里面选一个，没想到LightVLA居然把这事儿给理顺了。

LightVLA核心是两个创新方向。

一个是无参数可微分token剪枝框架，简单说就是不让人提前定规矩，让模型自己根据任务选有用的视觉token。

它用了无参数查询初始化和Gumbelsoftmax技术，本来想可能会很复杂，后来发现原理挺直观，模型能顺着任务需求，挑出对完成事最有用的“关键信息”。

另一个是LightVLA*，加了可学习查询，能作用在视觉编码器或者LLM浅层解码器上，靠额外参数引导模型选token，效果也不错。

这两种方式都绕开了传统剪枝的死胡同，我觉得最妙的是它们让模型“变聪明”了，不是机械删token，而是主动找重点。

从“一刀切”到“精准挑”：LightVLA的剪枝新思路

LightVLA的剪枝流程其实分三步，但没那么死板。

第一步是生成Query，它不是随便造的，而是把视觉token和语言token的跨注意力融合起来，这样Query能同时懂“看什么”和“要做什么”。

比如让机器人“把咖啡壶放炉子上”，Query就知道得盯着咖啡壶和炉子，不是瞎找。

第二步是给token评分，算Query和视觉token的内积，分值高的就是重要的。

第三步是筛选，每个Query选一个最高分的token留下，其他的删掉。

这里有个关键问题，普通的选最高分操作没法反向传播，模型没法学。

LightVLA用了Gumbelsoftmax技术，把这个操作变成可导的，还会给评分加一点点噪声。

本来担心噪声会捣乱，后来发现它还会慢慢降低噪声的影响，训练前期让模型多试试不同选法，后期再稳定下来，这个设计还挺细心的。

而且它不搞固定比例剪枝，比如有的任务需要100个token，有的只要50个，模型自己说了算，比传统的“一刀切”灵活多了。

聊完技术思路，咱再看实际效果。

LightVLA在LIBERO基准上的表现很亮眼，所有任务都拿了最好成绩，平均成功率很高。

对比其他模型，比如OpenVLA-OFT，人家要处理512个视觉token，LightVLA平均只留78个，算下来FLOPs和延迟都降了不少，性能反而更好。

我觉得这最能说明问题，之前大家总觉得视觉token多就好，其实很多都是冗余的，LightVLA刚好把这些没用的“包袱”卸了。

实验说话：LightVLA到底有多能打？

为了证明不是偶然，团队还做了可视化和消融实验。

可视化里，“把咖啡壶放炉子上”的任务很清楚，每帧图里亮着的就是被选中的token，全集中在咖啡壶、炉子和机械臂上，背景一点没沾。

这一看就知道模型没跑偏，确实在盯着关键东西。

消融实验更有意思。

比如试了不加噪声的情况，模型留的token最少，性能却没到最好，说明噪声能帮模型多探索，不然容易“钻牛角尖”；要是一直用固定噪声，模型留的token又太多，选关键信息的能力就弱了，只有慢慢降噪声，性能才会上去。

还有个实验，在LightVLA选好的token里再加点随机token，或者删掉一点，结果性能都降了。

这就证明，LightVLA选出来的全是“硬通货”，多一个没用的都不行，少一个关键的也不行。

现在看，LightVLA不光是技术上有突破，对行业也挺有意义。

理想汽车已经打算把它用在下一代智能驾驶系统里，据说能让车载芯片的能耗降不少，反应还更快。

家用机器人领域也有企业想合作，目标是把延迟控制在0.2秒以内，到时候机器人响应指令会更及时，用着更顺手。

老实讲，之前觉得VLA模型要落地还得等好久，毕竟又要性能又要效率太难了。

LightVLA出来后，我觉得这条路清楚多了。

它不是靠堆参数、堆算力，而是靠更聪明的方法解决问题，这可能才是VLA模型轻量化的正确方向。

未来要是能适配更高清的视觉输入，再融合点触觉之类的信息，说不定能让机器人在更多场景里发挥作用，比如工业操作、家庭服务这些，真正从实验室走进日常生活。

LightVLA最牛的不是拿了多少好成绩，而是它打破了“性能和效率只能选一个”的固有认知，给VLA模型的发展提供了新思路。

以后再聊起VLA轻量化，大家可能不会先想到“怎么删token”，而是会想“怎么让模型更聪明地选token”。

这大概就是这个技术最有价值的地方吧。

玩家必看攻略“手机打麻将专用神器（专用辅牌神器免安装）

实测分享“手机拼三张怎样能赢”（详细开挂教程）-哔哩哔哩

发表评论

清华+中科院+理想汽车联合研发！LightVLA重塑VLA技术格局

从“一刀切”到“精准挑”：LightVLA的剪枝新思路

实验说话：LightVLA到底有多能打？

玩家必看攻略“手机打麻将专用神器（专用辅牌神器免安装）

实测分享“手机拼三张怎样能赢”（详细开挂教程）-哔哩哔哩

热门文章

最新文章