首页 今日快讯文章正文

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

今日快讯 2025年10月01日 01:06 1 aa

2025年9月,华为诺亚方舟实验室搞出个大事,他们的新算法ViSpec入选了NeurIPS2025。

最牛的是这算法能让多模态大模型(就是既能看图又能说话的模型)处理速度最高快3.2倍,还一点不影响生成质量,这在之前的多模态领域可是想都不敢想的突破。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

为啥多模态模型“跑不快”?投机推理到这就“失灵”了

之前在纯文本大模型里,“投机推理”这招挺好用的。

简单说就是找个“小军师”(草稿模型)先快速打草稿,预测接下来可能出现的文字,再让“主公”(目标大模型)一次性审核这些草稿。

不用“主公”逐字琢磨,速度一下就提上来了,在ChatGPT这类纯文本对话模型里早就成了标配,可这招一放到多模态模型上就不行了。

多模态模型得一边看图一边说话,一张图会被转换成成百上千个“图像小片段”,里面好多没用的冗余信息。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

负责审核的“主公”(比如常用的LLaVA-1.6、Qwen2.5-VL)本事大,能过滤掉这些没用的信息,可“小军师”(草稿模型)算力不够,面对这么多图像小片段根本抓不住重点,老预测错。

结果就是“主公”得反复否决“军师”的草稿,反而快不起来,之前行业里的方法最多也就让速度快1.5倍,几乎没啥实际用处。

NeurIPS2025这次特别关注“高效AI”,就是要在性能和成本之间找平衡。

多模态模型又是现在AI的核心方向,它跑不快,像手机实时图文助手、车载视觉交互这些场景就没法落地,所以华为诺亚这个能让速度快3倍还不丢质量的ViSpec,才成了大会的焦点。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

ViSpec的三个“小妙招”:给“草稿军师”开“外挂”

那华为诺亚是怎么让“小军师”变厉害的?ViSpec里藏了三个“小妙招”,每一个都正好戳中了之前的痛点。

第一个是给“军师”配了个“浓缩镜”,轻量级视觉适配器。

本来想让“军师”直接处理图像小片段,后来发现根本扛不住,无奈之下团队就借鉴了之前Q-Former的思路,搞了个能压缩图像信息的工具。

它能把成百上千个图像小片段,压缩成就1个带核心信息的“图像精华”,再交给“军师”。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

这样“军师”不用面对一堆没用的信息,既能抓住图里的重点,计算负担也轻了不少,预测正确率一下就上去了。

第二个是防止“军师”忘事的“提醒器”,全局视觉特征注入。

有时候要让模型写长篇图文回复,写着写着“军师”就忘了图里啥样了,生成的内容跟图对不上。

ViSpec就想到在每一步生成文字时,都从图里提取一个全局特征,像个导航员似的不断提醒“军师”图的内容。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

之前“军师”写长文容易跑偏的问题,这下基本解决了,第三个是自己造“练习题”,合成长回复数据集。

本来想找现成的多模态长回复数据集来训练“军师”,结果发现这领域根本没多少现成材料。

团队就改了个思路,把现有数据集的指令改一改,比如把“描述图片”改成“详细描述图片,至少1000字”,让目标模型自己生成大量长回复,低成本搞出了训练用的“练习题”。

而且他们还专门设计了训练方法,防止“军师”走捷径作弊,保证了在真实场景里能用。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

实测能打还实用,以后手机车载用VLM不卡了

ViSpec到底好不好用,得看实测结果,团队拿了好几个主流的多模态模型做测试。

像LLaVA-1.6的7B和13B版本、Qwen2.5-VL的3B和7B版本,在GQA测试集上一跑,结果挺让人惊喜,速度最快的Qwen2.5-VL7B快了3.22倍,平均下来也快了两倍多。

更关键的是,速度快了,质量没降,不管是看图说话的准确性,还是回答图文问题的逻辑性,都跟原来的模型一模一样。

对比之前那些给纯文本模型设计的加速方法,比如Medusa、EAGLE-2,它们在多模态模型上最多快1.4倍,ViSpec的优势一下子就显出来了。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

我觉得这技术最有价值的地方,是能让多模态模型在手机、汽车这些边缘设备上好好用。

之前多模态模型跑起来又慢又费电,手机上用个图文翻译都得等好几秒,车载视觉交互也总卡顿。

有了ViSpec,这些设备上的多模态模型反应能快不少,以后用手机聊图文、用车载系统识别路况后快速回应,体验肯定会好很多。

ViSpec入选NeurIPS2025不是偶然,它不光解决了多模态模型“快与好不可兼得”的老问题,还让中国企业在AI高效推理领域走在了前面。

华为诺亚ViSpec登NeurIPS2025!VLM推理加速3.2倍还无损质量

随着这技术慢慢普及,多模态模型肯定能从实验室走进更多日常生活场景,咱们以后跟AI的图文交互,也会越来越顺畅。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap