福州移动两个5G安全项目荣获全国一等奖。 近日,在第八届“绽放杯”5G应用征集大赛5G应用安全专题赛总决赛中,福州移动《5G-A与AI融合赋能的智慧...
2025-10-01 1
2025年9月,华为诺亚方舟实验室搞出个大事,他们的新算法ViSpec入选了NeurIPS2025。
最牛的是这算法能让多模态大模型(就是既能看图又能说话的模型)处理速度最高快3.2倍,还一点不影响生成质量,这在之前的多模态领域可是想都不敢想的突破。
之前在纯文本大模型里,“投机推理”这招挺好用的。
简单说就是找个“小军师”(草稿模型)先快速打草稿,预测接下来可能出现的文字,再让“主公”(目标大模型)一次性审核这些草稿。
不用“主公”逐字琢磨,速度一下就提上来了,在ChatGPT这类纯文本对话模型里早就成了标配,可这招一放到多模态模型上就不行了。
多模态模型得一边看图一边说话,一张图会被转换成成百上千个“图像小片段”,里面好多没用的冗余信息。
负责审核的“主公”(比如常用的LLaVA-1.6、Qwen2.5-VL)本事大,能过滤掉这些没用的信息,可“小军师”(草稿模型)算力不够,面对这么多图像小片段根本抓不住重点,老预测错。
结果就是“主公”得反复否决“军师”的草稿,反而快不起来,之前行业里的方法最多也就让速度快1.5倍,几乎没啥实际用处。
而NeurIPS2025这次特别关注“高效AI”,就是要在性能和成本之间找平衡。
多模态模型又是现在AI的核心方向,它跑不快,像手机实时图文助手、车载视觉交互这些场景就没法落地,所以华为诺亚这个能让速度快3倍还不丢质量的ViSpec,才成了大会的焦点。
那华为诺亚是怎么让“小军师”变厉害的?ViSpec里藏了三个“小妙招”,每一个都正好戳中了之前的痛点。
第一个是给“军师”配了个“浓缩镜”,轻量级视觉适配器。
本来想让“军师”直接处理图像小片段,后来发现根本扛不住,无奈之下团队就借鉴了之前Q-Former的思路,搞了个能压缩图像信息的工具。
它能把成百上千个图像小片段,压缩成就1个带核心信息的“图像精华”,再交给“军师”。
这样“军师”不用面对一堆没用的信息,既能抓住图里的重点,计算负担也轻了不少,预测正确率一下就上去了。
第二个是防止“军师”忘事的“提醒器”,全局视觉特征注入。
有时候要让模型写长篇图文回复,写着写着“军师”就忘了图里啥样了,生成的内容跟图对不上。
ViSpec就想到在每一步生成文字时,都从图里提取一个全局特征,像个导航员似的不断提醒“军师”图的内容。
之前“军师”写长文容易跑偏的问题,这下基本解决了,第三个是自己造“练习题”,合成长回复数据集。
本来想找现成的多模态长回复数据集来训练“军师”,结果发现这领域根本没多少现成材料。
团队就改了个思路,把现有数据集的指令改一改,比如把“描述图片”改成“详细描述图片,至少1000字”,让目标模型自己生成大量长回复,低成本搞出了训练用的“练习题”。
而且他们还专门设计了训练方法,防止“军师”走捷径作弊,保证了在真实场景里能用。
ViSpec到底好不好用,得看实测结果,团队拿了好几个主流的多模态模型做测试。
像LLaVA-1.6的7B和13B版本、Qwen2.5-VL的3B和7B版本,在GQA测试集上一跑,结果挺让人惊喜,速度最快的Qwen2.5-VL7B快了3.22倍,平均下来也快了两倍多。
更关键的是,速度快了,质量没降,不管是看图说话的准确性,还是回答图文问题的逻辑性,都跟原来的模型一模一样。
对比之前那些给纯文本模型设计的加速方法,比如Medusa、EAGLE-2,它们在多模态模型上最多快1.4倍,ViSpec的优势一下子就显出来了。
我觉得这技术最有价值的地方,是能让多模态模型在手机、汽车这些边缘设备上好好用。
之前多模态模型跑起来又慢又费电,手机上用个图文翻译都得等好几秒,车载视觉交互也总卡顿。
有了ViSpec,这些设备上的多模态模型反应能快不少,以后用手机聊图文、用车载系统识别路况后快速回应,体验肯定会好很多。
ViSpec入选NeurIPS2025不是偶然,它不光解决了多模态模型“快与好不可兼得”的老问题,还让中国企业在AI高效推理领域走在了前面。
随着这技术慢慢普及,多模态模型肯定能从实验室走进更多日常生活场景,咱们以后跟AI的图文交互,也会越来越顺畅。
相关文章
福州移动两个5G安全项目荣获全国一等奖。 近日,在第八届“绽放杯”5G应用征集大赛5G应用安全专题赛总决赛中,福州移动《5G-A与AI融合赋能的智慧...
2025-10-01 1
2025年9月,华为诺亚方舟实验室搞出个大事,他们的新算法ViSpec入选了NeurIPS2025。最牛的是这算法能让多模态大模型(就是既能看图又能说...
2025-10-01 1
2025年9月25日举行的新品发布会上,多款小米智能生态产品同台亮相,为“人车家全生态”中的“家”带来更加丰富的选择。小米电视 S Pro Mini...
2025-10-01 1
本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:花儿6699今天给大家介绍一款 2015 年发售的 “外挂 + 手持” 拍照录像神器 ——...
2025-10-01 1
来源:【人民网】在全面推进美丽中国建设、落实“双碳”目标、推动发展方式绿色转型的背景下,水务环保行业迎来发展机遇。日前,中国铁工投资建设集团有限公司、...
2025-10-01 1
【CNMO科技消息】近日,外媒报道称,苹果Vision Pro 2即将问世,预计带来三项核心功能升级:芯片升级成M5或M4、佩戴体验升级、AI神经网络...
2025-10-01 1
来源:人民日报 近期,全国首个科普月的各项活动掀起了又一轮科普热潮。作为创新发展的两翼之一,科普有利于形成热爱科学、崇尚科学的社会氛围,让科学精神、创...
2025-10-01 1
来源:环球市场播报核心要点 据称波音已启动单通道客机研发工作,该机型最终可能成为 737 MAX 的继任机型。目前这家飞机制造商正寻求挽回被竞争对手空...
2025-10-01 1
发表评论