首页 今日快讯文章正文

AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

今日快讯 2025年10月17日 16:33 1 aa
AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

前言:

现在大火的视觉Transformer模型,层数堆多了确实能“全局掌控”,可一到分割图像、检测物体,边缘细节反倒越来越糊。

问题藏得深,它的自注意力机制像个“低通滤波器”,高频的边缘、纹理全被滤掉了。

不过北京理工等团队新研究给它装了个“高频眼镜”(FDAM模块),专补丢失的细节,测试效果直接刷新纪录。

AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

ViT越深越糊?问题藏在这颗“低通滤波器”里

就说ViT这模型,前几年可是横扫AI圈的狠角色。它能像人一样“全局看图”,但有个藏在骨子里的毛病,自注意力机制天生像个“低通滤波器”。

打个比方,你听音响,低通滤波器就是个“低音炮”,只爱放大柔和的低频,高音(比如乐器泛音、人声齿音)全被压没了。

ViT每层注意力都这么干,层数堆多了,图像里那些关键的边缘、纹理、小斑点(全是高频信息),就跟漏勺舀水似的,一层层漏光。

举个扎心例子:标准ViT跑几十层后,特征图里的高频信息直接衰减到零。这就好比你照相,镜头越高级,照片反而只剩个大轮廓,连头发丝都分不清。

做分割、检测这些需要“抠细节”的活儿,可不就糊成一锅粥?之前也有方法试过补救,比如静态补偿高频,但都是“丢了再捡”,没从根上解决问题。

AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

先“偷”回高频,再“调”细频段

那咋治这“频率消失症”?北京理工、RIKEN这些团队想了个妙招,从电路理论里找灵感!人家说“高通滤波器=全通滤波器-低通滤波器”,放AI里咋理解?

第一板斧叫“注意力反转”(AttInv)。原始特征就像没过滤的原声,啥频段都有(全通);经过注意力处理后的特征,只剩低频(低通)。

俩一相减,这不就把被滤掉的高频细节“偷”回来了?相当于给每层模型硬塞了条“高频通道”,再也不怕细节漏光。

光找回还不行,得能“精准调音”。

第二板斧是“频率动态缩放”(FreqScale)。它把特征拆成好几个频段,每个频段单独加个“音量旋钮”。

比如分割任务要突出边缘,就调高中频;检测纹理就调低频。跟调音响均衡器似的,想咋调就咋调,比以前“一刀切”灵活多了。

这两招一结合,FDAM模块就成了“频率管家”:既把漏掉的高频捡回来,又能按需细调。关键是它轻量啊!往模型里一插,参数和计算量几乎没涨,就跟给手机贴个膜似的简单。

AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

分割检测都涨分,轻量好用不费钱

光说不练假把式,FDAM的效果到底咋样?看数据说话:

语义分割任务里,轻量模型SegFormer-B0跑ADE20K数据集,mIoU直接涨了2.4分(这分值可是行业硬指标,涨1分都不容易);

更猛的是DeiT3-Base,加了FDAM后mIoU冲到52.6%,直接成了SOTA(当前最优)。

目标检测更绝,Mask DINO在COCO数据集上,检测AP提了1.6,分割AP提了1.4,要知道这数据集可是“检测界的奥运会”,涨分难度堪比高考提分。

遥感检测也没落下,DOTA数据集单尺度设定下,FDAM直接刷到当前最优。

最关键的是,这些提升几乎是“白送”的——加模块不加计算量,现有模型说改就改,对工业界太友好了。

理论也站得住脚:FDAM让深层特征的“有效秩”(衡量特征多样性的指标)大幅提升,彻底治好了“表征坍塌”。

简单说,模型深层特征不再是一团浆糊,该有的细节全留着。

AI 越“深度学习”越瞎?给它装个“高频眼镜”,立马看清细节!

结语:

FDAM这事儿,看着是模型改进,实则是给AI圈提了个醒,老技术也能解新问题。电路理论里的“高通滤波”,愣是能让视觉模型“看得更清”。

以后医学影像看肿瘤边界、自动驾驶认路牌细节,用上这技术,指不定能少出多少岔子。

说白了,AI要想更“懂”世界,细节才是命门。那些堆层数、拼参数的老路子该换换了,像FDAM这种“四两拨千斤”的巧思,才是真本事。

希望这技术赶紧落地,咱们的AI,该“高清”起来了!

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap