成果速遞丨ACM MM 2024:中科視語(yǔ)提出FiLo,實(shí)現(xiàn)工業(yè)場(chǎng)景零樣本異常檢測(cè)新突破
在工業(yè)生產(chǎn)和質(zhì)量控制領(lǐng)域,異常檢測(cè)始終是一個(gè)關(guān)鍵問(wèn)題。傳統(tǒng)的異常檢測(cè)方法通常依賴大量的正常樣本進(jìn)行訓(xùn)練,但在保護(hù)用戶數(shù)據(jù)隱私或應(yīng)用于新生產(chǎn)線時(shí),這些方法往往不適用。零樣本異常檢測(cè)在這種情況下應(yīng)運(yùn)而生,其目的是在沒(méi)有目標(biāo)類(lèi)別物體訓(xùn)練數(shù)據(jù)的情況下,直接進(jìn)行異常檢測(cè)。
近日,中科視語(yǔ)和中國(guó)科學(xué)院自動(dòng)化研究所的研究團(tuán)隊(duì)提出了一種新的零樣本異常檢測(cè)方法——FiLo。 FiLo方法通過(guò)細(xì)粒度描述和高質(zhì)量定位模塊,在異常檢測(cè)和異常定位兩個(gè)方面取得了顯著的性能提升,在零樣本異常檢測(cè)工業(yè)場(chǎng)景中取得了業(yè)內(nèi)最好性能。
現(xiàn)有的零樣本異常檢測(cè)方法通常依賴于多模態(tài)預(yù)訓(xùn)練模型的強(qiáng)大泛化能力,通過(guò)計(jì)算圖像特征與手工編寫(xiě)的表示“正?!被颉爱惓!闭Z(yǔ)義的文本特征之間的相似度來(lái)檢測(cè)異常,并根據(jù)文本特征和每個(gè)圖像塊特征的相似度來(lái)定位異常區(qū)域。然而,通用的“異?!泵枋鐾鶡o(wú)法精確匹配不同對(duì)象類(lèi)別中的各種異常類(lèi)型。此外,文本特征與單個(gè)圖像塊的特征的相似性計(jì)算難以準(zhǔn)確定位具有不同大小和尺度的異常。
中科視語(yǔ)研究團(tuán)隊(duì)提出的FiLo方法為了解決現(xiàn)有零樣本異常檢測(cè)方法在異常檢測(cè)和異常定位兩個(gè)方面存在的問(wèn)題,提出了兩個(gè)有機(jī)結(jié)合的模塊:自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊(FG-Des)和位置增強(qiáng)的高質(zhì)量定位模塊(HQ-Loc):
自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊(FG-Des)主要利用大語(yǔ)言模型(LLMs)的強(qiáng)大知識(shí)來(lái)生成每個(gè)物體類(lèi)別可能出現(xiàn)的細(xì)粒度異常類(lèi)型,并采用自適應(yīng)學(xué)習(xí)的文本模板替代手工編寫(xiě)的文本內(nèi)容,提高了異常檢測(cè)的準(zhǔn)確性和可解釋性。
位置增強(qiáng)的高質(zhì)量定位模塊(HQ-Loc)利用Grounding DINO進(jìn)行初步定位,并通過(guò)位置增強(qiáng)的文本提示和多尺度、多形狀的跨模態(tài)交互模塊(MMCI)來(lái)準(zhǔn)確定位不同大小和形狀的異常。
結(jié)合了 FG-Des 和 HQ-Loc 兩個(gè)模塊的 FiLo 方法的整體結(jié)構(gòu)如下圖所示:
FiLo首先通過(guò)大語(yǔ)言模型(LLMs)生成每個(gè)類(lèi)別可能存在的細(xì)粒度異常類(lèi)型列表,然后將細(xì)粒度異常描述填入可學(xué)習(xí)的文本模板中,通過(guò) CLIP 文本編碼器后得到表示“正?!焙汀爱惓!闭Z(yǔ)義的文本特征。與此同時(shí),F(xiàn)iLo還將待檢測(cè)圖像和大語(yǔ)言模型生成的細(xì)粒度異常描述內(nèi)容輸入到Grounding DINO中,以獲得初步的異常定位框,并將初步定位框的位置信息也添加到文本特征中。
接下來(lái),F(xiàn)iLo將待檢測(cè)圖像輸入到CLIP圖像編碼器以提取中間層特征,這些特征通過(guò)多尺度、多形狀的跨模態(tài)交互模塊(MMCI)與含有位置信息的文本特征交互,生成異常分?jǐn)?shù)圖。最后綜合各中間層的異常分?jǐn)?shù)圖,即可得到最終的異常圖和全局異常得分。
通過(guò)這種方法,F(xiàn)iLo能夠充分利用LLMs的強(qiáng)大先驗(yàn)知識(shí)和Grounding DINO的初步定位能力,再結(jié)合MMCI模塊的多尺度、多形狀特征交互,有效提升了異常檢測(cè)的準(zhǔn)確性和精確定位的能力。
基于上述方法結(jié)構(gòu),F(xiàn)iLo研究團(tuán)隊(duì)在目前流行的 MVTec-AD和VisA兩個(gè)工業(yè)異常檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與現(xiàn)有零樣本異常檢測(cè)方法相比,F(xiàn)iLo取得了最先進(jìn)的性能,實(shí)驗(yàn)結(jié)果如下表所示:
下圖還展示了FiLo在一些實(shí)例上的異常檢測(cè)和定位結(jié)果,可以發(fā)現(xiàn)相比于 CLIP 的原始輸出,經(jīng)過(guò) Grounding DINO 的定位框篩選和MMCI的多尺度交互后,F(xiàn)iLo 能夠更加準(zhǔn)確地定位出異常位置。
除此之外,通過(guò)查看與圖像特征最相似的細(xì)粒度異常描述中的內(nèi)容,我們還可以知道圖像中存在的具體異常種類(lèi),為模型的判斷提供了依據(jù),提高了模型決策的可信度和可解釋性。
FiLo論文已經(jīng)被人工智能和多媒體領(lǐng)域頂級(jí)會(huì)議 ACM MM 2024 接收,論文預(yù)印版已發(fā)布于 Arxiv 上,并開(kāi)源了相關(guān)代碼。
研究團(tuán)隊(duì)認(rèn)為,現(xiàn)有異常檢測(cè)方法往往只注重判斷圖像中是否含有異常,而不重視異常的具體內(nèi)容,通過(guò)借助大語(yǔ)言模型的豐富知識(shí),后續(xù)研究可以增強(qiáng)異常檢測(cè)方法對(duì)具體異常類(lèi)型的判斷,增加方法的實(shí)用性和可信度。
論文地址:[2404.13671] FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization
https://arxiv.org/abs/2404.13671
代碼地址:
https://github.com/CASIA-IVA-Lab/FiLo
-
海能新能源助力科技創(chuàng)新——第六屆射頻與天線技術(shù)國(guó)際學(xué)術(shù)研討會(huì)在深圳成功召開(kāi)
-
漢王友基與廣州美術(shù)學(xué)院達(dá)成校企戰(zhàn)略合作
-
以遠(yuǎn)見(jiàn)超越未見(jiàn) | 2023 山石網(wǎng)科 · 安全守護(hù)者峰會(huì)成功舉辦
-
漢王友基點(diǎn)陣筆新品上市,賦能紙筆互動(dòng)智慧教育場(chǎng)景
-
新生產(chǎn)力,躍升!2023WAIC“智慧金融與數(shù)字員工”分論壇在滬成功舉辦
-
DHL亞特蘭大樞紐投運(yùn)
-
三亞太陽(yáng)灣柏悅酒店開(kāi)啟盛夏山海暑期童趣之旅