中文題目:基于深度特征和類別置信度一致性的長尾聲吶圖像識別方法
論文題目:Deep Feature and Category Confidence Consistency Learning for Long-tailed Sonar Image Recognition
錄用期刊:Knowledge-Based Systems(中科院大類一區、TOP期刊)
錄用時間:2025.4.27
作者列表:
1)韓佳藝 中國石油大學(北京)人工智能學院 控制科學與工程 博22級
2)劉建偉 中國石油大學(北京)人工智能學院 自動化系 教師
3)吳芃麒 中國石油大學(北京)人工智能學院 控制科學與工程 碩22級
4)劉芷含 中國石油大學(北京)人工智能學院 控制科學與工程 碩23級
摘要:
本文提出一種基于深度特征和類別置信度一致性的長尾聲吶圖像識別方法。該方法在雙分支解耦學習框架內集成了變尺度空間混合和全局特征混合增強策略,并提出了深度特征和類別置信度一致性正則化損失函數,以確保不同混合增強之間的一致性,從而有效提高模型對多層級特征表示的判別能力,而且提高了宏觀預測趨勢的平衡性。
背景與動機:
現實世界的聲納圖像通常表現為長尾分布,其中大多數樣本屬于幾個主要類別,而尾部類別則受到數據稀缺的影響。這種不平衡導致對頭部類別的預測偏差,降低了對尾部類別的識別性能。另一方面,聲納圖像的高噪聲和細粒度特性需要更全面的特征提取,特別是邊緣紋理等淺層細節。大多數現有方法側重于樣本級學習,忽略了宏觀層面的類別關系,這限制了它們在特征空間中提高整體類別可分性的能力。
基于以往研究的局限性,我們提出了一種用于長尾聲納圖像識別的深度特征和類別置信度一致性學習方法。從應用的角度來看,我們設計了一種高效的針對水下聲納識別的端到端識別框架,即使在嚴重的類不平衡和噪聲下,也能表現出很強的魯棒性和泛化性。從算法角度來看,我們在輸入空間提出了變尺度空間和全局特征混合增強方法,在特征空間優化方面,引入了多層級深度特征一致性約束和基于置信度一致性的類別關系優化策略。該模型優化了聲納圖像識別任務中的長尾分布問題,提高了對尾類的識別能力。在復雜的水下環境中,我們的方法減少了人工干預的需要,提高了智能聲納系統的穩定性和可靠性。
主要內容:
圖1 深度特征一致性正則化損失示意圖
為了增強樣本多樣性,并增強頭部和尾部數據之間的信息交換,我們采用了兩種圖像增強技術:變尺度空間混合增強和全局特征混合增強。前者在空間域融合多尺度信息生成新圖像,后者在像素級融合全局特征的混合增強。
為學習更具判別性和廣義的特征表示,同時減少不相關特征的干擾,我們指導模型在不同抽象層次上從變尺度空間混合和全局特征混合增強樣本中保持特征一致性。在低級特征中加強一致性提高了模型捕獲細粒度空間細節的能力,而在高級特征中加強一致性有助于學習全局語義和抽象表示。第k層特征一致性正則化損失函數表示為:
在長尾分布問題中,來自神經網絡不同層的多尺度信息在解決數據稀缺性和特征偏差方面起著至關重要的作用。為此,提出了一個深度特征一致性正則化損失:
深度特征一致性正則化損失函數通過約束單個樣本在樣本水平上優化特征表示。然而,長尾分布問題存在于宏觀層面。分類頻率和難度的不平衡進一步增加了置信度分配的不確定性。對于單個樣本,我們將模型對給定類別的非標準化預測輸出解釋為其置信度度量。我們使用余弦相似度約束不同增強策略下對應類別的類別置信度賦值。類別置信度一致性正則化損失函數定義為:
雙分支分類損失定義為:
總體損失為分類損失、深度特征一致性正則化損失和類別置信度一致性正則化損失的加權和:
實驗結果與分析:
我們在四個長尾聲吶數據集和兩個基準個廣泛使用的長尾數據集上評估了我們提出的模型的性能。部分實驗結果如表所示,在各個數據集上,我們提出的模型展現了出色的競爭力:
表1 不同方法在MDWD、MDTD、NKSID和SILT-34數據集上Top-1精度、宏觀F1分數和G-mean結果的比較
基線模型CE、解耦學習方法CE- DRS和我們提出的模型在SILT-34數據集上的CAM可視化結果如圖2所示。
圖2 類激活映射可視化圖
結論:
本文提出了基于深度特征和類別置信度一致性學習的長尾聲納圖像識別方法。受解耦學習和一致性學習的啟發,我們的方法增強了特征表示的可判別性和泛化性,同時減輕了分類器對頭部類別的偏見。在四個具有不同不平衡因素的長尾聲納數據集和兩個基準數據集上進行的大量實驗表明,性能得到了顯著提高,特別是在有效識別尾類聲納圖像方面。該方法有助于在現實場景中更準確地探測和分類水下目標,提高智能聲納系統的效率和可靠性。
作者簡介:
劉建偉,教師,學者。發表學術研究論文280多篇。研究領域涉及在線學習(包括強化學習,賭博機算法,持續學習,長尾學習);圖像視頻顯著性目標檢測,解糾纏表示學習,光場和神經場模型,以及圖像視頻少樣本變化檢測;自然語言理解中的知識補全,圖神經網絡;不平衡數據處理;霍克斯點過程故障預測與診斷;非線性預測與控制。 是兵器裝備工程學報第三屆編輯委員會委員。歷屆中國控制會議(CCC)和中國控制與決策會議(CCDC)的程序委員會委員。擔任過80多個國際會議的TPC。