近日,中國科學院合肥物質(zhì)院智能所王紅強研究員團隊在跨模態(tài)機器視覺領(lǐng)域取得重要進展,提出了一種基于非對稱孿生Transformer的全局-局部對齊注意力模型(AST-GLAA),顯著提升了可見光-X光跨模態(tài)包裹重識別任務(wù)的性能。該研究成果被信息安全領(lǐng)域頂級期刊《IEEE信息取證與安全匯刊》正式接收。
可見光-X光跨模態(tài)包裹重識別是安檢領(lǐng)域的核心技術(shù),其難點在于兩種模態(tài)圖像存在顯著的像素級差異,導(dǎo)致傳統(tǒng)方法難以提取魯棒的跨模態(tài)不變特征。研究團隊創(chuàng)新性地將非對稱設(shè)計思想引入孿生Transformer架構(gòu),提出跨模態(tài)非對稱孿生Transformer結(jié)構(gòu),通過在一側(cè)分支嵌入LayerNorm層和模態(tài)感知編碼,有效增強了模型對跨模態(tài)不變特征的提取能力。同時,團隊設(shè)計了全局-局部跨模態(tài)對齊注意力模塊,通過建模全局與局部特征的交互關(guān)系,在提升細粒度特征表征的同時,解決了跨模態(tài)圖像空間錯位問題。
該研究工作首次將Transformer架構(gòu)引入跨模態(tài)包裹重識別任務(wù),突破了現(xiàn)有方法依賴對稱卷積網(wǎng)絡(luò)的局限。實驗表明,該模型在跨模態(tài)包裹重識別專用數(shù)據(jù)集上的關(guān)鍵指標較現(xiàn)有最優(yōu)方法提升顯著,為安檢智能化提供了可靠技術(shù)支撐。
論文第一作者為博士生吳勇敢,通訊作者為王紅強研究員。研究獲得國家自然科學基金、中國科學院裝備研制等項目的支持。
文章鏈接:https://ieeexplore.ieee.org/document/11095748
可見光-X光跨模態(tài)包裹重識別任務(wù)及核心思路示意圖
基于非對稱孿生Transformer的全局-局部對齊注意力模型概覽
新聞鏈接:http://www.hf.cas.cn/kxyj/kyjz/202508/t20250812_7903558.html