AAAI Conference on Artificial Intelligence會(huì)議是人工智能領(lǐng)域最重要的國(guó)際會(huì)議之一,是CCF推薦的A類會(huì)議。人工智能學(xué)院李成龍教授團(tuán)隊(duì)共有4篇論文被AAAI 2025錄用,涉及多模態(tài)目標(biāo)跟蹤、多領(lǐng)域行人屬性識(shí)別和顯著目標(biāo)檢測(cè)等研究方向。AAAI 2025共收到12,957份投稿,3032篇論文被錄用,錄取率為23.4%。AAAI2025將于2025年2月25日- 3月4日在美國(guó)賓夕法尼亞州費(fèi)城舉辦。
論文“Cross-modulated Attention Transformer for RGBT Tracking”由安徽大學(xué)人工智能學(xué)院肖云副教授為第一作者、李成龍教授為通訊作者。目標(biāo)跟蹤在自動(dòng)駕駛、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用??梢姽?/span>-紅外(RGBT)目標(biāo)跟蹤旨在聯(lián)合利用可見光提供的豐富色彩紋理信息,以及熱紅外在極端環(huán)境下的穿透性實(shí)現(xiàn)魯棒的目標(biāo)跟蹤?,F(xiàn)有的基于Transformer的模型大多關(guān)注特征融合,利用自注意力提取單模態(tài)特征,交叉注意力增強(qiáng)多模態(tài)交互,一方面忽略了跨模態(tài)注意力權(quán)重分布的一致性,導(dǎo)致不準(zhǔn)確的注意力計(jì)算結(jié)果,另一方面具有較高的計(jì)算復(fù)雜度。 針對(duì)上述問(wèn)題,本文提出一種交叉調(diào)制注意力模塊(CMA),將各分支中獨(dú)立的自注意力塊結(jié)合起來(lái),在相關(guān)性權(quán)重建立的過(guò)程中嵌入交叉注意力過(guò)程,使不同模態(tài)分支的注意力權(quán)重能夠相互學(xué)習(xí),在優(yōu)化注意力權(quán)重同時(shí)也實(shí)現(xiàn)了多模態(tài)信息的有效融合,從而同時(shí)提升了模型精度和效率。
圖1 整體框架
論文“RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba”由安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士后鹿安東為第一作者,人工智能學(xué)院李成龍教授、計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院羅斌教授共同為通訊作者?,F(xiàn)有RGBT目標(biāo)跟蹤相關(guān)工作缺少對(duì)不同層級(jí)特征之間互補(bǔ)性的探究,且現(xiàn)有架構(gòu)難以實(shí)現(xiàn)全層級(jí)的全微調(diào)建模。針對(duì)此問(wèn)題,本文提出了一種基于漸進(jìn)式Mamba的全層多模態(tài)網(wǎng)絡(luò) (AINet),利用Mamba在建模長(zhǎng)序列方面的優(yōu)勢(shì)實(shí)現(xiàn)全層級(jí)的特征建模,同時(shí)保持了較高的計(jì)算效率。具體來(lái)說(shuō),本文設(shè)計(jì)了差分融合Mamba模塊 (DFM),通過(guò)差分結(jié)構(gòu)放大模態(tài)差異信息,有效地進(jìn)行模態(tài)信息互補(bǔ)增強(qiáng),并設(shè)計(jì)了動(dòng)態(tài)排序融合Mamba模塊 (OFM)來(lái)預(yù)測(cè)全層特征的掃描順序,通過(guò)輸入感知的動(dòng)態(tài)掃描路徑,實(shí)現(xiàn)自適應(yīng)信息聚合并減輕早期輸入信息的遺忘。在四個(gè)公共基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法超過(guò)了目前最先進(jìn)的方法。此外,與基于Transformer的融合方法對(duì)比,本文方法有著更少的顯存消耗和更高的計(jì)算效率。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
論文“Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework”由安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院金建東博士為第一作者,計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院王逍副教授、人工智能學(xué)院李成龍教授共同為通訊作者。行人屬性識(shí)別(PAR)作為人類感知任務(wù)之一,旨在通過(guò)計(jì)算機(jī)視覺(jué)技術(shù),識(shí)別行人圖像中的多種屬性,如性別、發(fā)型、穿著等,得到了廣泛的關(guān)注?,F(xiàn)有數(shù)據(jù)集通常缺乏對(duì)跨域因素(如不同環(huán)境、時(shí)間、人口和數(shù)據(jù)來(lái)源)的有效處理,且多依賴于簡(jiǎn)單的隨機(jī)分割方式進(jìn)行訓(xùn)練和測(cè)試,模型性能趨于瓶頸。為了解決這些問(wèn)題,本文提出了一個(gè)大規(guī)模的多領(lǐng)域行人屬性識(shí)別數(shù)據(jù)集,稱為MSP60K,由來(lái)自8個(gè)不同場(chǎng)景的行人圖像數(shù)據(jù)60,122 張和57個(gè)屬性注釋組成,揭示了引入跨域設(shè)定對(duì)研究行人屬性識(shí)別實(shí)用性的重要性,并使用合成退化來(lái)模擬復(fù)雜的動(dòng)態(tài)真實(shí)世界環(huán)境。同時(shí)提出了一種新的多模態(tài)大語(yǔ)言模型增強(qiáng)的PAR框架,利用多模態(tài)大預(yù)言模型探索屬性之間的上下文關(guān)系,生成有助于屬性識(shí)別的描述。該方法由三個(gè)主要模塊組成:多標(biāo)簽分類分支、大語(yǔ)言模型分支和模型聚合。
圖3 多模態(tài)大語(yǔ)言模型增強(qiáng)的 PAR 框架
論文“Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network”由安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院王鯤鵬博士為第一作者,計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院涂錚錚副教授、羅斌教授共同為通訊作者,人工智能學(xué)院李成龍教授為合作作者。顯著目標(biāo)檢測(cè)任務(wù)旨在定位并分割出視覺(jué)場(chǎng)景中人們最關(guān)注的區(qū)域,是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一。針對(duì)原始捕獲的RGB-T圖像在空間和尺度上未對(duì)齊問(wèn)題,本文構(gòu)建了一個(gè)大規(guī)模、高多樣性的未對(duì)齊數(shù)據(jù)集用于促進(jìn)無(wú)需對(duì)齊的RGB-T顯著性目標(biāo)檢測(cè)的研究,包括20,000對(duì)圖像、407個(gè)場(chǎng)景、1256個(gè)目標(biāo)類別以及多樣的標(biāo)注。針對(duì)難以利用多模態(tài)間的對(duì)應(yīng)關(guān)系問(wèn)題,本文提出了一個(gè)漸進(jìn)相關(guān)網(wǎng)絡(luò),在顯式對(duì)齊的基礎(chǔ)上對(duì)模態(tài)間和模態(tài)內(nèi)相關(guān)性進(jìn)行建模。具體來(lái)說(shuō),本文提出了一個(gè)語(yǔ)義引導(dǎo)的單應(yīng)性估計(jì)模塊,引入并微調(diào)了現(xiàn)有的多模態(tài)單應(yīng)性估計(jì)器,顯式對(duì)齊可見光和熱模態(tài)之間的共同區(qū)域。此外,本文還提出了一個(gè)模態(tài)間和模態(tài)內(nèi)相關(guān)性模塊,全面建模顯著性區(qū)域的相關(guān)性。在未對(duì)齊、弱對(duì)齊和對(duì)齊數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
圖4 所提出的PCNet的整體架構(gòu)
新聞鏈接:http://www.ahu.edu.cn/2024/1216/c15059a354479/page.htm
網(wǎng)站內(nèi)容來(lái)源于互聯(lián)網(wǎng),由網(wǎng)絡(luò)編輯負(fù)責(zé)審查,目的在于傳遞信息,提供專業(yè)服務(wù),不代表本網(wǎng)站平臺(tái)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如因內(nèi)容、版權(quán)問(wèn)題存在異議的,請(qǐng)與我們?nèi)〉寐?lián)系,我們將協(xié)調(diào)給予處理(按照法規(guī)支付稿費(fèi)或刪除),聯(lián)系方式:ahos@aiofm.ac.cn 。網(wǎng)站平臺(tái)將加強(qiáng)監(jiān)控與審核,一旦發(fā)現(xiàn)違反規(guī)定的內(nèi)容,按國(guó)家法規(guī)處理,處理時(shí)間不超過(guò)24小時(shí)。