近日,中國(guó)科學(xué)院合肥物質(zhì)院安光所計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)在全景場(chǎng)景圖生成研究方面取得新進(jìn)展,提出了一種基于CLIP知識(shí)轉(zhuǎn)移和關(guān)系上下文挖掘的全景場(chǎng)景圖生成方法,相關(guān)研究成果已被信號(hào)處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE聲學(xué)、語(yǔ)音與信號(hào)處理國(guó)際會(huì)議,ICASSP 2024)接收發(fā)表。
全景場(chǎng)景圖生成(Panoptic Scene Graph,簡(jiǎn)稱PSG)是當(dāng)前場(chǎng)景圖生成(Scene Graph Generation,簡(jiǎn)稱SGG)領(lǐng)域中的熱門(mén)研究方向之一,旨在基于圖像的像素級(jí)分割信息,利用所有物體及它們之間的成對(duì)關(guān)系,進(jìn)行全景場(chǎng)景圖生成表示。然而,由于訓(xùn)練數(shù)據(jù)常呈現(xiàn)長(zhǎng)尾分布,當(dāng)前PSG方法的預(yù)測(cè)更傾向于高頻和無(wú)信息的關(guān)系表示(例如“在”、“旁邊”等),導(dǎo)致PSG與實(shí)際應(yīng)用相距甚遠(yuǎn)。
針對(duì)上述問(wèn)題,研究人員受人類先驗(yàn)知識(shí)的啟發(fā),引入了兩個(gè)新穎的設(shè)計(jì):一是使用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型來(lái)校正數(shù)據(jù)傾斜性;二是使用條件先驗(yàn)分布對(duì)上下文關(guān)系進(jìn)行進(jìn)一步的預(yù)測(cè)質(zhì)量提升。具體而言,研究人員首先從圖像編碼器中提取與關(guān)系相關(guān)的視覺(jué)特征,并通過(guò)從視覺(jué)語(yǔ)言模型的文本編碼器中提取所有關(guān)系的文本嵌入,從而構(gòu)建關(guān)系分類器。之后,利用主客體對(duì)之間的豐富關(guān)系上下文信息,通過(guò)交叉注意力機(jī)制促進(jìn)上下文的關(guān)系精準(zhǔn)預(yù)測(cè)。最后,研究人員在OpenPSG數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn),并取得了最先進(jìn)的性能。
博士研究生梁楠昊為論文第一作者,王凡博士后和劉勇研究員為論文通訊作者。該研究工作得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、安徽省博士后研究人員科研活動(dòng)經(jīng)費(fèi)資助項(xiàng)目、合肥物質(zhì)院院長(zhǎng)基金等項(xiàng)目支持。
文章鏈接:https://doi.org/10.1109/ICASSP48485.2024.10446810
新聞鏈接:https://www.hf.cas.cn/kxyj/kyjz/202404/t20240425_7131686.html