近期,中科院合肥研究院智能所離子束生物工程與綠色農(nóng)業(yè)研究中心吳躍進(jìn)研究員課題組圍繞近紅外光譜分析技術(shù),提出一種基于組合移動(dòng)窗口和智能優(yōu)化算法相結(jié)合的變量選擇算法。相關(guān)工作已在光譜學(xué)期刊Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy在線發(fā)表。
近年來(lái),隨著光譜技術(shù)的發(fā)展,光譜數(shù)據(jù)呈現(xiàn)數(shù)量高、維度高、復(fù)雜度高等特點(diǎn)。光譜數(shù)據(jù)中不僅包含大量的噪聲和干擾變量,而且當(dāng)樣本數(shù)量遠(yuǎn)小于變量數(shù)量時(shí),尋找最優(yōu)變量子集將成為NP-hard問(wèn)題,對(duì)光譜數(shù)據(jù)挖掘和光譜定量分析提出了挑戰(zhàn)。提取關(guān)鍵變量信息減少數(shù)據(jù)維度不僅可以提高光譜定量分析能力,而且可以選取特征光譜,降低儀器研發(fā)成本,提高經(jīng)濟(jì)效益。
這項(xiàng)工作改進(jìn)傳統(tǒng)粒子群算法(PSO),提出變維度的粒子群算法(VDPSO),結(jié)合組合移動(dòng)窗口策略實(shí)現(xiàn)光譜數(shù)據(jù)變量的快速選擇。該算法可以在不同維度上搜索數(shù)據(jù)空間,降低限入局部極值和過(guò)擬合的風(fēng)險(xiǎn)。與四種高性能變量選擇算法BOSS,VCPA,iVISSA和IRF進(jìn)行比較,結(jié)果表明該算法可以選擇最優(yōu)的光譜信息,提升模型的預(yù)測(cè)能力。該算法有望進(jìn)一步應(yīng)用于基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和定量構(gòu)效關(guān)系(QSAR)等學(xué)科數(shù)據(jù)分析中。
該研究工作得到安徽省重點(diǎn)研究開(kāi)發(fā)計(jì)劃、中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、國(guó)家自然科學(xué)基金等資金支持。
文章鏈接:https://doi.org/10.1016/j.saa.2020.118986
不同算法選擇的變量區(qū)間
新聞鏈接:http://www.hf.cas.cn/xwzx/jqyw/202009/t20200930_5709979.html