蛋白質(zhì)是生命的基石,生物的功能依賴于既穩(wěn)定而又靈活可變的蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)的光譜響應(yīng)信號,尤其是紫外光譜,可以稱之為蛋白質(zhì)骨架的“指紋”。這個“光學(xué)指紋”,經(jīng)過理論模擬的解讀,可以揭示出精確的蛋白質(zhì)結(jié)構(gòu),為生命科學(xué)和醫(yī)學(xué)診斷提供極其重要的信息。
然而,蛋白質(zhì)的結(jié)構(gòu)極其復(fù)雜多變,需要做大量的高精度的量子化學(xué)理論計算。由于計算量太大,即使是最厲害的超級計算機輕易也“吃不消”。所以蛋白質(zhì)的光譜的理論解讀是一個長期的困難與挑戰(zhàn),限制了光譜的準(zhǔn)確分析和蛋白質(zhì)結(jié)構(gòu)的發(fā)現(xiàn)。
怎么樣在光譜理論模擬中避免太昂貴的量子化學(xué)計算,解讀蛋白質(zhì)骨架的 “光學(xué)指紋”,是一個重要的科學(xué)課題。而近年來,人工智能技術(shù)被廣泛的應(yīng)用到各個領(lǐng)域,用于大幅度降低復(fù)雜體系的計算量。
最近,中國科學(xué)技術(shù)大學(xué)微尺度物質(zhì)科學(xué)國家研究中心江俊教授,與中科大羅毅教授和美國加州大學(xué)爾灣分校Shaul Mukamel教授合作,通過利用人工智能機器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)技術(shù),模擬了蛋白質(zhì)肽鍵結(jié)構(gòu)與性質(zhì)之間的構(gòu)效關(guān)系,將計算量一下降低了上萬倍。最后他們成功地預(yù)測了肽鍵紫外光譜,還用隨機森林的辦法揭示了具有化學(xué)內(nèi)涵的結(jié)構(gòu)描述子和構(gòu)效關(guān)系。人工智能與量子化學(xué)理論計算的結(jié)合,為預(yù)測蛋白質(zhì)的光學(xué)特性提供了一種高效的工具。相關(guān)成果以“A Neural Network Protocol for Electronic excitations of N-Methylacetamide”為題發(fā)表在《美國科學(xué)院院報》(Proceedings of National Academy of Science, DOI:10.1073/pnas.1821044116)。
江俊課題組近些年致力于發(fā)展機器學(xué)習(xí)技術(shù)在量化領(lǐng)域的應(yīng)用,努力探究使其成為解決量化問題的一種重要工具。在本工作中,研究人員首先在300K溫度下通過分子動力學(xué)模擬以及量子化學(xué)計算,得到了五萬組不同構(gòu)型的肽鍵模型分子。通過機器學(xué)習(xí)算法篩選出鍵長,鍵角,二面角跟電荷信息作為描述符,通過神經(jīng)網(wǎng)絡(luò)來構(gòu)建肽鍵基態(tài)結(jié)構(gòu)與其激發(fā)態(tài)性質(zhì)之間的構(gòu)效關(guān)系。基于訓(xùn)練好的機器學(xué)習(xí)模型,預(yù)測出了肽鍵的基態(tài)偶極矩及激發(fā)態(tài)性質(zhì),最后預(yù)測出肽鍵的紫外吸收光譜。為了驗證機器學(xué)習(xí)模型的魯棒性,研究人員又基于300K的溫度下得到的機器學(xué)習(xí)模型,預(yù)測出肽鍵在200K以及400K溫度下的紫外吸收光譜,其結(jié)果與時間密度泛函理論計算很好的吻合。
這是人工智能技術(shù)首次用于理論計算預(yù)測蛋白質(zhì)的光譜研究。通過理論計算得到大量數(shù)據(jù),使用人工智能加以訓(xùn)練構(gòu)建構(gòu)效關(guān)系,使用最后得到的模型用于預(yù)測,為模擬蛋白質(zhì)的光譜提供了一種新的思路。本項工作確立了機器學(xué)習(xí)模擬蛋白質(zhì)肽鍵骨架紫外吸收光譜的可行性和優(yōu)勢,蛋白質(zhì)的“光學(xué)指紋”解讀也將會變得更加輕易和有效。
相關(guān)工作得到了國家自然科學(xué)基金、中國科學(xué)院先導(dǎo)項目的資助,該論文第一作者為博士生葉盛與博士后胡偉、李鑫,江俊與Shaul Mukamel為共同通訊作者。
論文鏈接:https://doi.org/10.1073/pnas.1821044116
(合肥微尺度物質(zhì)科學(xué)國家研究中心、科研部)
新聞鏈接:http://news.ustc.edu.cn/2019/0606/c15884a382459/page.htm