首頁 - 關于我們 - 新聞活動 - 《自然》子刊發表實驗室最新成果:預訓練框架GPIP,AI驅動計算(suàn)物(wù)質科學研究新範式

《自然》子刊發表實驗室最新成果:預訓練框架GPIP,AI驅動計算(suàn)物(wù)質科學研究新範式

2024-4-12新聞

近日,上海人(rén)工智能實驗室(上海AI實驗室)推出首個(gè)針對(duì)機器學習(xí)勢函數模型的(de)自監督預訓練框架GPIP(Geometry-enhanced Pretraining on Interatomic Potentials),爲AI驅動計算(suàn)物(wù)質科學研究提供了(le)新範式。


研究人(rén)員(yuán)将AI與基礎科學深度融合,提出了(le)創新的(de)自監督學習(xí)策略,使機器學習(xí)勢函數的(de)性能可(kě)靠度提升超過30%,同時(shí),使用(yòng)GPIP獲取數據的(de)計算(suàn)量僅爲傳統方法的(de)1%,大(dà)幅降低了(le)研究成本。

由于能夠精準模拟物(wù)質體系中分(fēn)子的(de)行爲,勢函數模型已成爲當前實現高(gāo)性能分(fēn)子模拟的(de)關鍵,在材料設計、藥物(wù)研發等領域具備巨大(dà)應用(yòng)潛力。上海AI實驗室持續布局計算(suàn)物(wù)質科學等AI for Science相關研究,深入探索AI在物(wù)質科學研究中的(de)應用(yòng)。

該成果相關論文Geometry-enhanced Pretraining on Interatomic Potentials已發表于Nature旗下(xià)刊物(wù)Nature Machine Intelligence

論文标題

Geometry-enhanced Pretraining on Interatomic Potentials

論文鏈接

https://www.nature.com/articles/s42256-024-00818-6

勢函數助力物(wù)質科學研究
作爲理(lǐ)論與實驗科學之間的(de)紐帶,計算(suàn)科學在自然科學研究中扮演著(zhe)重要角色。分(fēn)子動力學(Molecular Dynamics, MD)模拟通(tōng)過模拟原子的(de)運動,揭示了(le)原子尺度上的(de)微觀細節和(hé)動态過程,被廣泛應用(yòng)于材料設計、生物(wù)制藥、化(huà)學工程、環境科學及基礎理(lǐ)論研究等領域。近年來(lái),随著(zhe)算(suàn)法發展和(hé)算(suàn)力提升,傳統的(de)大(dà)規模“試錯”實驗已逐漸被“計算(suàn)設計-實驗驗證”的(de)方法所代替。當前,MD模拟描述原子間相互作用(yòng)力主要基于兩種方法:通(tōng)過求解複雜(zá)物(wù)理(lǐ)方程(如Density Functional Theory, DFT)得(de)到原子受力信息,這(zhè)種方法精度高(gāo)但速度慢(màn);通(tōng)過拟合經驗公式,即勢函數或力場(chǎng)的(de)方法,雖計算(suàn)速度快(kuài),但精度較差,往往無法提供有價值的(de)結論。爲此,學術界提出機器學習(xí)勢函數,結合了(le)DFT的(de)高(gāo)精度和(hé)經驗勢函數的(de)高(gāo)效率,可(kě)在保持計算(suàn)精度的(de)同時(shí)顯著提高(gāo)計算(suàn)效率。然而,高(gāo)性能的(de)機器學習(xí)勢函數往往依賴大(dà)量的(de)帶标注原子結構數據,當前存在數據稀缺、DFT計算(suàn)資源消耗大(dà)等問題,限制了(le)機器學習(xí)勢函數的(de)應用(yòng)範圍。

結構高(gāo)效生成,數據準确可(kě)靠
針對(duì)上述挑戰,上海AI實驗室AI for Science團隊推出GPIP幾何增強預訓練框架,旨在解決原子結構數據的(de)獲取與利用(yòng)問題。在GPIP框架中,經驗勢函數通(tōng)過MD模拟,能夠快(kuài)速生成大(dà)量的(de)目标體系原子結構數據。研究團隊進一步設計了(le)一套幾何增強的(de)自監督學習(xí)策略,通(tōng)過掩碼、去噪和(hé)對(duì)比學習(xí)等方法,從原子結構數據中提取出有用(yòng)的(de)三維幾何和(hé)拓撲信息,強化(huà)了(le)模型的(de)學習(xí)能力。通(tōng)過MD及算(suàn)法策略,使得(de)原子結構數據在高(gāo)效生成的(de)同時(shí)亦符合物(wù)理(lǐ)學約束條件。
通(tōng)過GPIP生成的(de)符合物(wù)理(lǐ)規律的(de)有效水(shuǐ)分(fēn)子結構數據(左)與不符合物(wù)理(lǐ)規律的(de)無效水(shuǐ)分(fēn)子結構數據(右)。右圖中,原子位置分(fēn)布與鍵長(cháng)鍵角等特征不合理(lǐ)。

性能提升超三成,算(suàn)力需求下(xià)降百倍
爲驗證GPIP在實際任務中的(de)可(kě)靠性,研究人(rén)員(yuán)使用(yòng)多(duō)種勢函數模型作爲基座模型進行測試,測試數據集涵蓋了(le)從小分(fēn)子到周期性複雜(zá)體系。評測結果顯示,GPIP在各種任務上的(de)平均絕對(duì)誤差下(xià)降了(le)30%-50%,且任務執行不依賴于具體的(de)基座模型和(hé)下(xià)遊任務數據集。得(de)益于自監督預訓練的(de)引入,初始生成的(de)結構數據僅需二至三次叠代即可(kě)滿足實驗需要。此外,預訓練使用(yòng)的(de)原子結構數據通(tōng)過經典MD模拟生成,數據獲取所需算(suàn)力僅爲傳統方法的(de)1%。
預測值與真實值的(de)誤差(MAE)随訓練數據量的(de)變化(huà)情況(左)以及計算(suàn)資源消耗量(右)。

上海人(rén)工智能實驗室Al for Science團隊
面向物(wù)理(lǐ)、化(huà)學、生命、地球等科學領域,通(tōng)過深入研究各學科基礎理(lǐ)論,結合最新人(rén)工智能理(lǐ)論,探索AI驅動重大(dà)科學問題的(de)研究範式,搭建微觀到宏觀自然科學的(de)跨學科數據和(hé)算(suàn)法開放生态平台,使人(rén)工智能緊密結合自然科學,通(tōng)過基礎及應用(yòng)研究,構建從底層創新到産業落地的(de)完整體系,加速人(rén)工智能在化(huà)學、新材料、氣象、藥物(wù)研發等領域的(de)滲透與落地,賦能各行業發展。


免責聲明(míng):本文轉自網絡,版權歸原作者所有,如涉及作品版權問題,請及時(shí)與我們聯系删除,謝謝!


End.


想了(le)解更多(duō)産品信息、行業資訊



長(cháng) 按 關 注

     新浪微博    -         視頻(pín)号       -         官網



分(fēn)享、在看與點贊

隻要你點我都喜歡