如何把大量物理知識塞給AI?EIT和北大團隊提出「規(guī)則重要性」概念
深度學習模型因其能夠從大量數(shù)據(jù)中學習潛在關(guān)系的能力而「徹底改變了科學研究領(lǐng)域」。然而,純粹依賴數(shù)據(jù)驅(qū)動的模型逐漸暴露出其局限性,如過度依賴數(shù)據(jù)、泛化能力受限以及與物理現(xiàn)實的一致性問題。
例如,美國OpenAI公司開發(fā)的文本到視頻模型Sora因深刻理解事物在現(xiàn)實中的存在方式而受贊譽,被視為AI領(lǐng)域的飛躍。盡管能利用大量視覺數(shù)據(jù)生成逼真圖像和視頻,Sora卻被認為未掌握物理定律,如重力和玻璃破碎等。
面對這一問題,將人類知識融入深度學習模型是一個潛在的解決方案。將先驗知識與數(shù)據(jù)一起使用,能夠提升模型的泛化能力,從而創(chuàng)建能夠理解物理規(guī)律的「知情機器學習」(Informed machine learning)模型。
然而,目前對深度學習中知識的價值仍缺乏深入理解,確定哪些先驗知識(包括函數(shù)關(guān)系、等式和邏輯關(guān)系等)能有效地融入模型以進行「預學習」,已成為一項亟待解決的難題。同時,盲目地整合多項規(guī)則可能會引發(fā)模型的崩潰。這種局限性制約了對數(shù)據(jù)與知識關(guān)系的進一步探索。
針對這一問題,東方理工(EIT)和北京大學的研究團隊提出了「規(guī)則重要性」的概念,并開發(fā)了一套框架,能精確計算每個規(guī)則對模型預測精度的貢獻。該框架不僅揭示了數(shù)據(jù)和知識之間的復雜相互作用關(guān)系,為知識嵌入提供了理論性指導,還有助于在訓練過程中平衡知識和數(shù)據(jù)的影響。此外,該方法還可用于識別不恰當?shù)南闰炓?guī)則,為交叉學科領(lǐng)域的研究與應(yīng)用提供廣闊前景。
該研究以「Worth of Prior Knowledge for Enhancing Deep Learning」為題,于 2024 年 3 月 8 日發(fā)表在 Cell 出版社旗下交叉學科期刊《Nexus》上,并被 Cell Press 團隊在 AAAS(美國科學促進會)和 EurekAlert!進行報道。
在教授孩子拼圖時,既可以讓他們通過反復試驗來找出答案,也可以用一些基本的規(guī)則和技巧來引導他們。同樣地,將規(guī)則和技巧——比如物理定律——融入到人工智能訓練中能讓它們更貼近現(xiàn)實,運作更高效。然而,如何評估這些規(guī)則在人工智能中的價值,一直是困擾研究者的難題。
鑒于先驗知識的豐富多樣性,將先驗知識融入深度學習模型是一個復雜的多目標優(yōu)化任務(wù)。研究團隊創(chuàng)新性地提出了一個框架,以量化不同先驗知識在提高深度學習模型方面的作用。他們將此過程視為充滿合作與競爭的博弈,通過評估規(guī)則對模型預測的邊際貢獻來界定其重要性。首先生成所有可能的規(guī)則組合(即「聯(lián)盟」),并對每個組合構(gòu)建模型,并計算均方誤差。
為降低計算成本,他們采用了一種基于擾動的高效算法:先訓練一個完全基于數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)作為基線模型,然后逐一加入各個規(guī)則組合進行額外訓練,最后在測試數(shù)據(jù)上評估模型表現(xiàn)。通過比較模型在包含和不包含某個規(guī)則的所有聯(lián)盟中的表現(xiàn),可以計算出該規(guī)則的邊際貢獻,進而得出其重要性。
圖示:規(guī)則重要性的計算流程(來源:論文)
通過流體力學的算例,研究人員探討了數(shù)據(jù)與規(guī)則間的復雜關(guān)系。他們發(fā)現(xiàn),在不同任務(wù)中,數(shù)據(jù)和先驗規(guī)則的作用完全不同。當測試數(shù)據(jù)與訓練數(shù)據(jù)分布相近時(即 In-distribution),數(shù)據(jù)量的增加會削弱規(guī)則的作用。
然而,當測試數(shù)據(jù)與訓練數(shù)據(jù)分布相似度較低時(即 Out-of-distribution),全局規(guī)則的重要性被凸顯出來,而局部規(guī)則的影響則被削弱。這兩類規(guī)則的區(qū)別在于:全局規(guī)則(如控制方程)影響整個域,而局部規(guī)則(如邊界條件)僅作用于特定區(qū)域。
圖示:規(guī)則重要性與數(shù)據(jù)量之間的關(guān)系(來源:論文)
研究團隊經(jīng)數(shù)值實驗發(fā)現(xiàn),在知識嵌入中,規(guī)則間存在三種相互作用效應(yīng):依賴效應(yīng)、協(xié)同效應(yīng)和替代效應(yīng)。
依賴效應(yīng)指某些規(guī)則需依賴其他規(guī)則才能有效;協(xié)同效應(yīng)表明多條規(guī)則共同作用的效果超越各自獨立作用時的總和;替代效應(yīng)則顯示一條規(guī)則的功能可能被數(shù)據(jù)或其他規(guī)則替代。
這三種效應(yīng)同時存在,并受到數(shù)據(jù)量的影響。通過計算規(guī)則重要性,可清晰展示這些效應(yīng),為知識嵌入提供重要指導。
在應(yīng)用層面,研究團隊試圖解決知識嵌入過程中的一個核心問題:如何平衡數(shù)據(jù)與規(guī)則的作用,以提升嵌入效率并篩選出不適宜的先驗知識。在模型的訓練過程中,該團隊提出了一種動態(tài)調(diào)整規(guī)則權(quán)重的策略。
具體而言,隨著訓練迭代步的增加,逐漸增大正重要性規(guī)則的權(quán)重,同時減小負重要性規(guī)則的權(quán)重。這種策略能夠根據(jù)優(yōu)化過程的需求,實時調(diào)整模型對不同規(guī)則的關(guān)注度,從而實現(xiàn)更加高效和準確的知識嵌入。
此外,向 AI 模型傳授物理定律可以使它們「更加貼近現(xiàn)實世界,從而在科學和工程領(lǐng)域發(fā)揮更大作用」。因此,該框架在工程、物理和化學領(lǐng)域具有廣泛的實際應(yīng)用。研究人員不僅優(yōu)化了機器學習模型來求解多元方程,還準確識別出對薄層色譜分析預測模型性能有提升效果的規(guī)則。
實驗結(jié)果顯示,通過融入這些有效規(guī)則,模型的性能得到了顯著提升,測試數(shù)據(jù)集上的均方誤差從 0.052 降低至 0.036(減少了 30.8%)。這意味著該框架可以將經(jīng)驗性見解轉(zhuǎn)化為結(jié)構(gòu)化知識,從而顯著提升模型性能。
總體而言,準確評估知識的價值有助于構(gòu)建更契合現(xiàn)實的AI模型,提高安全性和可靠性,對深度學習發(fā)展具有重要意義。
圖示:通過規(guī)則重要性以識別有效的規(guī)則(來源:論文)
接下來,研究團隊計劃將他們的框架開發(fā)成可供人工智能開發(fā)人員使用的插件工具。他們的最終目標是開發(fā)出能夠直接從數(shù)據(jù)中提取知識和規(guī)則,進而自我完善的模型,從而打造一個從知識發(fā)現(xiàn)到知識嵌入的閉環(huán)系統(tǒng),使模型成為真正的人工智能科學家。
論文鏈接:https://www.cell.com/nexus/fulltext/S2950-1601(24)00001-9
AAAS 報道鏈接:https://www.eurekalert.org/news-releases/1036117