AI并沒(méi)有學(xué)習(xí)!Nature子刊最新研究解碼人工智能黑盒
人工智能(AI)一直在迅速發(fā)展,但對(duì)人類(lèi)來(lái)說(shuō),強(qiáng)大的模型卻是個(gè)「黑匣子」。
我們不了解模型內(nèi)部的運(yùn)作原理,不清楚它得出結(jié)論的過(guò)程。
然而最近,波恩大學(xué)(University of Bonn)的化學(xué)信息學(xué)專(zhuān)家Jürgen Bajorath教授和他的團(tuán)隊(duì)取得了重大突破。
他們?cè)O(shè)計(jì)了一種技術(shù),揭示了藥物研究中使用的某些人工智能系統(tǒng)的運(yùn)行機(jī)制。
他們的研究結(jié)果表明,這些人工智能模型主要依賴(lài)于回憶現(xiàn)有數(shù)據(jù),而不是學(xué)習(xí)特定的化學(xué)相互作用,來(lái)預(yù)測(cè)藥物的有效性。
——也就是說(shuō),AI預(yù)測(cè)純靠拼湊記憶,機(jī)器學(xué)習(xí)實(shí)際上并沒(méi)有學(xué)習(xí)!
他們的研究結(jié)果最近發(fā)表在《自然機(jī)器智能》(Nature Machine Intelligence)雜志上。
論文地址:https://www.nature.com/articles/s42256-023-00756-9
在醫(yī)藥領(lǐng)域,研究人員正在狂熱地尋找有效的活性物質(zhì)來(lái)對(duì)抗疾病——哪種藥物分子最有效?
通常,這些有效的分子(化合物)會(huì)對(duì)接在蛋白質(zhì)上,蛋白質(zhì)作為觸發(fā)特定生理作用鏈的酶或受體。
在特殊情況下,某些分子還負(fù)責(zé)阻斷體內(nèi)的不良反應(yīng),例如過(guò)度的炎癥反應(yīng)。
可能的化合物數(shù)量巨大,尋找有效的化合物就像大海撈針一樣。
因此,研究人員首先使用AI模型來(lái)預(yù)測(cè),哪些分子最能與各自的靶蛋白對(duì)接并牢固結(jié)合。然后在實(shí)驗(yàn)研究中,更詳細(xì)地進(jìn)一步篩選這些候選藥物。
自人工智能發(fā)展以來(lái),藥物發(fā)現(xiàn)研究也越來(lái)越多地采用AI相關(guān)的技術(shù)。
比如圖神經(jīng)網(wǎng)絡(luò)(GNN),適用于預(yù)測(cè)某種分子與靶蛋白結(jié)合的強(qiáng)度。
圖由表示對(duì)象的節(jié)點(diǎn)和表示節(jié)點(diǎn)之間關(guān)系的邊組成。在蛋白質(zhì)與配體復(fù)合物的圖表示中,圖的邊連接蛋白質(zhì)或配體節(jié)點(diǎn),表示物質(zhì)的結(jié)構(gòu),或者蛋白質(zhì)和配體之間的相互作用。
GNN模型使用從X射線(xiàn)結(jié)構(gòu)中提取的蛋白質(zhì)配體相互作用圖,來(lái)預(yù)測(cè)配體親和力。
Jürgen Bajorath教授表示,GNN模型對(duì)于我們來(lái)說(shuō)就像一個(gè)黑匣子,我們無(wú)法得知它如何得出自己的預(yù)測(cè)。
Jürgen Bajorath教授任職于波恩大學(xué)LIMES研究所、波恩-亞琛國(guó)際信息技術(shù)中心(Bonn-Aachen International Center for Information Technology)和拉瑪機(jī)器學(xué)習(xí)與人工智能研究所(Lamarr Institute for Machine Learning and Artificial Intelligence)。
人工智能如何工作?
來(lái)自波恩大學(xué)化學(xué)信息學(xué)的研究人員,與羅馬Sapienza大學(xué)的同事一起,詳細(xì)分析了圖神經(jīng)網(wǎng)絡(luò)是否真的學(xué)習(xí)到了蛋白質(zhì)與配體的相互作用。
研究人員使用他們專(zhuān)門(mén)開(kāi)發(fā)的「EdgeSHAPer」方法分析了總共六種不同的GNN架構(gòu)。
EdgeSHAPer程序可以判斷GNN是否學(xué)習(xí)了化合物和蛋白質(zhì)之間最重要的相互作用,或者是通過(guò)其他的方式來(lái)得出預(yù)測(cè)。
科學(xué)家們使用從蛋白質(zhì)配體復(fù)合物結(jié)構(gòu)中提取的圖訓(xùn)練了六個(gè)GNN,——化合物的作用方式以及與靶蛋白的結(jié)合強(qiáng)度已知。
然后,在其他復(fù)合物上測(cè)試經(jīng)過(guò)訓(xùn)練的GNN,并使用EdgeSHAPer分析GNN如何產(chǎn)生預(yù)測(cè)。
「如果GNN按照預(yù)期行事,它們需要學(xué)習(xí)化合物和靶蛋白之間的相互作用,并且通過(guò)優(yōu)先考慮特定的相互作用來(lái)給出預(yù)測(cè)」。
然而,根據(jù)研究小組的分析,六個(gè)GNN基本上都沒(méi)有做到這一點(diǎn)。大多數(shù)GNN只學(xué)會(huì)了一些蛋白質(zhì)與藥物的相互作用,主要集中在配體上。
上圖展示了在6個(gè)GNN中的實(shí)驗(yàn)結(jié)果,色標(biāo)條表示用EdgeSHAPer確定的每個(gè)預(yù)測(cè)的前25個(gè)邊中蛋白質(zhì)、配體和相互作用所占的平均比例。
我們可以看到,代表綠色的相互作用本該是模型需要學(xué)到的,然而在整個(gè)實(shí)驗(yàn)中所占的比例都不高,而代表配體的橙色條占了最大的比例。
為了預(yù)測(cè)分子與靶蛋白的結(jié)合強(qiáng)度,模型主要「記住」了它們?cè)谟?xùn)練過(guò)程中遇到的化學(xué)相似分子及其結(jié)合數(shù)據(jù),而不管靶蛋白如何。這些被記住的化學(xué)相似性基本上決定了預(yù)測(cè)。
這讓人想起「聰明的漢斯效應(yīng)」(Clever Hans effect),——就像那匹看起來(lái)會(huì)數(shù)數(shù)的馬,實(shí)際上是根據(jù)同伴面部表情和手勢(shì)的細(xì)微差別,來(lái)推斷出預(yù)期的結(jié)果。
這或許意味著,GNN所謂的「學(xué)習(xí)能力」可能是站不住腳的,模型的預(yù)測(cè)在很大程度上被高估了,因?yàn)榭梢允褂没瘜W(xué)知識(shí)和更簡(jiǎn)單的方法進(jìn)行同等質(zhì)量的預(yù)測(cè)。
不過(guò),研究中也發(fā)現(xiàn)了另外一個(gè)現(xiàn)象:當(dāng)測(cè)試化合物的效力增加時(shí),模型傾向于學(xué)習(xí)到更多的相互作用。
也許通過(guò)修改表征和訓(xùn)練技術(shù),這些GNN還能朝著理想的方向進(jìn)一步改進(jìn)。不過(guò),對(duì)于可以根據(jù)分子圖學(xué)習(xí)物理量的假設(shè),一般來(lái)說(shuō)應(yīng)該謹(jǐn)慎對(duì)待。
「人工智能不是黑魔法?!?/span>