百度計(jì)算生物研究登Nature子刊!結(jié)果超斯坦福MIT,落地制藥領(lǐng)域
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
百度新研究,登上了Nature子刊。
科技公司卷到學(xué)術(shù)圈頂刊上不算稀奇。
但這次有點(diǎn)不同尋常。
研究領(lǐng)域與生物領(lǐng)域直接相關(guān),接收該論文的期刊Nature Machine Intelligence(NMI),影響因子達(dá)到了16.649。
除了專業(yè)度保障,研究的實(shí)驗(yàn)結(jié)果也超越MIT斯坦福。
而且更關(guān)鍵的在于,跟后者大部分“產(chǎn)學(xué)研”模式不同。
百度是實(shí)打?qū)嵶约邯?dú)立搞出來的——
作者全部來自螺旋槳PaddleHelix,百度生物計(jì)算團(tuán)隊(duì)。
嗯,還是可復(fù)現(xiàn)的那種,目前GitHub上已經(jīng)開源了完整代碼(地址可在文末獲?。?。
研究人員表示,相關(guān)部分項(xiàng)目已經(jīng)實(shí)現(xiàn)了商業(yè)化落地。
來看看究竟是一項(xiàng)什么樣的研究。
小分子3D結(jié)構(gòu)被AI整明白了
此次百度聚焦的研究,是小分子化合物性質(zhì)預(yù)測(cè)。
簡(jiǎn)單來說,通過小分子結(jié)構(gòu)來預(yù)測(cè)其性質(zhì),幫助藥物研發(fā)的早期探索,從而解決該領(lǐng)域成本高、時(shí)間長(zhǎng)、成功率低等難題。
小分子藥物結(jié)構(gòu)有良好的空間分散性,其化學(xué)性質(zhì)也更有助于成藥,因此相較于大分子藥物(蛋白質(zhì)、核酸等)在藥物研發(fā)上更有優(yōu)勢(shì)。市場(chǎng)上大部分藥物也屬于小分子藥物。
但即便有先天優(yōu)勢(shì),面臨的特殊挑戰(zhàn)也不小。
最大的挑戰(zhàn),莫過于小分子的篩選空間實(shí)在是太大了。
早前Nature一篇研究表明,小分子藥物研發(fā)篩選數(shù)量在10的60次方。
什么概念呢?作者形容,“比太陽(yáng)系的原子數(shù)量還要多”。
要在這樣一個(gè)龐大「小分子宇宙」中尋求合適的候選藥物,高效準(zhǔn)確的化合物表征就起到關(guān)鍵作用。
基于這樣的背景下,研究團(tuán)隊(duì)此次的研究提出了幾何增強(qiáng)型的分子表征方法,簡(jiǎn)稱GEM。
這個(gè)方法主要包含兩個(gè)部分:基于空間結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)GNN、以及多個(gè)幾何級(jí)別的自監(jiān)督學(xué)習(xí)。
不難看出,本次研究的亮點(diǎn)在于空間、幾何。
據(jù)介紹,這是業(yè)界首次將空間結(jié)構(gòu)引入到化合物建模當(dāng)中。
之所以這樣強(qiáng)調(diào),跟他們要解決的問題不無關(guān)系,那就是讓AI也能理解小分子的3D結(jié)構(gòu)。
個(gè)中原因,需要從現(xiàn)有表征方式說起。
目前研究主要有兩種表征方式:基于序列的一維表征和基于圖形的表征。
一個(gè)以字符串作為輸入,利用序列模型比如RNN和Transformer來學(xué)習(xí)分子表征,但存在一些明顯的局限性,比如字符串語法難以理解,兩個(gè)相鄰的原子在文本序列上可能相距甚遠(yuǎn);字符串的一個(gè)小變化可能導(dǎo)致分子結(jié)構(gòu)的大變化。
另一個(gè)則與今天的研究相關(guān)——GNN建模,以圖作為輸入,每個(gè)原子是一個(gè)節(jié)點(diǎn),每個(gè)化學(xué)鍵是一個(gè)邊。
嗯,就跟化學(xué)書那樣式兒的。
但多數(shù)研究只停留分子的二維信息,忽略了三維空間結(jié)構(gòu)。
這也不難理解,畢竟要想準(zhǔn)確獲得分子的三維結(jié)構(gòu)信息其實(shí)并不容易。
要是所選描述三維結(jié)構(gòu)的參數(shù)一旦不理想,其性能可能上述兩種表征方法更糟,還將面臨魯棒性不足和預(yù)測(cè)性能不理想等問題。
但即便如此,三維結(jié)構(gòu)信息卻很關(guān)鍵,因?yàn)橥鶝Q定了分子的物理化學(xué)性質(zhì)及生物活性的不同。
最典型的例子,就是高中學(xué)的同分異構(gòu)體。
以二氯乙烯為例,它就有順反式結(jié)構(gòu),因?yàn)閹缀谓Y(jié)構(gòu)不同,導(dǎo)致二者的水溶性不同。
還有像順鉑和反鉑(二氯二氨合鉑),順鉑是一種流行的抗癌藥物;但反鉑有毒卻沒有抗癌活性。
既然如此,那就來看看這項(xiàng)研究是如何解決的。
首先來看圖神經(jīng)網(wǎng)絡(luò),本次研究人員提出了一種GeoGNN。每個(gè)分子的輸入包含兩個(gè)圖,可同時(shí)模擬原子、鍵和鍵角的影響。
第一個(gè)圖,即二維結(jié)構(gòu)圖,也叫做原子-化學(xué)鍵圖,仍以原子為節(jié)點(diǎn),鍵為邊。
第二個(gè)圖,化學(xué)鍵-鍵角圖,則是以鍵視作節(jié)點(diǎn),鍵角視作邊。
GeoGNN經(jīng)過多輪迭代學(xué)習(xí)原子和鍵的表征向量,為了連接兩個(gè)圖,化學(xué)鍵作為每一輪迭代中圖G和圖H的橋梁進(jìn)行信息互通。
最后通過匯集原子表征得到分子表征,用來化合物性質(zhì)預(yù)測(cè)。
為了更好的學(xué)習(xí)分子空間知識(shí),除了以幾何信息作為輸入,進(jìn)一步地,研究團(tuán)隊(duì)設(shè)計(jì)了多項(xiàng)自監(jiān)督學(xué)習(xí)任務(wù)。
比如,預(yù)測(cè)化學(xué)鍵的長(zhǎng)度、化學(xué)鍵組成的鍵角、兩兩原子之間的距離。
其中,鍵長(zhǎng)和鍵角描述化合物的局部結(jié)構(gòu),兩兩原子之間的距離更關(guān)注化合物的全局結(jié)構(gòu)。
局部結(jié)構(gòu)的,就隨機(jī)挑選某個(gè)原子中心(圖中的N)的子圖進(jìn)行遮蓋,預(yù)測(cè)化學(xué)鍵的鍵長(zhǎng)和之間的鍵角。
全局結(jié)構(gòu)的,則是預(yù)測(cè)原子距離矩陣中的元素。
預(yù)訓(xùn)練過程中,團(tuán)隊(duì)從一個(gè)公開數(shù)據(jù)集Zinc1522中,抽取2000萬個(gè)未標(biāo)記的分子來訓(xùn)練GeoGNN。
其中90%的分子用來訓(xùn)練,其余分子進(jìn)行測(cè)試。
最終結(jié)果顯示,在當(dāng)前公認(rèn)化合物性質(zhì)預(yù)測(cè)數(shù)據(jù)集MoleculeNet21的15個(gè)基準(zhǔn)數(shù)據(jù)集中,與現(xiàn)有方法比較,得到了14個(gè)SOTA結(jié)果。
其中,像與毒性相關(guān)的數(shù)據(jù)集tox21、toxcast,以及HIV病毒數(shù)據(jù)集,GEM的表現(xiàn)比其他模型要好,比如騰訊的GROVER、斯坦福的PretrainGNN以及MIT的D-MPNN等。
總體而言,百度的GEM模型,在回歸任務(wù)上相對(duì)現(xiàn)在方法提升8.8%,在分類任務(wù)上相對(duì)提升4.7%。
可以看到,在回歸數(shù)據(jù)集上的結(jié)果比分類數(shù)據(jù)集上的改進(jìn)更大。團(tuán)隊(duì)猜測(cè),因?yàn)榛貧w數(shù)據(jù)集的重點(diǎn)是預(yù)測(cè)量子化學(xué)和物理化學(xué)特性,而這與分子幾何結(jié)構(gòu)高度相關(guān)。
進(jìn)一步地,團(tuán)隊(duì)研究了GeoGNN在沒有預(yù)訓(xùn)練的情況下,在回歸數(shù)據(jù)集上的表現(xiàn)有何影響。
結(jié)果與現(xiàn)有的GNN架構(gòu)比較,其中包含常用GNN架構(gòu)、結(jié)合三維分子幾何的架構(gòu)以及分子表征架構(gòu)。
與以往最優(yōu)結(jié)果相比,總體改進(jìn)7.9%。
此外,在自監(jiān)督學(xué)習(xí)方法上的消融實(shí)驗(yàn)也證明了基于空間結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)方法的有效性。
該項(xiàng)目已經(jīng)在GItHub上開源。
據(jù)介紹,除了在學(xué)術(shù)期刊亮相外,研究團(tuán)隊(duì)透露,這項(xiàng)研究在藥物研發(fā)領(lǐng)域已經(jīng)實(shí)現(xiàn)商業(yè)化落地,在合作伙伴的早期藥物篩選管線上得到應(yīng)用。
未來,這項(xiàng)技術(shù)還有更多可預(yù)見的應(yīng)用價(jià)值,比如像化合物成藥性預(yù)測(cè)、小分子的藥物篩選、藥物聯(lián)用等具體場(chǎng)景。
再拓展一點(diǎn),沒準(zhǔn)兒在蛋白質(zhì)、核酸等領(lǐng)域,也能構(gòu)建基于大分子的表征模型,有助于更多藥物研發(fā)。
事實(shí)上,百度這次在Nature子刊上的亮相,帶來計(jì)算生物領(lǐng)域的新進(jìn)展。
情理之外,卻是意料之中。
不為大多數(shù)人所知道的是,百度在計(jì)算生物上的探索,其實(shí)早已開啟。
曾在GNN頂賽上超越DeepMind
早在2018年,百度就正式啟動(dòng)了計(jì)算生物方向的研究。
著名的RNA二級(jí)結(jié)構(gòu)開源算法LinearFold,將新冠預(yù)測(cè)從原來的55分鐘提速至27秒(接近120倍),就是百度的研究成果之一。
2020年12月,百度正式將自己研究的一系列生物計(jì)算相關(guān)技術(shù)進(jìn)行了集成,發(fā)布了螺旋槳(PaddleHelix)。
這是一個(gè)囊括了各種各樣“AI+計(jì)算生物”開源工具的生物計(jì)算平臺(tái),基于百度飛槳框架開發(fā),可以被用于藥物研發(fā)、疫苗設(shè)計(jì)和精準(zhǔn)醫(yī)療等領(lǐng)域。
而這次的研究,正是來自百度螺旋槳團(tuán)隊(duì)。
在發(fā)表這項(xiàng)研究之前,螺旋槳團(tuán)隊(duì)就已經(jīng)在包括像KDD、NeurIPS、IEEE BIBM等頂會(huì)上發(fā)表過不少“AI+生物”的研究成果。
例如,一篇用采用多任務(wù)學(xué)習(xí)訓(xùn)練ML模型進(jìn)行藥物虛擬篩選的研究,就于去年年底被生物信息與生物醫(yī)學(xué)頂會(huì)IEEE BIBM 2021接收;
除此之外,包括蛋白質(zhì)、mRNA也有不少研究成果,例如一篇基于蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)間相互作用的多模態(tài)預(yù)訓(xùn)練模型就入選MLCB的Spotlight;
關(guān)于圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)分子性質(zhì)的相關(guān)模型,則更是在全球性的頂會(huì)賽事上取得過數(shù)一數(shù)二的成績(jī)。
例如,去年6月KDD CUP與OGB(Open Graph Benchmark)聯(lián)合舉辦了首屆圖神經(jīng)網(wǎng)絡(luò)大賽OGB-LSC,共有包括DeepMind、微軟、螞蟻金服等來自全球的500多個(gè)著名高校&機(jī)構(gòu)參與。
其中,OGB是圖神經(jīng)網(wǎng)絡(luò)的通用性能評(píng)價(jià)基準(zhǔn)數(shù)據(jù)集,素有“圖神經(jīng)網(wǎng)絡(luò)的ImageNet”之稱;KDD CUP則是目前數(shù)據(jù)挖掘領(lǐng)域水平最高的頂尖國(guó)際賽事。
這場(chǎng)比賽一共分為三場(chǎng),包括大規(guī)模節(jié)點(diǎn)分類、大規(guī)模圖關(guān)系預(yù)測(cè)和化學(xué)分子圖性質(zhì)預(yù)測(cè)。
在化學(xué)分子圖性質(zhì)預(yù)測(cè)賽事中,百度螺旋槳生物計(jì)算團(tuán)隊(duì)取得了亞軍的成績(jī),冠軍來自MSRA和北大等高校機(jī)構(gòu)聯(lián)合團(tuán)隊(duì),第三名則是DeepMind。
這還只是三場(chǎng)GNN比賽中,與生物計(jì)算相關(guān)的那場(chǎng)。
在同一賽事的另外兩場(chǎng)圖神經(jīng)網(wǎng)絡(luò)比賽,節(jié)點(diǎn)分類和圖關(guān)系預(yù)測(cè)中,螺旋槳生物計(jì)算平臺(tái)背后的百度飛槳框架,又接連取得了2個(gè)冠軍,同樣超越了DeepMind等團(tuán)隊(duì)。
這些模型與研究并非“紙上談兵”,有不少成果都已經(jīng)被落地。
例如,百度與斯微生物合作,針對(duì)LinearDesign的mRNA疫苗序列設(shè)計(jì)算法進(jìn)行了生物實(shí)驗(yàn),證明模型的關(guān)鍵指標(biāo)超出基準(zhǔn)序列20倍,在疫苗研發(fā)中確實(shí)有更高的實(shí)用價(jià)值;
隨后百度也與藥企賽諾菲簽訂協(xié)議,將LinearDesign用于優(yōu)化mRNA疫苗的設(shè)計(jì)研發(fā)。
至于更早的研究LinearFold開源算法,則已經(jīng)被上百家企業(yè)用于疫苗設(shè)計(jì)研究中。
種種跡象都在表明,百度進(jìn)軍生物計(jì)算并非一日之談。
恰恰相反,這項(xiàng)發(fā)表在Nature子刊上的研究,正是它在生物計(jì)算方面布局了很多年的成果力證。
數(shù)據(jù)爆炸下的生物科技
百度走的生物科技這條路,其道不孤。
放到整個(gè)更大的計(jì)算生物領(lǐng)域來看,不止是百度,這幾年的國(guó)內(nèi)外科技公司,包括騰訊、阿里、英特爾、三星、谷歌母公司Alphabet等,其實(shí)都在加大布局。
這也與當(dāng)前所處的科技生長(zhǎng)態(tài)勢(shì)有關(guān)——生物領(lǐng)域的發(fā)展,恰好趕上了數(shù)據(jù)爆炸的時(shí)代,以及AI對(duì)過去研究方式的變革。
從技術(shù)應(yīng)用來看,典型代表之一就是AI+新藥研發(fā)。
數(shù)據(jù)驅(qū)動(dòng)導(dǎo)向的深度學(xué)習(xí)技術(shù),給傳統(tǒng)的新藥研發(fā)帶來了大量的潛力。
制藥領(lǐng)域有一個(gè)知名的反摩爾定律:每隔9年,投資10億美元產(chǎn)出的上市新藥就減少一半。更為常見的是,首創(chuàng)藥物(First-in-Class)占獲批新藥總數(shù)量不足一半。
相比之下,利用AI則能在包括用ADMET來做性質(zhì)預(yù)測(cè)以篩選藥物等在內(nèi)的步驟中,節(jié)省大量的人力和物力,包括輝瑞、阿斯利康等傳統(tǒng)藥企,也開始紛紛增加AI研發(fā)投入、或是尋求與AI公司進(jìn)行合作。
而AI+新藥研發(fā),還只是生物科技爆發(fā)中的一小部分技術(shù)應(yīng)用。
放大到整個(gè)行業(yè)來看,科技對(duì)生物領(lǐng)域的促進(jìn),本身就正在成為不可抵擋的趨勢(shì)之一。
此前量子位智庫(kù)發(fā)布的“2021十大前沿科技趨勢(shì)”中,與生物相關(guān)的技術(shù)突破就占據(jù)了接近一半:
除了利用AI助力新藥研發(fā)以外,還有CRISPR基因編輯、侵入式腦機(jī)接口的落地應(yīng)用、利用AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的模型AlphaFold2。
從產(chǎn)業(yè)來看,像百度這樣的AI公司重倉(cāng)研究,反過來又說明了AI給生物科技領(lǐng)域帶來的潛力和價(jià)值。
2018年開始,百度就研發(fā)RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)等算法,到后來李彥宏親自創(chuàng)立百圖生科公司,再到與傳統(tǒng)藥企賽諾菲等合作進(jìn)行算法研究落地;
李彥宏也不止一次強(qiáng)調(diào)過自己對(duì)這一領(lǐng)域的看好:
依靠生物計(jì)算引擎,能夠有效利用大量的生物數(shù)據(jù),把藥物發(fā)現(xiàn)的“大海撈針”變成“按圖索驥”。
不止百度。春江水暖總是技術(shù)公司先知。
谷歌母公司Alphabet就在不久前,宣布成立一家新公司Isomorphic Laboratories,研究如何將AlphaFold2在AI+新藥研發(fā)方向的能力進(jìn)行商業(yè)化落地。
OpenAI也在嘗試?yán)肁I模型,訓(xùn)練出能夠診斷疾病和預(yù)測(cè)復(fù)雜蛋白質(zhì)結(jié)構(gòu)等能力的復(fù)雜系統(tǒng)……
AI+生物科技,正在成為產(chǎn)業(yè)界落地趨勢(shì)的一種新“共識(shí)”。
21世紀(jì)是生物的世紀(jì)。誠(chéng)不我欺?
論文鏈接:
??https://www.nature.com/articles/s42256-021-00438-4??
GitHub鏈接:https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM