AlphaFold:首個(gè)有望獲得諾貝爾獎(jiǎng)的人工智能成果
“這可能是首個(gè)有望獲得諾貝爾獎(jiǎng)的人工智能成果。但它的突破肯定是在生物學(xué)領(lǐng)域”,談及最近大火的 AlphaFold,阿德萊德大學(xué)計(jì)算機(jī)科學(xué)教授沈春華告訴 DeepTech。
他表示,AlphaFold 之所以會(huì)受到如此關(guān)注,是因此前很少有機(jī)器學(xué)習(xí)和生物相結(jié)合、且真正能解決重要實(shí)際問題的成果。從 DeepMind 發(fā)表在 Nature 上的第一版論文來看,其使用的機(jī)器學(xué)習(xí)算法都是已有技術(shù),且主要涉及到卷積神經(jīng)網(wǎng)絡(luò)。
商湯研究院研究執(zhí)行總監(jiān)、智源青年科學(xué)家代季峰告訴 DeepTech,從深度學(xué)習(xí)領(lǐng)域來看,AlphaFold2 并不是理論上的原創(chuàng)性突破,它是把現(xiàn)在最好的深度學(xué)習(xí)算法,跟具體的領(lǐng)域知識(shí)結(jié)合起來,然后產(chǎn)生出較大的應(yīng)用突破。它的應(yīng)用前景主要是在結(jié)構(gòu)生物學(xué)上,即提供測(cè)試蛋白質(zhì)三三維結(jié)構(gòu)的新方法。以前主要用冷凍電鏡和 X 射線衍射,需要很多人工實(shí)驗(yàn),現(xiàn)在 AlphaFold2 未必比前面兩種方法準(zhǔn)確,但會(huì)節(jié)省很多錢力和人力。
圖 | AlphaFold 預(yù)測(cè)的新冠病毒 ORF8 蛋白結(jié)構(gòu),已獲實(shí)驗(yàn)證實(shí)(來源:CASP14)
目前,AlphaFold 2 的能力已獲李飛飛等權(quán)威人士點(diǎn)贊,在今年的國際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP 14)中,AlphaFold 2 在 CASP 的系列測(cè)試中獲得 92.4 分,在最具挑戰(zhàn)的自由建模蛋白質(zhì)測(cè)試中獲得 87 分。
圖 | AlphaFold 在最具挑戰(zhàn)的自由建模蛋白質(zhì)測(cè)試中獲得 87 分
“算力的提升,使得 AlphaFold 可在短時(shí)間內(nèi)測(cè)試大量不同的算法”,說到 AlphaFold 表現(xiàn)優(yōu)異的原因之一,加州理工學(xué)院博士后研究員陳子博告訴 DeepTech。
成績(jī)的確很厲害,但是 DeepMind 在博客中坦言,AlphaFold 預(yù)測(cè)的結(jié)果并非十分完美。對(duì)此,陳子博表示:“我覺得還有很多未解難題,比如如何從第一原理來預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),如何從蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)其功能,以及如何設(shè)計(jì)蛋白質(zhì)的構(gòu)象改變甚至是變構(gòu)等。”
圖 | 藍(lán)色為計(jì)算預(yù)測(cè),綠色為實(shí)驗(yàn)結(jié)果(來源:deepmind.com)
預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),到底有多難?
而 AlphaFold 之所以引起追捧,是因?yàn)轭A(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),是個(gè)超級(jí)科學(xué)難題。原北京協(xié)和醫(yī)學(xué)院教授、目前從事腫瘤藥物研發(fā)的王晨光博士告訴 DeepTech,他在 30 幾年前讀大學(xué)時(shí),老師就曾提到蛋白質(zhì)從確定的一級(jí)結(jié)構(gòu)和二級(jí)結(jié)構(gòu)到三級(jí)結(jié)構(gòu)的不可預(yù)測(cè)性。
半個(gè)多世紀(jì)以來,學(xué)界一直在探索如何解決該問題。在上世紀(jì)九十年代,人們就意識(shí)到如果數(shù)據(jù)足夠多、算力足夠強(qiáng),用機(jī)器預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)就會(huì)成為現(xiàn)實(shí)。以電腦跟人下象棋為例,隨著算力的提升,就連國際象棋冠軍也下不過電腦。后來,人們認(rèn)為在圍棋上,機(jī)器應(yīng)該無法超越人類,因?yàn)閲逵?219×19 各種變化。
但沒想到僅十幾年光景,谷歌的 AlphaGo 就已打敗世界圍棋冠軍李世石。而 AlphaFold 同樣代表著人類對(duì)此方向的追求,其中包括在算法上訓(xùn)練如何破解蛋白質(zhì)結(jié)構(gòu)和驗(yàn)證晶體結(jié)構(gòu)等。
機(jī)器掌握住規(guī)律之后,就可以不知疲倦地工作,于是才有了今天的競(jìng)賽成績(jī)。王晨光表示,之所以比較轟動(dòng),是因?yàn)檫@個(gè)生物醫(yī)學(xué)領(lǐng)域內(nèi)公認(rèn)的長期難以克服的難題終于有了量級(jí)的突破。
而之前參賽的團(tuán)隊(duì),只有三四十分的準(zhǔn)確度,這次 AlphaFold 甚至比人工晶體結(jié)構(gòu)的準(zhǔn)確度還要高。對(duì)于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)之難,陳子博也表示:“主要難點(diǎn)在于這是一個(gè)很復(fù)雜的體系,蛋白質(zhì)如何折疊和其所在的環(huán)境也有關(guān)(比如膜蛋白 vs 胞內(nèi)蛋白)。”
而在 AlphaFold 未出現(xiàn)以前,科學(xué)家要想確定蛋白質(zhì)結(jié)構(gòu),只能通過核磁共振、X 射線和冷凍電鏡等技術(shù),并且往往需要連續(xù)數(shù)年的反復(fù)試驗(yàn)才能得到結(jié)果,同時(shí)還得使用動(dòng)輒造價(jià)數(shù)百萬美元的實(shí)驗(yàn)設(shè)備。正因?yàn)殡y,才更加凸顯預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的價(jià)值,而該技術(shù)看似高深,卻和看病用藥密不可分。
能否讓老百姓買藥更便宜?
談及 AlphaFold 對(duì)普羅大眾的意義,陳子博表示,現(xiàn)在很多藥物都是將人體細(xì)胞內(nèi)某些特定的蛋白作為靶點(diǎn),如果將 AlphaFold 和制藥結(jié)合起來,在預(yù)測(cè)蛋白和小分子相互作用方面有所突破,那么將會(huì)極大加速新藥的研發(fā)進(jìn)程,同時(shí)降低制藥的成本。
王晨光也表示,本次突破在生物制藥領(lǐng)域的重要意義顯而易見。傳統(tǒng)的靶向藥物,靶點(diǎn)大多是蛋白質(zhì)。以肺癌藥物為例,以 EGFR 蛋白質(zhì)為靶點(diǎn)的藥物過去 20 幾年一直是研發(fā)熱點(diǎn)。有了 AlphaFold 之后,它必然會(huì)給制藥領(lǐng)域帶來幫助。
因?yàn)楹芏嗨幬锏陌悬c(diǎn)蛋白質(zhì),尋找在蛋白質(zhì)結(jié)構(gòu)上找到能夠被藥物攻擊的地方。因此如果不知道蛋白質(zhì)結(jié)構(gòu),制藥往往是 “兩眼一抹黑”,只有知道它的結(jié)構(gòu),才可以有目的地根據(jù)其結(jié)面設(shè)計(jì)一些化合物。還是以肺癌靶向藥物的 EGFR 為例。腫瘤在藥物的選擇壓力下,用一種藥物一段時(shí)間后往往不反應(yīng)了,后來發(fā)現(xiàn)是基因發(fā)生了突變。而基因突變的后果是其表達(dá)產(chǎn)物蛋白質(zhì)的氨基酸序列發(fā)生了變化。因此,開發(fā)另外一種針對(duì)該突變蛋白質(zhì)的藥物變成了臨床需求。
AlphaFold 應(yīng)該可以很容易地對(duì)突變后的蛋白質(zhì)結(jié)構(gòu)做到預(yù)測(cè),對(duì)下一代新藥研發(fā)將有極大幫助。此外,王晨光對(duì) AlphaFold 的應(yīng)用很是期待,他說從事藥物研發(fā)的人,即便沒有晶體結(jié)構(gòu)等專業(yè)知識(shí),也能通過 AlphaFold 來輸入蛋白質(zhì)名稱,然后就可直觀觀察蛋白質(zhì)結(jié)構(gòu),這將縮減制藥環(huán)節(jié)中藥物發(fā)現(xiàn)的流程。
當(dāng)藥企可以有的放矢地設(shè)計(jì)藥物,那么藥物研發(fā)周期也就相應(yīng)可以縮短,這樣等于在藥物成分和功效不變的情況下,制藥速度更快,那么老百姓買到的藥物或許就能更便宜。
有望提高研究人員工作效率
有人說,AlphaFold 讓老師和同學(xué)們都解放了,從此不再受制于結(jié)構(gòu)解析手段,并能很快拿到結(jié)構(gòu)、去探討結(jié)構(gòu)生物學(xué)核心問題。對(duì)于該說法,陳子博表示,這得看具體想解決的問題,結(jié)構(gòu)生物學(xué)研究需要的結(jié)構(gòu),一般需要很高的精度,需要精確到每個(gè)殘基的精確位置,這是 AlphaFold 目前還不能提供的。
圖 | 殘基相連的方式預(yù)測(cè)(來源:DeepMind)
王晨光表示,從一定程度上來講,有了 AlphaFold,以后破解靜態(tài)蛋白質(zhì)結(jié)構(gòu)會(huì)比以前更省勁,但并不是說學(xué)生不再需要努力。因?yàn)?,AlphaFold 畢竟還達(dá)不到 100% 的準(zhǔn)確性,學(xué)生想要了解一個(gè)蛋白質(zhì)結(jié)構(gòu),在使用 AlphaFold 預(yù)測(cè)之后,仍然需要再通過其他方式來驗(yàn)證。但無論如何,AlphaFold 預(yù)測(cè)的參數(shù),都能在破解蛋白晶體結(jié)構(gòu)方面,給予人類很大幫助。
圖 | AlphaFold 對(duì)兩個(gè)蛋白的結(jié)構(gòu)預(yù)測(cè)和實(shí)驗(yàn)測(cè)定結(jié)構(gòu)的對(duì)比
不過,王晨光認(rèn)為,多數(shù)蛋白質(zhì)的三維結(jié)構(gòu)不是靜態(tài)的,而是處于不斷的動(dòng)態(tài)變化之中。蛋白質(zhì)作為機(jī)體內(nèi)執(zhí)行功能的分子,受到身體內(nèi)外各種因素的影響,結(jié)構(gòu)也在變化中。而這種變化帶來的復(fù)雜性依然是蛋白質(zhì)解構(gòu)的挑戰(zhàn),無論是傳統(tǒng)方法還是 AlphaFold。即便 AlphaFold 當(dāng)前在應(yīng)用上仍有局限性,但這次技術(shù)上量級(jí)的突破顯示,這只不過是時(shí)間問題。
從計(jì)算機(jī)算法的角度來看,已發(fā)表的第一版 AlphaFold,并未用到太多新技術(shù),A因此該技術(shù)即使不開源,找個(gè)博士生花一兩個(gè)月,肯定也能把算法實(shí)現(xiàn)出來。不過,AlphaFold 的第一版深度學(xué)習(xí)的模型非常重要,因?yàn)樗鼪Q定著能否把相關(guān)結(jié)構(gòu)恢復(fù)出來。
事實(shí)上,AlphaFold 的第一版性能相對(duì)一般,雖然拿到 CASP 13 競(jìng)賽第一名,但并沒有引起轟動(dòng)。第二版就提升了非常多,其精度跟實(shí)驗(yàn)室做出來的三維結(jié)構(gòu)的預(yù)測(cè)結(jié)果已經(jīng)相差無幾。
對(duì)于谷歌這樣一家科技公司,做出如此厲害的生物類成果,其實(shí)并不意外。AlphaFold 背后公司 DeepMind 是由谷歌收購而來,直到今天仍在保持獨(dú)立運(yùn)營。DeepMind 從創(chuàng)立開始,就花費(fèi)大量精力在深度學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)上,目的是希望解決一些實(shí)際問題。
再就是,谷歌并非只做互聯(lián)網(wǎng),其也在做健康和藥物創(chuàng)新,因?yàn)樗煌5厝フ蚁乱粋€(gè)增長點(diǎn),而且 AlphaFold 團(tuán)隊(duì)本身就是 AlphaGo 班底,再加上谷歌也愿意燒錢,因此可以做成。這種成果現(xiàn)在越來越難誕生于高校,因?yàn)橐话愀咝:茈y有這樣的大算力、大數(shù)據(jù)和大團(tuán)隊(duì)。
陳子博也表示,和大眾普遍認(rèn)知相反的是,大公司往往比科研院所有著更好的資源,因?yàn)樗麄兛梢约懈鞣搅α?。而學(xué)術(shù)圈很難會(huì)有哪一個(gè)實(shí)驗(yàn)室,能像 DeepMind 一樣招來如此多的行業(yè)領(lǐng)先人物。