AlphaFold2立功!清華團隊用深度學習增強新冠抗體,創(chuàng)AI里程碑
?2020年末,DeepMind開發(fā)的第二代深度學習神經(jīng)網(wǎng)絡AlphaFold 2的問世震驚了結(jié)構(gòu)生物學界。
AlphaFold解決了困擾科學家?guī)资甑牡鞍踪|(zhì)折疊問題。
最近的研究表明,AlphaFold開創(chuàng)的方法正在向更廣泛的生物學界蔓延。
在《美國國家科學院院刊》上發(fā)表的一篇論文 Deep learning guided optimization of human antibody against SARS-CoV-2 variants with broad neutralization。
論文中,科學家描述了修改一種已知的COVID-19抗體的方式,以提高其對多種疾病變體的療效。
地址:https://www.pnas.org/doi/10.1073/pnas.2122954119
科學家們寫道,「我們可以使抗體寬度以及sars-cov-2變體 (包括 Delta) 的效力提高10到600倍」。他們甚至發(fā)現(xiàn)了該方法可以對抗奧密克戎(Omicron)變體跡象的希冀。
深度學習增強新冠抗體
這項研究是由清華大學、伊利諾伊大學厄巴納-香檳分校和麻省理工學院的研究人員共同完成, 他們利用深度學習進行研究有兩個重要的原因。
一個是擴大所謂的搜索空間,即修改抗體的一組潛在解決方案?,F(xiàn)有的方法,例如隨機突變,雖然很有價值,但費時費力。
使用深度學習是一種自動化的方法,從而加快工作速度。
其次,像隨機突變這樣的方法可以在帶來好處的同時帶走抗體好的那一部分,結(jié)果可能不是最理想的。
通過使用深度學習的方法,作者希望擴展功效的同時保留已經(jīng)取得的成果。
圖嵌入注意程序,用于查找對預測結(jié)合親和力具有重要意義的殘基對
他們的方法采用了AlphaFold2的基本技術(shù): 一個圖形網(wǎng)絡,以及一種稱為注意力機制的變量處理方法
圖形網(wǎng)絡是指一些事物的集合可以根據(jù)它們之間的關(guān)系進行評估,比如社交網(wǎng)絡中的人。
AlphaFold 2利用蛋白質(zhì)的信息構(gòu)建了一個不同氨基酸之間距離的圖表。然后通過注意力機制操縱這些圖,計算每個氨基酸與另一個氨基酸的關(guān)系。
Shan和他的同事采取了同樣的方法,他們把這種方法應用到病毒的氨基酸、抗原以及抗體的氨基酸上。
他們將所謂的野生型與兩者的突變形式進行比較,以確定抗體與抗原的結(jié)合如何隨著野生型和突變型之間的氨基酸對的變化而變化。
為了訓練一個深度神經(jīng)網(wǎng)絡實現(xiàn)這一點,他們設置了一個目標。在機器學習領域被稱作目標函數(shù),該函數(shù)正是神經(jīng)網(wǎng)絡要復制的目標。
在這一例中,目標函數(shù)是自由能量的變化,即蛋白質(zhì)中的能量從野生型變到突變型,由希臘字母delta-delta、G和ΔΔG。
給定一個目標自由能,神經(jīng)網(wǎng)絡可以可靠地預測哪一組氨基酸配對的變化和目標自由能的變化最相符。
Shan和他的同事表示,為了評估變異對蛋白質(zhì)復合體的效果,我們首先通過重新包裝突變周圍的側(cè)鏈,預測了蛋白質(zhì)復合體的結(jié)構(gòu),之后解碼了野生型和突變型復合體,并利用該網(wǎng)絡來獲得野生型和突變型復合體的嵌入。
之后,通過額外的神經(jīng)網(wǎng)絡層和兩部分嵌入的比較來預測突變的影響(用ΔΔG衡量)。
雖然Shan和他的團隊提到了AlphaFold2,他們也使用了AlphaFold2所使用的方法,但他們沒用DeepMind的代碼。
麻省理工學院的Bonnie Berger是該研究的聯(lián)合作者,他表示,「關(guān)于ΔΔG預測器的研究完全是從零開始的。」
因為ΔΔG預測器和AlphaFold2都是開源的,每個人都可以親自去體驗,去看看二者的比較。ΔΔG預測器的代碼在GitHub,AlphaFold2的代碼在它自己的網(wǎng)站。
在訓練神經(jīng)網(wǎng)絡預測重要的抗體和抗原之后,作者們從新型冠狀病毒的α、β和γ版本中找到抗體已經(jīng)成功的證據(jù),并據(jù)此開始進行反向工作。
他們使用這些數(shù)據(jù)來預測哪些突變的抗體能夠延長療效。
作者表示,我們的辦法生成了一個用電腦模擬的抗體CDR的突變庫,通過訓練幾何中立網(wǎng)絡進行排序。這樣不僅能提高抗體和Delta RBD的結(jié)合,還能維持抗體和其它所關(guān)注變體的RBD的結(jié)合。
CDR,全稱為互補性決定區(qū),是和抗原結(jié)合的一部分或是抗體。RBD,全稱為受體結(jié)合區(qū),是病毒上的重要靶點。
研究人員得到了雙重、三重,甚至四重的變異抗體。他們在實驗室里用合成的病毒來測試這些抗體。他們發(fā)現(xiàn),隨著突變的合成,降低抗原濃度的效果越來越強。
他們得出結(jié)論,認為存在一種物質(zhì)能更好的讓突變抗體和病毒相結(jié)合。
他們寫道,「有三到四次突變的抗體HX001-020、HX001-033和HX001-034也比有兩次突變的HX001-034要強。親合力的提高可能會讓這些抗體的中和活性在遇到非典或新冠的野生病毒或變體病毒時增加?!?/span>
有一個引人深思的發(fā)現(xiàn)是,一個突變的抗體能夠避免病毒的突變,其目的是提高效率。在一份結(jié)構(gòu)分析中,他們發(fā)現(xiàn)原始抗體的一部分和抗原的一個特定部分擦肩而過,二者相互排斥。
這是因為抗體的粒子R103和抗原的粒子R436都有非常長的側(cè)鏈,并且都攜帶正電子,這兩種粒子之間的親和性會產(chǎn)生一種強大的推力,這股力量會削弱抗體和抗原之間的結(jié)合度。
科學家們替換普通的抗體粒子之后,就觀察不到R346和Delta RBD的直接作用了。該因素也許能解釋針對Delta變體的中和效果為什么能夠大大改善。
作者們在研究的抗體正好是由Shan和他的同事們?nèi)ツ暌氲?。這一事實讓整個研究變得更加有趣。
名叫P36-5D2的抗體是從一名患過新冠病毒的康復患者的血清中提取出來的。Shan和他的團隊通過動物模型研究,發(fā)現(xiàn)這種抗體是一種適用面廣、有效、具有保護性的抗體。
因此,這項新研究標志著人工智能領域的一個里程碑。即借助電腦,把傳統(tǒng)的生物產(chǎn)品進行改進,從而擴展傳統(tǒng)的生物安全實驗室治療傳染性疾病的辦法。
AlphaFold足以改變?nèi)祟悾?/span>
2021年年底,人工智能預測蛋白質(zhì)結(jié)構(gòu)AlphaFold被評Science評為2021十大科學突破之首。
人工智能正在催生新的科研范式,AI for Science已經(jīng)成為許多科學家的共識。
長期以來,蛋白質(zhì)都是生命科學工作者研究的重點。
因為蛋白質(zhì)是生命活動的主要承擔者,甚至毫不夸張的說,沒有蛋白質(zhì)就沒有生命。
而其中,蛋白質(zhì)的結(jié)構(gòu)更是眾多生命科學工作者研究的熱點,畢竟其主要功能是由結(jié)構(gòu)決定的。
2020年,AlphaFold2的問世成為生物學界海嘯級的地震。
緊接著DeepMind開源了AlphaFold2,并能夠預測出98.5%的蛋白質(zhì)結(jié)構(gòu),讓學術(shù)圈再次沸騰。
不僅如此,研究人員還將其做成了數(shù)據(jù)集,將其免費開放。
對蛋白質(zhì)進行系統(tǒng)深入的研究,能讓人類從更深層次詮釋生命體的構(gòu)成和運作變化規(guī)律,進而全面揭示生命運行、發(fā)展的機制,激發(fā)生物科學、藥物研發(fā)、合成生物學方面的發(fā)展。
另一方面,將人工智能方法應用到蛋白質(zhì)預測,可以讓科研人員從中得到許多借鑒,站在神經(jīng)網(wǎng)絡與深度學習的技術(shù)巨人的肩膀上,推動生物界的發(fā)展與研究。
「AI+生物」團隊強強聯(lián)合
可以說,清華這個「AI+生物」的打造,是當前新冠中和抗體研究打造的最佳團隊。
它充分利用了清華大學的校內(nèi)科研資源優(yōu)勢,聯(lián)合清華大學醫(yī)學院與清華大學智能產(chǎn)業(yè)研究院(AIR),進行強強聯(lián)合,「AI+生物」集中攻關(guān)。
張林琦教授,來自清華大學醫(yī)學院,是該研究的領銜人物之一。
此前,張林琦教授一直致力于挖掘新冠免疫保護機制,開創(chuàng)藥物和疫苗研發(fā)。
據(jù)清華大學醫(yī)學院官網(wǎng)介紹,張林琦教授于1992年獲得英國愛丁堡大學分子病毒學博士學位,之后在美國紐約大學和洛克菲勒大學擔任助理教授和副教授,2007年全職任教于清華大學,現(xiàn)為清華大學醫(yī)學院長聘教授,北京協(xié)和醫(yī)學院兼職教授,博士生導師,清華大學艾滋病綜合研究中心主任。
張林琦教授是首位中國籍非洲科學院院士,于2016年當選。
2014年非洲爆發(fā)了大規(guī)模的埃博拉病毒,作為國內(nèi)外傳染病研究專家,張林琦教授帶著一名研究人員的初心和使命,致力于病毒研究。
然而,新冠病毒的肆虐遠比我們想象地要猖狂!
面對這樣的困境,研究人員毫不畏縮,大膽嘗試,將計算機科學前沿成果與研究方法運用到傳統(tǒng)生物研究上。
彭健,清華大學智能產(chǎn)業(yè)研究院高級訪問教授,同樣是該研究的領銜人物之一。
彭健博士的主要研究領域為信息學,他從生物化學領域找到了學科交叉點,在生物信息學、化學信息學和機器學習方面,包括蛋白質(zhì)結(jié)構(gòu)預測技術(shù)的關(guān)鍵測試(CASP),及轉(zhuǎn)化醫(yī)學和藥物基因組學的DREAM 挑戰(zhàn)等,取得了備受矚目的成就。
清華AIR引領人工智能賦能生命科學,這是吸引彭健博士加入清華大學智能產(chǎn)業(yè)研究院的重要原因
此前,彭健于2013年獲芝加哥大學豐田技術(shù)學院計算機科學博士,接著,在MIT計算機科學與人工智能實驗室從事博士后研究,然后,擔任美國伊利諾伊大學厄巴納-香檳分校計算機科學系副教授。
彭健說:「交叉學科人才的培養(yǎng)尤其重要」!這不,加入不到1年時間,就已開花結(jié)果。?