Alphafold可能成為第一個(gè)獲諾貝爾獎(jiǎng)的深度學(xué)習(xí)模型? 原創(chuàng) 精華
諾貝爾獎(jiǎng)主要頒給那些為人類做出巨大貢獻(xiàn)的人,我國(guó)的屠呦呦就因發(fā)現(xiàn)青蒿素在2015年獲得諾貝爾醫(yī)學(xué)獎(jiǎng)。
Alphafold不是某個(gè)人類科學(xué)家,它是Google DeepMind開(kāi)發(fā)的一個(gè)深度學(xué)習(xí)模型,它能夠預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
把諾獎(jiǎng)?lì)C給一個(gè)模型,你可能會(huì)覺(jué)得我危言聳聽(tīng)了,但如果你了解蛋白質(zhì)結(jié)構(gòu)的作用,你肯定會(huì)改變想法了。
一、蛋白質(zhì)合成過(guò)程
在此之前還是先簡(jiǎn)單了解下蛋白質(zhì)的合成過(guò)程。
蛋白質(zhì)是由氨基酸序列組成的,人體內(nèi)有21種氨基酸種類,但這21種氨基酸能夠構(gòu)成千萬(wàn)種蛋白質(zhì),但目前已知結(jié)構(gòu)的蛋白質(zhì)才2萬(wàn)個(gè)。
在人體細(xì)胞中,細(xì)胞核內(nèi)有一個(gè)帶有遺傳信息的分子叫DNA,DNA中包含構(gòu)造蛋白質(zhì)的指令。
RNA通過(guò)一個(gè)被稱為轉(zhuǎn)錄的過(guò)程復(fù)制DNA信息,這個(gè)帶有遺傳信息的RNA被稱為mRNA,mRNA穿過(guò)細(xì)胞核來(lái)到細(xì)胞質(zhì)內(nèi)。
細(xì)胞質(zhì)內(nèi)還一個(gè)叫做核糖體的東西,蛋白質(zhì)就是在這里合成的。
mRNA首先來(lái)到核糖體這里,細(xì)胞質(zhì)內(nèi)還有另一種RNA,叫做tRNA,tRNA一端是堿基對(duì),另一端是氨基酸,當(dāng)tRNA的堿基對(duì)和mRNA的堿基配對(duì)后,就會(huì)留下氨基酸,氨基酸就會(huì)串聯(lián)在一起,最后進(jìn)行折疊,形成一個(gè)3D結(jié)構(gòu)的蛋白質(zhì)。
蛋白質(zhì)合成是細(xì)胞分裂過(guò)程中的重要活動(dòng),細(xì)胞構(gòu)成組織,組織構(gòu)成器官。人體內(nèi)的很多酶也是由蛋白質(zhì)構(gòu)成的,人體的眼睛為什么能感光?肝臟為什么能造血?這都與具有某種結(jié)構(gòu)的蛋白質(zhì)有關(guān)。
所以,了解了蛋白質(zhì)的結(jié)構(gòu),也就知道了它的功能,進(jìn)而進(jìn)行疾病預(yù)防,藥物研發(fā),甚至發(fā)現(xiàn)遺傳密碼。
二、傳統(tǒng)分析蛋白質(zhì)折疊的方法
僅基于氨基酸序列預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)難度是巨大的,約有10的143次方種折疊方式,這比宇宙中的原子個(gè)數(shù)還要多。
傳統(tǒng)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法主要有以下幾種:
- 同源建模(Homology modeling):也稱為比較建?;蚰0寤A(chǔ)建模,基于蛋白質(zhì)的3D結(jié)構(gòu)比它們的氨基酸序列更為保守的假設(shè)。這種方法主要使用序列比對(duì)和分子建模技術(shù),通過(guò)已知結(jié)構(gòu)的同源蛋白來(lái)預(yù)測(cè)目標(biāo)蛋白的結(jié)構(gòu)。
- 從頭建模(De novo modeling):這是一種基于“第一原理”的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,不依賴于已知的蛋白質(zhì)結(jié)構(gòu),而是僅基于物理定律(量子力學(xué))生成目標(biāo)蛋白的3D結(jié)構(gòu)。從頭建模方法通過(guò)設(shè)計(jì)的能量函數(shù)引導(dǎo)構(gòu)象搜索,選擇具有最低能量的構(gòu)象。
- 基于機(jī)器學(xué)習(xí)(ML)的建模:這是一種利用ML算法和已知蛋白質(zhì)結(jié)構(gòu)來(lái)預(yù)測(cè)目標(biāo)蛋白質(zhì)結(jié)構(gòu)的策略。尤其是深度學(xué)習(xí)(DL)在這一領(lǐng)域取得了快速發(fā)展,DL基于大量數(shù)據(jù)和強(qiáng)大的計(jì)算能力,通過(guò)優(yōu)化算法來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
數(shù)百年來(lái),為了預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),需要借助磁共振核,X線等昂貴設(shè)備,同時(shí)需要消耗大量的時(shí)間進(jìn)行實(shí)驗(yàn)。
為了解決這個(gè)世紀(jì)難題,還成立了一個(gè)CASP挑戰(zhàn)賽。
目前公認(rèn)為,如果GDT達(dá)到85%就認(rèn)為解決了蛋白質(zhì)折疊世紀(jì)難題,如上圖所示,ALPHAFOLD2的效果已經(jīng)接近這個(gè)目標(biāo)。而它的前任也遠(yuǎn)超傳統(tǒng)方法。
三、Alphafold2
Alphafold2使用深度神經(jīng)網(wǎng)絡(luò)利用同源蛋白和多序列比對(duì)的信息從氨基酸序列生成蛋白質(zhì)結(jié)構(gòu)。
Github:https://github.com/google-deepmind/alphafold
論文:https://www.nature.com/articles/s41586-021-03819-2
Colab Notebook:https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
模型結(jié)構(gòu)
如下圖,首先根據(jù)輸入氨基酸序列和已知結(jié)構(gòu)蛋白質(zhì)數(shù)據(jù)庫(kù)生成MSA(多序列對(duì)比表示)和配對(duì)表示。
MSA表示和配對(duì)表示會(huì)被送入Evoformer,它實(shí)現(xiàn)了從輸入信息到蛋白質(zhì)的3D原子坐標(biāo)的轉(zhuǎn)換。
對(duì)于Alphafold2詳細(xì)信息,感興趣的可以去閱讀論文。
這里只是簡(jiǎn)單概述一下,模型的輸入是組成蛋白質(zhì)的氨基酸序列,輸出是PDB格式的數(shù)據(jù),用于表示蛋白質(zhì)3D結(jié)構(gòu)信息。模型則是采用當(dāng)下最流行的Transformer架構(gòu)。
MSA是將輸入蛋白質(zhì)氨基酸序列與已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行對(duì)比,目的是找到與之相似的,然后基于這個(gè)相似的蛋白質(zhì)結(jié)構(gòu)來(lái)預(yù)測(cè)輸入蛋白質(zhì)結(jié)構(gòu)。
為了造福人類,DeepMind將一些蛋白質(zhì)的預(yù)測(cè)結(jié)果收錄數(shù)據(jù)庫(kù)供其他組織或個(gè)人免費(fèi)使用。
??https://alphafold.ebi.ac.uk??
本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂
