南開&山大&北理工團隊開發(fā)trRosettaRNA:利用Transformer網(wǎng)絡(luò)自動預(yù)測RNA 3D結(jié)構(gòu)
RNA 3D 結(jié)構(gòu)預(yù)測是一個長期存在的挑戰(zhàn)。
受最近蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域突破的啟發(fā),南開大學(xué)、山東大學(xué)以及北京理工大學(xué)的研究團隊開發(fā)了 trRosettaRNA,這是一種基于深度學(xué)習(xí)的自動化 RNA 3D 結(jié)構(gòu)預(yù)測方法。
trRosettaRNA 流程包括兩個主要步驟:通過transformer網(wǎng)絡(luò)進行 1D 和 2D 幾何形狀預(yù)測;以及通過能量最小化進行的 3D 結(jié)構(gòu)折疊?;鶞蕼y試表明 trRosettaRNA 優(yōu)于傳統(tǒng)的自動化方法。
在 CASP15 和 RNA-Puzzles 實驗的盲測中,對天然 RNA 的自動 trRosettaRNA 預(yù)測與人類的頂級預(yù)測具有競爭力。當通過均方根偏差的 Z 分數(shù)進行測量時,trRosettaRNA 的性能也優(yōu)于 CASP15 中其他基于深度學(xué)習(xí)的方法。
該研究以「trRosettaRNA: automated prediction of RNA 3D structure with transformer network」為題,于 2023 年 11 月 9 日發(fā)布在《Nature Communications》。
學(xué)界對 RNA 3D 結(jié)構(gòu)預(yù)測的需求與日俱增
核糖核酸(RNA)是活細胞中最重要的功能分子類型之一。它參與許多基本的生物和細胞過程,例如,作為遺傳信息的轉(zhuǎn)錄本,發(fā)揮催化、支架和結(jié)構(gòu)功能。過去幾十年來,隨著每年新型 ncRNA 的發(fā)現(xiàn),人們對非編碼 RNA (ncRNA),例如轉(zhuǎn)移 RNA (tRNA) 和核糖體 RNA (rRNA),結(jié)構(gòu)和功能的興趣與日俱增。
與蛋白質(zhì)類似,ncRNA 分子的生物學(xué)功能通常由其 3D 結(jié)構(gòu)決定。然而,由于靈活的主鏈和弱的長程三級相互作用引起的內(nèi)在結(jié)構(gòu)異質(zhì)性,通過實驗解決RNA的結(jié)構(gòu)比蛋白質(zhì)更具挑戰(zhàn)性。例如,蛋白質(zhì)數(shù)據(jù)庫 (PDB) 中僅存放了約 6000 個 RNA 結(jié)構(gòu),遠少于存放的蛋白質(zhì)結(jié)構(gòu)的數(shù)量(約 190,000 個)。因此,迫切需要開發(fā)有效的算法來預(yù)測 RNA 3D 結(jié)構(gòu)。
當前 RNA 3D 結(jié)構(gòu)預(yù)測仍有巨大挑戰(zhàn)
目前的 RNA 3D結(jié)構(gòu)預(yù)測方法可以分為兩類:基于模板的方法和從頭方法?;谀0宓姆椒ㄊ褂?PDB 中的同源模板來預(yù)測目標結(jié)構(gòu)。例如,ModeRNA 和 MMB 等代表性方法通過減少同源結(jié)構(gòu)的采樣空間來工作。一般來說,當PDB中存在同源模板時,基于模板的方法預(yù)測的結(jié)構(gòu)模型是準確的。然而,由于已知RNA結(jié)構(gòu)的數(shù)量有限以及RNA序列比對的困難,基于模板的方法進展緩慢。
相反,從頭方法通過從頭開始模擬折疊過程來構(gòu)建 3D 構(gòu)象。通過分子動力學(xué)模擬或片段組裝,F(xiàn)ARNA5、FARFAR、FARFAR2、SimRNA、iFoldRNA、RNAComposer 和 3dRNA 等方法對于某些小 RNA(<100 個核苷酸)效果良好。然而,由于不準確的力場參數(shù)和巨大的采樣空間,很難為具有復(fù)雜拓撲的大RNA生成精確的3D結(jié)構(gòu)。為了部分解決這個問題,通過直接耦合分析(DCA)預(yù)測的核苷酸間接觸已被用來指導(dǎo)結(jié)構(gòu)模擬。
此外,考慮到 RNA 結(jié)構(gòu)折疊的層次性質(zhì),一些方法從二級結(jié)構(gòu)衍生出 3D 結(jié)構(gòu),例如 Vfold 和 MC-Fold。它們非???,但建模精度很大程度上取決于輸入二級結(jié)構(gòu)的質(zhì)量。RNA-Puzzles 實驗表明,準確預(yù)測具有復(fù)雜結(jié)構(gòu)的大 RNA 的結(jié)構(gòu)仍然是一個巨大的挑戰(zhàn)。
深度學(xué)習(xí)用于 RNA 3D 結(jié)構(gòu)預(yù)測
深度學(xué)習(xí)最近被用來改進從頭 RNA 3D 結(jié)構(gòu)預(yù)測。殘差卷積網(wǎng)絡(luò)(ResNet)預(yù)測的核苷酸間接觸比 DCA 準確約兩倍,在一定程度上改善了 3D 結(jié)構(gòu)預(yù)測。結(jié)果表明,通過從基于幾何深度學(xué)習(xí)的評分系統(tǒng) (ARES) 中選擇模型,F(xiàn)ARFAR2 協(xié)議在 RNA-Puzzles 實驗的盲測中預(yù)測了四個目標的最準確模型。受 AlphaFold2 成功的啟發(fā),科學(xué)家開發(fā)了一些新的基于深度學(xué)習(xí)的方法,例如 DeepFoldRNA、RoseTTAFoldNA 和 RhoFold。
在最新的工作中,南開大學(xué)、山東大學(xué)以及北京理工大學(xué)的研究團隊開發(fā)了 trRosettaRNA,一種基于深度學(xué)習(xí)的自動化 RNA 3D 結(jié)構(gòu)預(yù)測方法。它的部分靈感來自于深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的成功應(yīng)用,特別是在 AlphaFold2 和 trRosetta 中。基準測試和盲測表明 trRosettaRNA 有希望增強 RNA 結(jié)構(gòu)預(yù)測。
trRosettaRNA 的結(jié)構(gòu)如圖 1 所示。從 RNA 的核苷酸序列開始,首先分別通過程序 rMSA 和 SPOT-RNA 生成多重序列比對 (MSA) 和二級結(jié)構(gòu)。然后將它們轉(zhuǎn)換為 MSA 表示和配對表示,然后將其輸入 transformer 網(wǎng)絡(luò)(名為 RNAformer)以預(yù)測 1D 和 2D 幾何形狀。與 trRosetta 類似,這些幾何形狀被轉(zhuǎn)換為約束,以指導(dǎo)基于能量最小化的 3D 結(jié)構(gòu)折疊的最后步驟。除非另有說明,下面提到的 RMSD 是通過使用 RNA-Puzzles 社區(qū)提供的評估工具包考慮所有原子來計算的。
圖1:trRosettaRNA 的總體架構(gòu)。(來源:論文)
研究人員使用兩個獨立的數(shù)據(jù)集和兩個盲測對 trRosettaRNA 進行了嚴格評估?;鶞蕼y試表明,trRosettaRNA 預(yù)測的模型比其他自動化方法更準確。trRosettaRNA 在兩個實驗中進行了盲評估:RNA-Puzzles(3 個目標)和 CASP15(12 個目標)。RNA-Puzzles 實驗表明,trRosettaRNA 的自動預(yù)測與人類對三分之二目標的預(yù)測具有競爭力。CASP15 實驗表明,trRosettaRNA 在基于 RMSD 的累積 Z 分數(shù)方面優(yōu)于其他基于深度學(xué)習(xí)的方法。該方法在 8 種天然 RNA 上達到了與頂級人類群體相當?shù)臏蚀_性,盡管沒有任何人為干預(yù)。
局限性與未來
然而,研究人員注意到 CASP15 盲測中天然 RNA 的平均 RMSD(第一個模型為 14.8??)高于兩個基準數(shù)據(jù)集 RNA 的平均 RMSD (30 個獨立 RNA 為 8.5??,之前 20 個 RNA-Puzzles 靶標為 10.5??)。
建模準確性的差異可以通過目標難度和新穎性來解釋。
(1)目標難度。大多數(shù)CASP15 RNA表現(xiàn)出高度的靈活性,可以采用多種構(gòu)象(R1116和R1117除外)。此外,還有兩個二聚體(R1107、R1108)和兩個具有許多單鏈區(qū)域的蛋白質(zhì)結(jié)合RNA(R1189、R1190)。這些特征對 SPOT-RNA 預(yù)測可信二級結(jié)構(gòu)提出了挑戰(zhàn)。為了說明這一點,與 20 個 RNA-Puzzles 目標相比,來自 CASP15 的 8 個天然 RNA 的 SPOT-RNA 預(yù)測二級結(jié)構(gòu)的平均 F1 分數(shù)要低得多(分別為 0.62 和 0.72)。
(2)目標新穎。非冗余基準數(shù)據(jù)集中的很大一部分 RNA(三分之二,30 個中的 20 個)與之前已知的 RNA 表現(xiàn)出高度相似性 (TM-scoreRNA?>?0.6),這使得它們很容易通過數(shù)據(jù)驅(qū)動方法(如 trRosettaRNA)進行預(yù)測。相反,CASP15 的 RNA 沒有表現(xiàn)出如此程度的相似性。
這反映了與 trRosettaRNA 和該研究中采用的基準測試相關(guān)的局限性。首先,trRosettaRNA 的性能容易受到預(yù)測二級結(jié)構(gòu)質(zhì)量的影響。其次,盡管 trRosettaRNA 在內(nèi)部基準測試中實現(xiàn)了令人鼓舞的準確性,但其在新型 RNA 上的性能仍然有限。此外,合成 RNA 的自動結(jié)構(gòu)預(yù)測仍然具有挑戰(zhàn)性。
CASP15 實驗中的盲測表明,RNA 結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)方法仍處于起步階段。然而,隨著持續(xù)發(fā)展,深度學(xué)習(xí)應(yīng)該有望推進 RNA 結(jié)構(gòu)預(yù)測。將基于物理的建模融入深度學(xué)習(xí)是未來改進的方向之一。
最直接的替代方案之一是將其與其他傳統(tǒng)方法相結(jié)合,并針對未來那些代表性不足的 RNA 結(jié)構(gòu)優(yōu)化算法。例如,為了克服對已知 RNA 折疊的偏見,可以利用神經(jīng)網(wǎng)絡(luò)(例如基于物理的神經(jīng)網(wǎng)絡(luò))來學(xué)習(xí)力場或識別/組裝局部圖案,而不是直接預(yù)測全局 3D 結(jié)構(gòu)。
源代碼:https://yanglab.qd.sdu.edu.cn/trRosettaRNA
論文鏈接:https://www.nature.com/articles/s41467-023-42528-4