無(wú)限的可能性 NVIDIA生成式AI模型加速合成蛋白質(zhì)
過(guò)去兩年,機(jī)器學(xué)習(xí)徹底改變了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。而現(xiàn)在,人工智能又在蛋白質(zhì)設(shè)計(jì)領(lǐng)域引發(fā)了新一輪革命。
自從AI問(wèn)世以來(lái),眾多科學(xué)家們就加入了利用它來(lái)進(jìn)行蛋白質(zhì)研究的賽道。生物學(xué)家發(fā)現(xiàn),使用機(jī)器學(xué)習(xí),可以在幾秒鐘內(nèi)創(chuàng)建出蛋白質(zhì)分子。而在以前,這個(gè)時(shí)間也許是幾個(gè)月。
近日,初創(chuàng)企業(yè)Evozyne使用NVIDIA提供的預(yù)訓(xùn)練AI模型,創(chuàng)造了兩種在醫(yī)療和清潔能源領(lǐng)域具有重大潛力的蛋白質(zhì)。其中一種蛋白質(zhì)用于治療一種先天性疾病,另一種用于消耗二氧化碳以減少全球變暖。
這樣科學(xué)家使用NVIDIA BioNeMo創(chuàng)建出能夠生成高質(zhì)量蛋白質(zhì)的大型語(yǔ)言模型,以此加快藥物研發(fā)并助力創(chuàng)造更具可持續(xù)性的環(huán)境。
加速藥物研發(fā)的新方法
Evozyne聯(lián)合創(chuàng)始人、論文共同作者Andrew Ferguson表示: “令人欣喜的是,這個(gè)AI模型第一輪產(chǎn)出的合成蛋白質(zhì)就像自然生成的蛋白質(zhì)一樣,表示該模型已經(jīng)學(xué)會(huì)了自然界的設(shè)計(jì)規(guī)則。”
Evozyne使用了NVIDIA的ProtT5。ProtT5是一個(gè)Transformer模型,是用于創(chuàng)建醫(yī)療AI模型的軟件框架和服務(wù)——NVIDIA BioNeMo的一部分。
分子工程師Ferguson的研究領(lǐng)域涵蓋化學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,他表示:“BioNeMo非常強(qiáng)大,讓我們能夠訓(xùn)練模型,然后以非常低的成本使用該模型來(lái)運(yùn)行工作任務(wù),在幾秒鐘內(nèi)就能生成數(shù)百萬(wàn)個(gè)序列。該模型預(yù)測(cè)了如何組裝出能夠滿足Evozyne需求的新蛋白質(zhì)?!?/p>
該模型是Evovyne ProT-VAE流程的核心。Evozyne的ProT-VAE流程將NVIDIA BioNeMo中強(qiáng)大的Transformer模型與變分自編碼器(VAE)相結(jié)合。
他表示:“幾年前,還沒(méi)有人注意到可以使用大型語(yǔ)言模型與變分自編碼器相結(jié)合的方式來(lái)設(shè)計(jì)蛋白質(zhì)?!?/p>
相比之下,Evozyne的方法只通過(guò)一輪,就能改變一個(gè)蛋白質(zhì)中半數(shù)乃至以上的氨基酸。這相當(dāng)于進(jìn)行了數(shù)百次的突變。
Evozyne數(shù)據(jù)科學(xué)家Joshua Moller表示: “他們通過(guò)將工作擴(kuò)展到多個(gè)GPU來(lái)加快訓(xùn)練速度。
這將訓(xùn)練大型 AI 模型的時(shí)間從幾個(gè)月縮短到一個(gè)星期。Ferguson表示:“所以我們能夠訓(xùn)練出原本不可能訓(xùn)練出的模型,比如一些有數(shù)十億可訓(xùn)練參數(shù)的模型?!?/p>
革命性的AI模型
傳統(tǒng)的蛋白質(zhì)工程設(shè)計(jì)方法,即定向進(jìn)化,采用的是一種緩慢、無(wú)計(jì)劃的方法,通常一次只改變幾個(gè)氨基酸的序列。而機(jī)器學(xué)習(xí)有助于研究海量可能的氨基酸組合,然后有效地識(shí)別最有用的序列。
BioNeMo是一款基于NVIDIA NeMo Megatron構(gòu)建的AI賦能藥物研發(fā)云服務(wù)和框架,用于在超級(jí)計(jì)算規(guī)模下訓(xùn)練和部署大型生物分子Transformer AI模型。服務(wù)包括預(yù)訓(xùn)練LLM、對(duì)蛋白質(zhì)、DNA、RNA和化學(xué)的通用文件格式的原生支持,還提供可供SMILES(用于分子結(jié)構(gòu))和FASTA(用于氨基酸和核苷酸序列)使用的數(shù)據(jù)加載器。
借助BioNeMo,科學(xué)家可以開(kāi)始為UniRef50和ZINC數(shù)據(jù)庫(kù)輕松使用預(yù)訓(xùn)練模型、自動(dòng)下載器和預(yù)處理器。借助無(wú)監(jiān)督式結(jié)構(gòu)化學(xué)習(xí)者,各種模型、嵌入和輸出得以結(jié)合,將多模態(tài)數(shù)據(jù)組合在一起。無(wú)監(jiān)督式預(yù)訓(xùn)練還消除了對(duì)已標(biāo)記數(shù)據(jù)的需求,從而快速生成已學(xué)習(xí)的嵌入,預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)、功能、細(xì)胞位置、水溶性、膜結(jié)合性、保存區(qū)域和可變區(qū)域等。
其中,MegaMolBART是一種使用14億個(gè)分子(SMILES字符串)進(jìn)行訓(xùn)練的生成化學(xué)模型,可用于多種化學(xué)信息學(xué)應(yīng)用。而且BioNeMo提供了ProtT5和ESM1-85M等基于 Transformer 的蛋白質(zhì)語(yǔ)言模型。
BioNeMo還提供OpenFold,這是一種用于預(yù)測(cè)新型蛋白質(zhì)序列 3D 結(jié)構(gòu)的深度學(xué)習(xí)模型。
NVIDIA的Transformer模型會(huì)讀取數(shù)百萬(wàn)種蛋白質(zhì)中的氨基酸序列。該模型運(yùn)用神經(jīng)網(wǎng)絡(luò)用來(lái)理解文本的技術(shù),學(xué)會(huì)了大自然如何構(gòu)建蛋白質(zhì)氨基酸序列。
展望未來(lái),使用AI加速蛋白質(zhì)工程的前景十分廣闊。人工設(shè)計(jì)出來(lái)的蛋白質(zhì)相對(duì)于自然界中原本就存在的蛋白質(zhì)而言,更加穩(wěn)定,在沒(méi)有能量或高溫等極端情況下,也能實(shí)現(xiàn)它的某項(xiàng)功能。
此外,也可以用人工智能來(lái)設(shè)計(jì)氨基酸序列,使其與主干相符,用于改善酶、抗體等特定蛋白的穩(wěn)定性。人工智能技術(shù)對(duì)于不同大小、不同構(gòu)象的蛋白質(zhì)設(shè)計(jì)起到了非常重要的作用,未來(lái)還可幫助設(shè)計(jì)更多、更有用的蛋白質(zhì),包括可用于減少污染、改善環(huán)境的新的生物材料。