AI可以改寫人類基因組嗎?首次由AI從頭設(shè)計(jì)的基因編輯器成功編輯人類細(xì)胞中DNA
生成式 AI 可以對(duì)話、寫詩(shī)、畫圖、做視頻、作曲、寫代碼......
那么,AI 可以改寫人類基因組嗎?
現(xiàn)在,新的 AI 技術(shù)正在為可編輯 DNA 的微觀生物機(jī)制繪制藍(lán)圖,這預(yù)示著未來(lái)科學(xué)家將以更高的精度和速度對(duì)抗疾病。
近日,美國(guó) AI 蛋白質(zhì)設(shè)計(jì)初創(chuàng)公司 Profluence 推出了 OpenCRISPRTM 計(jì)劃,發(fā)布了世界上第一個(gè)開(kāi)源的 AI 生成的基因編輯器。
Profluence 展示了通過(guò) AI 從頭開(kāi)始設(shè)計(jì)的可定制基因編輯器,對(duì)人類基因組的首次成功精確編輯。
該技術(shù)基于驅(qū)動(dòng) ChatGPT 的相同方法。正如 ChatGPT 通過(guò)分析維基百科文章、書籍和聊天記錄來(lái)學(xué)習(xí)生成語(yǔ)言一樣,Profluent 的技術(shù)在分析大量生物數(shù)據(jù),包括科學(xué)家已經(jīng)用來(lái)編輯人類 DNA 的微觀機(jī)制,然后創(chuàng)建了新的基因編輯器。
相關(guān)研究以「Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences」為題,于 2024 年 4 月 22 日發(fā)布在預(yù)印平臺(tái) bioRxiv 上。
論文鏈接:https://doi.org/10.1101/2024.04.22.590591
OpenCRISPR-1 是一款 AI 創(chuàng)建的基因編輯器,由類似 Cas9 的蛋白質(zhì)和引導(dǎo) RNA 組成,完全使用 Profluence 的大語(yǔ)言模型 (LLM) 開(kāi)發(fā)。
通過(guò) OpenCRISPR 的訓(xùn)練過(guò)程,該公司的 AI 從大規(guī)模序列和生物背景中學(xué)習(xí),生成數(shù)百萬(wàn)種自然界中不存在的多種 CRISPR 類蛋白質(zhì),從而以指數(shù)方式擴(kuò)展了幾乎所有已知的 CRISPR 家族。
OpenCRISPR-1 的結(jié)構(gòu)分析。
為了實(shí)現(xiàn)技術(shù)民主化,Profluence 推出了 OpenCRISPR-1 作為初始開(kāi)源版本,使 AI 設(shè)計(jì)的基因編輯器可以免費(fèi)獲得倫理研究和商業(yè)用途的許可。
Profluence 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Ali Madani 表示:
「嘗試用 AI 設(shè)計(jì)的生物系統(tǒng)編輯人類 DNA 是一項(xiàng)科學(xué)登月計(jì)劃。我們的成功預(yù)示著未來(lái),AI 可以精確設(shè)計(jì)所需的內(nèi)容,來(lái)創(chuàng)造一系列定制的疾病療法。為了刺激基因編輯領(lǐng)域的創(chuàng)新和民主化,以推動(dòng)未來(lái)向前發(fā)展,我們正在開(kāi)源該計(jì)劃的產(chǎn)品?!?/p>
探索全部蛋白序列變異,AI 只需幾小時(shí)
到目前為止,蛋白質(zhì)工程界通常依靠基于發(fā)現(xiàn)的方法來(lái)從自然界復(fù)制功能性蛋白質(zhì),或通過(guò)稱為定向進(jìn)化的過(guò)程進(jìn)行迭代修改。許多轉(zhuǎn)化蛋白都是偶然發(fā)現(xiàn)的。
CRISPR-Cas9 基因編輯系統(tǒng)的核心組成部分是 Cas9 蛋白,它是一種 RNA 引導(dǎo)的核酸酶,可以搜索人類基因組中的全部 30 億個(gè)核苷酸,并僅在一個(gè)特定位點(diǎn)進(jìn)行切割。
這種核酸酶與單向?qū)?RNA(sgRNA)結(jié)合在一起,sgRNA 由一個(gè)支架組成,它在結(jié)構(gòu)上與蛋白質(zhì)相互作用,間隔序列可以被編程為靶向基因組中的任何位置。
CRISPR-Cas 圖譜的形成。
鑒于大多數(shù) Cas9 蛋白的長(zhǎng)度超過(guò) 1000 個(gè)氨基酸,總體設(shè)計(jì)空間包含 20^1000 個(gè)可能的序列,這比可觀測(cè)宇宙中的原子數(shù)量多幾個(gè)數(shù)量級(jí)。然而,由于這些蛋白質(zhì)必須以精確的順序協(xié)調(diào)許多相互作用才能實(shí)現(xiàn)精確切割,因此即使是單個(gè)錯(cuò)誤的突變也可以完全破壞蛋白質(zhì)功能。
通過(guò)實(shí)驗(yàn)探索所有可能的序列變異需要很多很多的時(shí)間,但在幾個(gè)小時(shí)內(nèi),AI 系統(tǒng)就可以在這個(gè)搜索空間中導(dǎo)航從而發(fā)現(xiàn)功能性基因編輯器。
語(yǔ)言模型生成多種 CRISPR-Cas 蛋白
生成蛋白質(zhì)語(yǔ)言模型通常是在涵蓋廣泛功能的大型、多樣化的天然蛋白質(zhì)序列數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。它們可以生成反映天然蛋白質(zhì)特性的真實(shí)蛋白質(zhì)序列。然而,對(duì)于特定的應(yīng)用,例如新型基因編輯器的生成,我們需要引導(dǎo)生成特定的感興趣的蛋白質(zhì)家族。
為此,Profluence 的研究團(tuán)隊(duì)進(jìn)行了詳盡的數(shù)據(jù)挖掘,來(lái)構(gòu)建迄今為止最廣泛的 CRISPR 系統(tǒng)數(shù)據(jù)集。將此資源稱為 CRISPR-Cas Atlas。
總而言之,研究發(fā)現(xiàn)了 510 萬(wàn)個(gè) CRISPR-Cas 蛋白,將這些系統(tǒng)的已知自然多樣性總體擴(kuò)展了 2.7 倍,特別是 Cas9 擴(kuò)展了 4.1 倍。
為了生成新型 CRISPR-Cas 蛋白質(zhì),研究人員在 CRISPR-Cas Atlas 上訓(xùn)練了蛋白質(zhì)語(yǔ)言模型。從這個(gè)模型中生成了 400 萬(wàn)個(gè)序列,并使用生物信息學(xué)技術(shù)去除簡(jiǎn)并序列并鑒定每個(gè)生成的蛋白質(zhì)屬于哪個(gè) CRISPR-Cas 家族。與 CRISPR-Cas Atlas 中發(fā)現(xiàn)的天然蛋白質(zhì)相比,這組過(guò)濾后的生成序列的多樣性擴(kuò)大了 4.8 倍。
通過(guò)蛋白質(zhì)簇的數(shù)量來(lái)衡量,生成的序列極大地?cái)U(kuò)展了 CRISPR 相關(guān)蛋白質(zhì)家族的多樣性。
生成的基因編輯器在人類細(xì)胞中發(fā)揮作用
研究人員進(jìn)一步將注意力集中在 CRISPR-Cas9 系統(tǒng)上,并根據(jù) CRISPR-Cas 圖譜中的 238,917 個(gè) Cas9 蛋白訓(xùn)練了蛋白質(zhì)語(yǔ)言模型。
鑒于 SpCas9 的廣泛采用和臨床成功,使用模型來(lái)生成可與 SpCas9 互操作的 Cas9 類蛋白。換句話說(shuō),它們結(jié)合基因組的相同部分(PAM)并與相同的 sgRNA 兼容;因此,它們可用于相同的應(yīng)用程序。
然后,從這些生成的序列中選擇了 48 個(gè),用于對(duì)人類細(xì)胞進(jìn)行嚴(yán)格的功能表征。OpenCRISPR-1 在靶標(biāo)位點(diǎn)上的活性與 SpCas9 相當(dāng)(OpenCRISPR-1 的編輯為 55.7%,SpCas9 的編輯為 48.3%),但令人驚訝的是,脫靶位點(diǎn)的編輯減少了 95%(OpenCRISPR-1 的編輯率為 0.32%,而 SpCas9 的編輯率為 6.1%)。
此外,OpenCRISPR-1 是一種高度新穎的蛋白質(zhì):它距離 SpCas9 有 403 個(gè)突變,距離 CRISPR-Cas 圖譜中的任何天然蛋白質(zhì)有 182 個(gè)突變。
多種生成的核酸酶(綠色),包括 OpenCRISPR-1(深綠色),具有與 SpCas9(藍(lán)色)相當(dāng)或更高的在靶活性,但脫靶活性低得多。
接下來(lái),研究證明,當(dāng)與脫氨酶配對(duì)時(shí),OpenCRISPR-1 和 SpCas9 在精確編輯靶標(biāo)基因組中的單個(gè)堿基時(shí)具有相似的活性和特異性。此外,能夠通過(guò)使用另一個(gè)經(jīng)過(guò) Profluence 訓(xùn)練的蛋白質(zhì)語(yǔ)言模型生成的脫氨酶來(lái)保持堿基編輯活性,同時(shí)提高特異性。
當(dāng)使用 ABE8.20(一種高活性工程脫氨酶)以及研究生成的脫氨酶 PF-DEAM-1 和 PF-DEAM-2 進(jìn)行堿基編輯時(shí),OpenCRISPR-1 的功能與 SpCas9 非常相似。
最后,為了進(jìn)一步優(yōu)化生成的核酸酶的活性,研究人員還訓(xùn)練了一個(gè)模型來(lái)為任何給定的 Cas9 類蛋白生成兼容的 sgRNA。與 SpCas9 的 sgRNA 相比,這些生成的 sgRNA 可以提高所測(cè)試的 5 種蛋白質(zhì)中的 4 種生成的核酸酶的活性。
對(duì)于測(cè)試的 5 種生成的核酸酶中的 4 種,使用模型生成的 sgRNA 提高了編輯效率。
OpenCRISPR-1 只是冰山一角
研究展示了世界上首次使用基因編輯系統(tǒng)成功編輯人類基因組,其中每個(gè)組件都完全由 AI 設(shè)計(jì)。
此外,平臺(tái)能夠隨意生成更多的基因編輯系統(tǒng);OpenCRISPR-1 只是冰山一角。
團(tuán)隊(duì)公開(kāi)發(fā)布了 OpenCRISPR-1,促進(jìn)在研究和商業(yè)應(yīng)用中廣泛、合乎道德的使用。在向更廣泛的社區(qū)提供這種分子的過(guò)程中,研究人員希望降低基于 CRISPR 的技術(shù)的治療、農(nóng)業(yè)和科學(xué)應(yīng)用的成本和進(jìn)入門檻。
Profluence 副總裁兼基因編輯主管 Peter Cameron 表示:「這是一個(gè)分水嶺,也是我們希望在著手構(gòu)建下一代基因藥物時(shí)迭代過(guò)程的開(kāi)始。我們鼓勵(lì)基因編輯社區(qū)對(duì) OpenCRISPR-1 進(jìn)行壓力測(cè)試。如果有可以針對(duì)特定應(yīng)用進(jìn)行改進(jìn)的特定功能,我們想知道,并可以合作優(yōu)化這些特性?!?/span>