DeepMind再迎挑戰(zhàn)者,ESM作者帶隊6個月超越AlphaFold 3,代碼權(quán)重全開源
距離AlphaFold 3亮相已經(jīng)過去了4個月,但由于未公布代碼且限量訪問次數(shù),我們對它的原理、機制和實際效用依舊知之甚少。
DeepMind團隊表示要等到發(fā)布6個月后,也就是今年11月才會開源。
前兩天3位牛津?qū)W霸放出的復(fù)現(xiàn)也僅僅完成了第一階段,目前只能預(yù)測蛋白質(zhì),還無法用于DNA、RNA等其他生命分子。
然而,AF3的各路「踢館者」正紛至沓來。
最近,一家名為Chai Discovery的初創(chuàng)公司發(fā)布了他們的最新模型Chai-1,能夠?qū)Φ鞍踪|(zhì)、小分子、DNA、RNA、共價修飾等進行統(tǒng)一預(yù)測。
原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1
根據(jù)基準(zhǔn)測試結(jié)果,Chai-1在藥物發(fā)現(xiàn)的相關(guān)任務(wù)中達到了SOTA水平,甚至超過了AlphaFold 3,以及Meta FAIR的前ESMFold團隊另起爐灶搞出的最新模型ESM3。
不僅性能好,Chai-1團隊還撰寫了一篇16頁的技術(shù)報告,并開源了模型權(quán)重和推理代碼,但僅限非商業(yè)用途。
論文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf
倉庫地址:https://github.com/chaidiscovery/chai-lab
開發(fā)者們可以選擇下載代碼、在本地運行或修改模型,也可以通過服務(wù)器在線調(diào)用。
https://lab.chaidiscovery.com/
這個open程度,讓人不禁回想起曾經(jīng)既有代碼又有論文的AlphaFold 2。
模型發(fā)布后,HuggingFace的CEO還直接發(fā)出了在線邀請:不如在HF倉庫上也托管一份權(quán)重。
IBM大佬Alex Kaplan甚至把Chai-1的發(fā)布稱為「藥物發(fā)現(xiàn)的ChatGPT時刻」。
他表示,當(dāng)下絕對是分子生物學(xué)的黃金時代,在可預(yù)見的未來,只需幾行代碼就能治愈所有疾病,而Chai-1或許就是AlphaFold之后我們朝著這個目標(biāo)邁出的重要一步。
蛋白質(zhì)領(lǐng)域的「原生多模態(tài)」
技術(shù)報告中提到,模型架構(gòu)和訓(xùn)練策略大體依照了AlphaFold 3的論文,但有一個關(guān)鍵區(qū)別:
他們使用截止到2021-01-12的所有數(shù)據(jù),僅訓(xùn)練了單個模型,而非針對不同的評估分別訓(xùn)練,此外還添加了一些新的功能。
與大多數(shù)需要MSA(多重序列比對)的結(jié)構(gòu)預(yù)測工具不同,Chai-1可以在沒有MSA的情況下以單序列模式運行,同時達到相近的性能。
除了利用序列信息,Chai-1也是一個「原生多模態(tài)模型」。
除了直接從序列信息進行建模的能力外,它還可以通過prompt接受新數(shù)據(jù),例如實驗得出的結(jié)合袋(pocket)、接觸點(contact)和對接(docking)的約束條件。
這些約束條件能捕捉到復(fù)合物中不同物質(zhì)在不同粒度上的相互作用信息,和結(jié)構(gòu)模板提供鏈內(nèi)距離的作用類似,但更注重提供鏈間距離的信息。
對比實驗中發(fā)現(xiàn),提供約束條件后,甚至可以為模型性能帶來兩位數(shù)的提升(圖4A);但為了防止模型過于依賴約束條件導(dǎo)致過擬合,訓(xùn)練時對這些特征采用了dropout。
比如表位的約束——即使只有少量的接觸點或結(jié)合袋殘基的信息,也能使抗體-抗原結(jié)構(gòu)預(yù)測的準(zhǔn)確率翻倍,讓AI在抗體工程中的角色變得更加實用。
根據(jù)DockQ上的可接受預(yù)測率基準(zhǔn),Chai-1能比基于MSA的AlphaFold-Multimer模型(67.7%) 更準(zhǔn)確地折疊多聚體 (69.8%)。
這個結(jié)果,讓Chai-1成為第一個僅使用單序列信息、無需MSA搜索,就能以AlphaFold-Multimer水平預(yù)測多聚體結(jié)構(gòu)的模型。
在PoseBusters基準(zhǔn)上,僅給出蛋白質(zhì)序列和配體化學(xué)成分的信息時,Chai-1對配體預(yù)測結(jié)果的RMSD(均方根偏差)成功率為77%,超過了AF3的76%。
成立半年,拿出頂級模型
發(fā)布Chai-1模型的Chai Discovery成立于今年3月,是一家AI生物初創(chuàng)公司,就在幾天前的9月9日完成了3000萬美元的種子輪融資。
這輪融資由Thrive Capital領(lǐng)投,OpenAI和Dimension Capital也參與其中,交易完成后,Chai Discovery的估值已升至1.5億美元。
目前Chai的員工數(shù)量還不到10人,但吸引了不少來自O(shè)penAI、谷歌、Meta FAIR等頂尖機構(gòu)的人才加入,大部分成員也曾是頭部藥物公司的AI負(fù)責(zé)人。
Chai Discovery團隊的舊金山辦事處
聯(lián)合創(chuàng)始人兼CEO Joshua Meier本科和碩士都畢業(yè)于哈佛大學(xué)計算機科學(xué)專業(yè),此外還拿到了化學(xué)專業(yè)的學(xué)士學(xué)位。
他高中時就在美國計算機奧賽中拿到了金牌水平的名次,并涉足生物技術(shù)領(lǐng)域的創(chuàng)業(yè),在OpenAI、谷歌、Meta FAIR、布羅德研究所(隸屬于MIT和哈佛)等機構(gòu)都曾有豐富的研究和工作經(jīng)歷。
2021年,在FAIR工作的Meier和團隊發(fā)表了一篇重要論文,創(chuàng)建了第一個Transformer架構(gòu)的蛋白質(zhì)語言模型ESM-1b,目前引用量已經(jīng)達到1800+。
論文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118
作者列表中,還有不少熟悉的名字,包括當(dāng)時還在哈佛的Pika創(chuàng)始人郭文景(Demi Guo),以及FAIR曾經(jīng)的ESM團隊成員Alexander Rives、Zeming Lin、Tom Sercu和Jason Liu。
根據(jù)LinkedIn信息,ESM團隊解散后,Alexander Rives、Zeming Lin和Tom Sercu已經(jīng)去了初創(chuàng)公司EvolutionaryScale,他們前段時間也剛剛發(fā)布新模型ESM3。
創(chuàng)立Chai Discovery前,Meier還曾擔(dān)任生物技術(shù)公司Absci的首席人工智能官。
在種子輪中選擇跟投的Dimension Capital投資人Zavain Dar最近發(fā)表了一篇文章,對投資想法進行了闡述,并高度贊揚了Meier和他的團隊。
Zavain Dar表示,從2019年Meier先后入職Meta和OpenAI時,他們就非常關(guān)注Meier的工作。
短短幾個月內(nèi),Chai-1就能夠與業(yè)內(nèi)財力雄厚、歷史悠久的企業(yè)所開發(fā)的產(chǎn)品平起平坐,這讓他們看到了,一個「短小精悍」的團隊可以在極短時間內(nèi)做出多少成就。
在Zavain Dar的文章和Chai Discovery的博客中,都談到了當(dāng)前階段開放技術(shù)成果的重要性。
雖然Chai-1已經(jīng)取得了非常卓越的成就,但我們才剛剛站在起跑線上。
要將生物學(xué)「從科學(xué)轉(zhuǎn)變?yōu)楣こ獭梗€需要構(gòu)建更成熟、更強調(diào)的基礎(chǔ)模型,用于預(yù)測和重編程生化分子間的相互作用。
Chai-1的團隊表示,他們堅信長期的獲勝策略需要透明度和開放實驗,當(dāng)今的生物技術(shù)從業(yè)者就可以免費且輕松地應(yīng)用這些前沿技術(shù),將其轉(zhuǎn)化為藥物發(fā)現(xiàn)領(lǐng)域的實用價值。