首個(gè)國(guó)產(chǎn)版AlphaFold3發(fā)布!大分子預(yù)測(cè)精度超車,在線平臺(tái)即開即用,推理成本更是白菜價(jià)
來了,國(guó)內(nèi)首個(gè)對(duì)標(biāo)AlphaFold3的產(chǎn)品——
HelixFold3,來自百度智能云與百度螺旋槳團(tuán)隊(duì)。
它在常規(guī)生物分子結(jié)構(gòu)預(yù)測(cè)任務(wù)中實(shí)現(xiàn)了AlphaFold3媲美水平:尤其RNA分子和共價(jià)修飾場(chǎng)景中,精準(zhǔn)度上持平或者實(shí)現(xiàn)了大幅超越。
△圖注,藍(lán)色為HelixFold3,黃色為AlphaFold3
還有抗原-抗體結(jié)構(gòu)預(yù)測(cè)任務(wù)中,成功率提升至80%+,感覺可以直接拿來研究抗體結(jié)合機(jī)制的水平。
更關(guān)鍵的一點(diǎn)是,它把使用門檻和成本給打下來了——
支持在線服務(wù),用戶只需簡(jiǎn)單開通,按算力付費(fèi)(相當(dāng)于是ChatGPT按照Token付費(fèi))。
全程零代碼操作,也無需擔(dān)心后續(xù)運(yùn)維。
而且推理速度還很快,數(shù)小時(shí)完成數(shù)千次分子結(jié)構(gòu)預(yù)測(cè)的那種。
背后的團(tuán)隊(duì)來自百度智能云及螺旋槳團(tuán)隊(duì)。
可能不為一些人所熟知的是,他們?cè)谏茖W(xué)領(lǐng)域深耕已久,此前其自研的mRNA序列優(yōu)化算法LinearDesign登上《Nature》。
這還是國(guó)內(nèi)首家科技企業(yè),登頂世界頂級(jí)期刊。
國(guó)產(chǎn)模型硬剛AlphaFold3
此次國(guó)產(chǎn)模型HelixFold3的發(fā)布,技術(shù)突破本身的同時(shí),更展現(xiàn)了其強(qiáng)大的應(yīng)用屬性。
首先,能力方面全面對(duì)標(biāo)AlphaFold3,并且實(shí)現(xiàn)部分超越。
以最為常見的RNA分子預(yù)測(cè)、抗原-抗體結(jié)構(gòu)預(yù)測(cè)兩大核心場(chǎng)景為例,這兩大場(chǎng)景都有助于下游的藥物設(shè)計(jì)、疾病治療等研發(fā)。
在RNA分子預(yù)測(cè)這一任務(wù)中,在CASP 15 RNA數(shù)據(jù)集上的評(píng)測(cè)結(jié)果顯示,HelixFold3的預(yù)測(cè)精度顯著超越了AlphaFold3。
同時(shí)在從PDB數(shù)據(jù)庫(kù)收集的最新蛋白-RNA復(fù)合物結(jié)構(gòu)預(yù)測(cè)任務(wù)中,也展現(xiàn)出更高的準(zhǔn)確性。
此外,在多個(gè)涉及共價(jià)修飾的結(jié)構(gòu)預(yù)測(cè)任務(wù)中,實(shí)現(xiàn)基本持平以及超越。
而在抗原-抗體結(jié)構(gòu)預(yù)測(cè)任務(wù)中,HelixFold3在最新的71例PDB抗原抗體結(jié)構(gòu)預(yù)測(cè)的數(shù)據(jù)上精度已能媲美AlphaFold3server。
通過指定任意數(shù)量的抗原表位氨基酸,HelixFold3在抗原抗體結(jié)構(gòu)預(yù)測(cè)的精度進(jìn)一步得到提升,在任意指定15個(gè)表位氨基酸的數(shù)量后,HelixFold3的成功率進(jìn)一步提升至80%以上。
其次,在線服務(wù)平臺(tái)即開即用,場(chǎng)景應(yīng)用豐富。
我們都知道,日常中的高精度生物分子結(jié)構(gòu)預(yù)測(cè)工具,即便像全面開源的AlphaFold3,往往也有較高的使用門檻,需要用戶具備較高的技術(shù)能力。
現(xiàn)在能夠看到,網(wǎng)站上已經(jīng)支持了不少功能,整個(gè)過程全程都零代碼,還支持可視化呈現(xiàn)。
比如像支持大分子,包括蛋白質(zhì)、DNA和RNA的任意側(cè)鏈修飾。輸入分子實(shí)體之后,旁邊就有配體結(jié)構(gòu)展示。
在設(shè)置一些參數(shù)約束,比如指定修飾基團(tuán)和連接位點(diǎn)之類,剩下的工作交給HelixFold3。
最終就能得到一個(gè)3D結(jié)構(gòu)和相應(yīng)的參數(shù)結(jié)果,移動(dòng)光標(biāo)還有清晰的點(diǎn)位解釋。
相比于AlphaFold3僅支持46種預(yù)定義修飾,HelixFold3通過SMILES去定義側(cè)鏈修飾所能覆蓋的化學(xué)空間更廣,覆蓋PDB數(shù)據(jù)庫(kù)中超過50%的修飾場(chǎng)景。而AlphaFold3僅支持不到5%,相當(dāng)于修飾場(chǎng)景擴(kuò)大十倍。
這樣一來,大幅度地?cái)U(kuò)展了給生命科學(xué)從業(yè)者們的研究空間,像什么小蛋白/多肽發(fā)現(xiàn)、酶改造等等這些具體應(yīng)用都可以覆蓋到。
而除了在線服務(wù),他們也支持API調(diào)用,通過API SDK的方式進(jìn)行批量的推理,做大規(guī)模的分析。
最后也是最為硬核的一點(diǎn)就是,用它的話,推理成本可以大大降低,直接讓高通量生物信息學(xué)應(yīng)用處理能力UP。
現(xiàn)在通用語(yǔ)言的大模型都在講推理成本,生命科學(xué)領(lǐng)域其實(shí)挑戰(zhàn)更為嚴(yán)峻。
生命語(yǔ)言不僅涉及多模態(tài)數(shù)據(jù)的融合,還涉及在三維空間中進(jìn)行精準(zhǔn)建模,這對(duì)計(jì)算資源提出了極高的要求。通常情況下,從業(yè)者不得不自行購(gòu)置、部署和維護(hù)昂貴且復(fù)雜的計(jì)算資源,進(jìn)一步增加了科研成本和技術(shù)門檻。
借助百度智能云CHPC平臺(tái),通過MSA檢索與模型推理方面的性能優(yōu)化,讓推理成本大大降低——在數(shù)小時(shí)內(nèi)完成數(shù)千次精確的生物分子結(jié)構(gòu)預(yù)測(cè),大幅提高了從業(yè)者的研究速率。
還有一個(gè)更為通俗的例子,在百度云平臺(tái)上,一條500長(zhǎng)度的蛋白推理只需要4元錢。相比于云端租用或者自行部署GPU這種動(dòng)輒上萬乃至百萬的成本來看,確實(shí)已經(jīng)低了一個(gè)指數(shù)級(jí)別。
對(duì)于從業(yè)者來說,你只需提供你的Know-how,剩下的都由HelixFold3幫你算。
現(xiàn)在,他們已經(jīng)在與一些科研機(jī)構(gòu)/CRO藥企進(jìn)行合作,比如去驗(yàn)證濕實(shí)驗(yàn)落地的可能性。
傳統(tǒng)流程上,非常大通量的濕實(shí)驗(yàn)需要好幾個(gè)月才能鎖定候選分子,但現(xiàn)在只需要計(jì)算就可以做到初步篩選,然后再拿高潛力的分子去做濕實(shí)驗(yàn),這樣整個(gè)研發(fā)節(jié)奏都有大大的提升。
生命科學(xué)迎來大模型應(yīng)用時(shí)代
前幾個(gè)月,AlphaFold斬獲諾獎(jiǎng),如今HelixFold3以低門檻但性能完全不輸?shù)男螒B(tài)亮相。大模型在生命科學(xué)領(lǐng)域,正在加速實(shí)現(xiàn)從技術(shù)到應(yīng)用的跨越,邁向了新階段。
一方面體現(xiàn)在解決行業(yè)痛點(diǎn)上,大模型具備一些天然的優(yōu)勢(shì),加速傳統(tǒng)產(chǎn)業(yè)發(fā)展。
比如在藥物研發(fā)這個(gè)場(chǎng)景,行業(yè)長(zhǎng)期面臨著一個(gè)「雙十困境」,即一款新藥研發(fā)需要耗時(shí)10年、耗資10億美元。
但現(xiàn)在隨著大模型發(fā)展,生物醫(yī)藥產(chǎn)業(yè)迎來了前所未有的機(jī)遇。這體現(xiàn)在藥物研發(fā)多個(gè)研發(fā)環(huán)節(jié)當(dāng)中。
例如在虛擬篩選階段,通過大模型技術(shù),可以從780萬個(gè)分子庫(kù)中快速篩選出6個(gè)潛在活性分子,效率相較于傳統(tǒng)人工篩選提升了成千上萬倍。
另一方面,更多更前沿的場(chǎng)景有望迎來革命性突破,像HelixFold3這種低門檻產(chǎn)品,會(huì)吸引更多跨學(xué)科人才參與到生命科學(xué)最前沿的課題當(dāng)中。
此前曾探討過,通用大模型帶來的普遍價(jià)值是降本增效,而在生命科學(xué)領(lǐng)域,在降本增效這個(gè)基礎(chǔ)上,還有創(chuàng)新創(chuàng)造的價(jià)值。
比如基因編輯、個(gè)性化診療、合成生物學(xué),乃至整個(gè)工業(yè)制造,包括農(nóng)業(yè)、食品、化工、材料、能源等行業(yè)都有可能被賦能。
在這一浪潮中,百度這一實(shí)力玩家不容忽略,他們?cè)缫言谏茖W(xué)領(lǐng)域深耕多年。
在此之前,他們還曾自主研發(fā)了文心生物計(jì)算大模型系列,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白結(jié)構(gòu)分析模型HelixFold、以及單序列蛋白表征模型HelixFold-Single。
這些模型為虛擬篩選、ADMET預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、mRNA序列設(shè)計(jì)等提供了便攜強(qiáng)大的算法工具。
企業(yè)通過百度螺旋槳(PaddleHelix)生物計(jì)算平臺(tái)獲取相關(guān)服務(wù)。目前他們已與多家藥企展開深度合作,助力藥物研發(fā)管線的加速推進(jìn)。
此外,百度智能云還構(gòu)建了一整套完整的生命科學(xué)解決方案,覆蓋從藥物研發(fā)到下游診療場(chǎng)景的全鏈條。像首個(gè)產(chǎn)業(yè)界醫(yī)療大模型靈醫(yī),目前正在加速醫(yī)療診療全流程的落地,進(jìn)一步拓展了大模型在生命科學(xué)領(lǐng)域的價(jià)值邊界。
如今,百度HelixFold3重磅升級(jí),不僅提升了模型的精度和效率,也更為行業(yè)帶來了更多可能性。
大模型在生命科學(xué)領(lǐng)域,會(huì)朝著更深更廣的方向探索。
平臺(tái)鏈接:
https://paddlehelix.baidu.com/
論文鏈接:
https://arxiv.org/pdf/2408.16975
更多詳情可戳閱讀原文了解更多~