大模型重構(gòu)生命科學(xué)!最大基礎(chǔ)模型面世,解鎖DNA超長序列,參數(shù)規(guī)模達2100億
生命科學(xué)領(lǐng)域,已經(jīng)率先進入到基礎(chǔ)模型時代!
今年,化學(xué)諾貝爾獎授予了AlphaFold,AI+Science受到空前的關(guān)注。人們驚嘆于,僅僅是一個蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,就能釋放出如此巨大的行業(yè)潛力。
就在當下,在第三屆中國生物計算大會上,全球規(guī)模最大的生命科學(xué)基礎(chǔ)模型橫空出世——
xTrimo V3,參數(shù)規(guī)模高達2100億,覆蓋蛋白質(zhì)、DNA、RNA、細胞等七大主流模態(tài)。背后玩家正是來自李彥宏孵化創(chuàng)辦的百圖生科。
與應(yīng)用于其他行業(yè)的基礎(chǔ)模型有所不同,他們解碼的是生命語言,而非自然語言,意味著不僅能處理復(fù)雜的生物序列,為藥物研發(fā)、精準醫(yī)療等領(lǐng)域助力;還能開啟更多的前沿突破,比如在基因進化、合成生物學(xué)、設(shè)計/創(chuàng)造生命等方面創(chuàng)造價值……
這樣一個與我們每個人都息息相關(guān)的時代課題,如今竟然先于其他垂直領(lǐng)域,迎來了首個千億基礎(chǔ)模型。
并且,正像當時OpenAI推出提供免費Token一樣,它也限時提供免費Tokens,今年年底之前成功注冊的用戶,即可獲得2000 credits。
什么概念呢?這相當于用戶可以有機會完成1300萬氨基酸Tokens的微調(diào)訓(xùn)練任務(wù)。
來看看究竟這個微觀世界的基礎(chǔ)模型到底是怎么一回事?
大模型時代下的生命語言解碼
在第三屆生物計算大會上,大模型是整場大會出現(xiàn)的關(guān)鍵詞,而大模型在生命科學(xué)領(lǐng)域應(yīng)用的范式,也成為各個領(lǐng)域?qū)<业墓沧R——
生命科學(xué)領(lǐng)域有著明顯的特點,實驗驗證過的有標簽的數(shù)據(jù)很貴很少,已有的數(shù)據(jù)又是不同場景,很難用來直接訓(xùn)練任務(wù)模型。但它卻擁有著海量未標注數(shù)據(jù),像基因組數(shù)據(jù),蛋白質(zhì)序列等,這些數(shù)據(jù)非常適合用來做預(yù)訓(xùn)練基礎(chǔ)大模型。
大模型基于這些數(shù)據(jù)預(yù)訓(xùn)練之后,再結(jié)合少數(shù)標注過生物實驗室數(shù)據(jù),學(xué)習(xí)到對生命系統(tǒng)深層次表征,進而完成像蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因序列分類等下游任務(wù)。
而百圖生科xTrimo系列模型,正是其中最具代表性的范式實踐。
此次大會上,百圖生科xTrimo系列模型全面升級到V3版本,有著三大技術(shù)亮點值得關(guān)注。
首先從大模型基礎(chǔ)屬性維度來看,這是目前全球規(guī)模最大的生命科學(xué)基礎(chǔ)大模型,總體參數(shù)規(guī)模達到了2100億。
參數(shù)規(guī)模越大,意味著蘊含更廣泛的知識和擁有更強的泛化能力,因此在各種關(guān)鍵問題和任務(wù)的解決上有更強的性能和準確性。
換句話說,大模型時代Scaling Laws,其實在生命科學(xué)領(lǐng)域也同樣奏效。
截至目前,xTrimo基礎(chǔ)大模型平臺在200個任務(wù)模型達到SOTA水平,并利用這些任務(wù)模型實現(xiàn)了從頭設(shè)計全新蛋白質(zhì)、靶點發(fā)現(xiàn)等創(chuàng)新生物項目的突破。
該平臺已助力開發(fā)了20余種前沿抗體和酶,實現(xiàn)10余個創(chuàng)新靶點及靶點組合的挖掘,并都經(jīng)過實驗驗證,進入到臨床前研發(fā)等后續(xù)階段。
再從應(yīng)用維度來看,此次基礎(chǔ)大模型的發(fā)布是個模態(tài)全家桶,這是解決行業(yè)問題的新利器。
此次發(fā)布的xTrimo V3,覆蓋DNA、RNA、蛋白質(zhì)、細胞、小分子、生物視覺和生物知識文本等生命科學(xué)7個主流模態(tài)。
在上一版本已有蛋白質(zhì)和細胞兩大領(lǐng)域基礎(chǔ)之上,拓展到了基因組學(xué)、轉(zhuǎn)錄組學(xué)、細胞復(fù)雜任務(wù)、影像分析和文本分析等領(lǐng)域,從而支持從分子早期研發(fā)到生產(chǎn)放大再到后期實驗分析的全流程AI建模需求。
而除了實現(xiàn)整個探索過程的AI賦能,在一些場景下還會誕生全新的解決路徑。這是因為多模態(tài)的覆蓋,讓大模型跨模態(tài)協(xié)作成為了可能。
百圖生科技術(shù)副總裁張曉明列舉了靶點發(fā)現(xiàn)這一例子。
現(xiàn)在在細胞尺度多模態(tài)大模型視角上,靶點發(fā)現(xiàn)也有了新探索,可以先對未擾動的細胞進行蛋白質(zhì)和細胞的兩種模態(tài)的表征,同時擾動action可以基于生物基因注釋的文本模態(tài)生成擾動的編碼,在圖模型中預(yù)測擾動后表達量的變化以及推薦潛在的靶點,最后再通過細胞生物視覺的模型輔助做細胞功能的驗證。
這是一個包括蛋白、細胞、文本和視覺四個模態(tài)的協(xié)作典型場景,在效果和效率上都有顯著的提升。
而具體到各個模態(tài)的部署,我們也能看到很強的應(yīng)用屬性,為解決問題而生。
比如首個引入MoE架構(gòu)的蛋白質(zhì)大模型,參數(shù)達到千億規(guī)模。
我們都知道,通用場景下MoE架構(gòu)有利于垂直細分領(lǐng)域的處理,同樣在蛋白質(zhì)領(lǐng)域也存在這樣的情況,比如像抗體抗原、蛋白酶等,這樣一來在各種具體下游任務(wù)下,實現(xiàn)更好的性能和準確率。
還有像DNA大模型序列長度躍升至128K,可以更好的捕獲遠端調(diào)控信息,實現(xiàn)了超長序列解碼生命的可能性。
這有點類似于通用大模型具備了長文本讀取能力,由此拓展了大模型能力的邊界,更多場景得到釋放,比如總結(jié)報告、故事創(chuàng)作,解放人們的生產(chǎn)力。
最后,再從整個行業(yè)生態(tài)來看,百圖生科已經(jīng)占好生命科學(xué)AI模型提供商這一生態(tài)位——
一邊是專業(yè)嚴謹、有著自己獨特語言的科學(xué)行業(yè),還有大量的知識空間等待人類去探索。一邊是價值逐漸明晰、勢要重塑一切的大模型范式。百圖生科要做的正是他們的連接器。
此次除了基礎(chǔ)大模型的發(fā)布,他們還建設(shè)了個一站式模型平臺,相當于生命科學(xué)領(lǐng)域的大模型基礎(chǔ)設(shè)施。
訓(xùn)練端,他們給出生物多模態(tài)的統(tǒng)一訓(xùn)練框架,從跨模態(tài)預(yù)訓(xùn)練、到下游任務(wù)的微調(diào)都可以完成。
而在推理端,他們?yōu)樵擃I(lǐng)域量身定制地打造了生物與AI融合的計算引擎。
這個值得說道說道。因為在我們?nèi)粘4竽P驼Z境中,可能只需要針對AI模型本身進行推理優(yōu)化,就能在性能和成本上取得很好的效果。但在生物計算實際應(yīng)用場景中,模型運行20分鐘,其中推理僅占1分鐘,其余時間都用于執(zhí)行生物計算工具。
因此要打造推理引擎,需要將生物HPC優(yōu)化和AI模型推理優(yōu)化都要兼顧到,以及讓他們在流水線上并行運行起來。據(jù)介紹,這在多個場景實現(xiàn)十倍以上推理性能的提升。
此外,還配備了系列工具鏈:包含面向多種數(shù)據(jù)場景和用戶需求的Model Builder模塊,支持模型管理和組裝的Model Hub模塊,以及加速模型調(diào)用和物理計算的Model Booster模塊等。
而基于過去四年行業(yè)探索經(jīng)驗,他們也系統(tǒng)梳理出了兩大行業(yè)解決方案:藥物研發(fā)、生物制造,為合作伙伴提供全方位的AI模型服務(wù),加速大模型的應(yīng)用。
以藥物研發(fā)為例,他們就能客戶定制化構(gòu)建模型、也能支持像蛋白設(shè)計這樣的服務(wù)。
比如他們就利用親和力模型設(shè)計出多個親和力梯度的抗體,并定制AND GATE算法,組合雙抗實現(xiàn)靶向殺傷腫瘤細胞。通過高通量親和力檢測和 100+ 復(fù)雜構(gòu)型雙抗的表達與驗證,最終交付了具有更佳治療窗口的雙抗。
過去四年間,百圖生科的全球用戶已積累超過300家,包括跨國藥企、產(chǎn)業(yè)巨頭、大型CRO、明星BioTech、科研機構(gòu)等,總訂單超20億美元,可以說初步完成了技術(shù)和商業(yè)驗證的閉環(huán),實現(xiàn)產(chǎn)業(yè)的初步積累。
如今有了強大的基礎(chǔ)模型底座,他們的目標行業(yè)也指向了更廣泛的領(lǐng)域,包括生物醫(yī)藥、生物制造、科研教育等。
這其實也是百圖生科選擇這一生態(tài)位的具象展現(xiàn),那就是鏈接起更多的生態(tài)伙伴參與到大模型應(yīng)用的進程中。
如今生命科學(xué)領(lǐng)域大模型正在加速落地應(yīng)用,但與此同時挑戰(zhàn)也同樣艱巨,需要生態(tài)伙伴攜手來解決。
CEO劉維就舉了個例子,其數(shù)字化和智能化在很多方面尚未實現(xiàn)。諸多研發(fā)工作仍然主要以所見即所得的方式進行——
仍然以專家經(jīng)驗和人類先驗假設(shè)為基礎(chǔ)進行實驗驗證假設(shè),或者以在自然界中發(fā)現(xiàn)然后進行實驗改造為主。
而只有越來越多的企業(yè)完成大模型的賦能,才能帶動整個行業(yè)的數(shù)字化智能化。
Foundation Model+Science正在到來
借著百圖生科生命科學(xué)基礎(chǔ)大模型的發(fā)布,也是時候?qū)?strong>「大模型如何賦能生命科學(xué)領(lǐng)域」做個階段性梳理。
首先,跟其他行業(yè)一樣,生命科學(xué)領(lǐng)域正迎來全行業(yè)的重塑,甚至比其他領(lǐng)域更快。
僅過去一年時間,傳統(tǒng)藥企巨頭擁抱AI,像輝瑞、禮來等全球藥企巨頭任命首席AI官;科技巨頭紛紛出手布局,諸如谷歌Meta英偉達也早已相關(guān)探索。還有像賽諾菲,這種全球TOP10藥企愿意砸超10億美金與百圖生科共同打造AI模型。
各種生命科學(xué)大模型也紛紛被頂刊所接收,比如像百圖生科此前發(fā)布的單細胞大模型、千億參數(shù)蛋白大模型等工作就多次登上Nature子刊封面和學(xué)術(shù)頂會。相較于其他領(lǐng)域,這么一個古老的領(lǐng)域的發(fā)展速度,直接來了個彎道超車。
而從時間維度來看,計算對生命科學(xué)的賦能,經(jīng)歷從單模態(tài)單尺度到多模態(tài)多尺度的賦能。而在大模型語境下,就是從“AI+”到“大模型+”的時代,如今AI在生命科學(xué)里的創(chuàng)新應(yīng)用正在迎來「寒武紀爆發(fā)」臨界點。
一切以AlphaFold為節(jié)點。
傳統(tǒng)依靠實驗室工具和分析手段的方式,價格高昂耗時也長,無法充分發(fā)揮數(shù)據(jù)背后的價值。
隨著AI深度學(xué)習(xí)的出現(xiàn),這個問題迎來了轉(zhuǎn)機。DeepMind從人類已確定的17萬種蛋白質(zhì)序列庫中訓(xùn)練學(xué)習(xí)得到AlphaFold,實現(xiàn)了之前遠超其他所有團隊的準確率,開辟了“先假設(shè)-再驗證-最后優(yōu)化假設(shè)”的干濕實驗循環(huán)閉環(huán)。
這時候,生命科學(xué)領(lǐng)域迎來了他們自己的AI1.0時刻。
不過當時還只是聚焦于單鏈蛋白質(zhì)單一模態(tài),預(yù)測準確率還有大量的提升空間,海量的生物數(shù)據(jù)還沒有被充分挖掘。
而隨著自監(jiān)督范式Transformer架構(gòu)、擴散模型等進展的出現(xiàn),讓海量各種模態(tài)的數(shù)據(jù)處理、跨模態(tài)多尺度協(xié)作處理成為了可能,更多潛在的下游場景被實現(xiàn),也就是所謂AI2.0時刻。
就像最新的AlphaFold3,實現(xiàn)了從單鏈蛋白質(zhì)結(jié)構(gòu)預(yù)測到所有生命分子的結(jié)構(gòu)和相互作用的跨越。
其次,大模型賦能生命科學(xué)不僅在降本增效,還在于創(chuàng)新創(chuàng)造。
大模型對千行百業(yè)的賦能核心就在于降本增效,同樣在生命科學(xué)領(lǐng)域,大模型可以快速處理和分析大量的生物數(shù)據(jù),幫助科研人員更高效地篩選潛在藥物靶點、設(shè)計藥物分子以及預(yù)測藥物效果,從而在一定程度上降低研發(fā)成本、提高研發(fā)效率。
不過這只是大模型所帶來的最基本價值。創(chuàng)新創(chuàng)造才是大模型賦能生命科學(xué)的核心價值。
生命科學(xué)的技術(shù)壁壘很大程度上源于生命本質(zhì)信息的高度復(fù)雜性,而這些信息往往隱藏在生命語言中。因此相比于常規(guī)自然語言模型,生命科學(xué)大模型往往肩負著更為重大的使命,那就是深入到生物進化、基因序列等生命領(lǐng)域的核心挑戰(zhàn)。大模型就是像是一把鑰匙,打開了一扇通往生命奧秘深處的新大門。
而一旦實現(xiàn)生物數(shù)據(jù)和序列的解碼,就給當前一些重大難題的解決帶來了可能性。比如精準醫(yī)療/個性化醫(yī)療。
而在基因組學(xué)、遺傳病預(yù)測和精準醫(yī)療等領(lǐng)域,信息的準確性至關(guān)重要。但傳統(tǒng)的方法常常將DNA切割成較小的片段進行分析,導(dǎo)致關(guān)鍵信息的丟失。
但現(xiàn)在百圖生科模型所實現(xiàn)的DNA超長序列,就能完整保留所有基因信息。這讓精準的基因分析成為可能,有助于制定出最適合患者個體的治療方案。
例如,在癌癥治療中,完整的基因序列信息可以幫助確定癌細胞中特定的基因突變,從而為靶向治療提供精確的靶點,提高治療效果。
大模型帶來的除了數(shù)據(jù)處理能力,還有強大的泛化能力,給行業(yè)問題解決帶來全新的思路。
生命語言遠比自然語言復(fù)雜,模態(tài)之間存在清晰的轉(zhuǎn)化和層級關(guān)系。比如DNA、RNA、蛋白質(zhì)之間的中心法則;細胞圖像,細胞組學(xué),細胞基因表達,功能注釋文本之間對于細胞的聯(lián)合表征;從單細胞、多細胞到構(gòu)成組織。
因此大模型能做的就不僅對現(xiàn)有生物數(shù)據(jù)的簡單解析,更重要的是能夠推斷未知問題。
比如預(yù)測生物結(jié)構(gòu)背后的功能——
可以預(yù)測某種新型蛋白質(zhì)的功能,進而為設(shè)計全新的藥物或者生物技術(shù)提供可能,而這是傳統(tǒng)研究方法很難做到的創(chuàng)新突破。
還有像藥物發(fā)現(xiàn),以往的研發(fā)可能更多地依賴于既有經(jīng)驗和有限的實驗結(jié)果,但大模型可以通過對大量生命數(shù)據(jù)的學(xué)習(xí)和分析,提出以前未曾想到的藥物靶點或者研發(fā)方向。
而擁有了預(yù)見生命科學(xué)未知領(lǐng)域的 “慧眼”之后,也就為合成生物學(xué),或者更為廣泛的生物制造,帶來了可能性。
比如在酶的設(shè)計和菌種改造方面,AI模型通過學(xué)習(xí)現(xiàn)有的生物數(shù)據(jù),生成新的酶序列,并預(yù)測其催化功能。通過這種方式加速了生物制造中的酶催化過程,顯著提高了生產(chǎn)效率,并降低了制造成本。
再往前一步,整個工業(yè)制造領(lǐng)域,包括農(nóng)業(yè)、食品、化工、材料、能源等行業(yè)都能被賦能覆蓋。
從理解生命到預(yù)測生命再到設(shè)計、創(chuàng)造生命,這也是大模型為生命科學(xué)帶來創(chuàng)新創(chuàng)造價值的重要體現(xiàn)。
它從根本上改變了生命科學(xué)的研究路徑和思維方式,推動生命科學(xué)朝著更深入、更具前瞻性的方向發(fā)展。
相對于其他行業(yè),在生命科學(xué)領(lǐng)域的應(yīng)用價值更大、前景更高,也就更是一件長期主義的事情了。
這需要生態(tài)合作,共同推動產(chǎn)業(yè)發(fā)展。更需要像百圖生科這樣的玩家站出來提供基礎(chǔ)服務(wù)。
現(xiàn)在,百圖生科,邁出了第一步。