自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型重構(gòu)生命科學(xué)!最大基礎(chǔ)模型面世,解鎖DNA超長序列,參數(shù)規(guī)模達2100億

人工智能 新聞
xTrimo V3,參數(shù)規(guī)模高達2100億,覆蓋蛋白質(zhì)、DNA、RNA、細胞等七大主流模態(tài)。背后玩家正是來自李彥宏孵化創(chuàng)辦的百圖生科。

生命科學(xué)領(lǐng)域,已經(jīng)率先進入到基礎(chǔ)模型時代!

今年,化學(xué)諾貝爾獎授予了AlphaFold,AI+Science受到空前的關(guān)注。人們驚嘆于,僅僅是一個蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,就能釋放出如此巨大的行業(yè)潛力。

就在當下,在第三屆中國生物計算大會上,全球規(guī)模最大的生命科學(xué)基礎(chǔ)模型橫空出世——

xTrimo V3,參數(shù)規(guī)模高達2100億,覆蓋蛋白質(zhì)、DNA、RNA、細胞等七大主流模態(tài)。背后玩家正是來自李彥宏孵化創(chuàng)辦的百圖生科。

圖片

與應(yīng)用于其他行業(yè)的基礎(chǔ)模型有所不同,他們解碼的是生命語言,而非自然語言,意味著不僅能處理復(fù)雜的生物序列,為藥物研發(fā)、精準醫(yī)療等領(lǐng)域助力;還能開啟更多的前沿突破,比如在基因進化、合成生物學(xué)、設(shè)計/創(chuàng)造生命等方面創(chuàng)造價值……

這樣一個與我們每個人都息息相關(guān)的時代課題,如今竟然先于其他垂直領(lǐng)域,迎來了首個千億基礎(chǔ)模型。

并且,正像當時OpenAI推出提供免費Token一樣,它也限時提供免費Tokens,今年年底之前成功注冊的用戶,即可獲得2000 credits。

什么概念呢?這相當于用戶可以有機會完成1300萬氨基酸Tokens的微調(diào)訓(xùn)練任務(wù)。

來看看究竟這個微觀世界的基礎(chǔ)模型到底是怎么一回事?

大模型時代下的生命語言解碼

在第三屆生物計算大會上,大模型是整場大會出現(xiàn)的關(guān)鍵詞,而大模型在生命科學(xué)領(lǐng)域應(yīng)用的范式,也成為各個領(lǐng)域?qū)<业墓沧R——

生命科學(xué)領(lǐng)域有著明顯的特點,實驗驗證過的有標簽的數(shù)據(jù)很貴很少,已有的數(shù)據(jù)又是不同場景,很難用來直接訓(xùn)練任務(wù)模型。但它卻擁有著海量未標注數(shù)據(jù),像基因組數(shù)據(jù),蛋白質(zhì)序列等,這些數(shù)據(jù)非常適合用來做預(yù)訓(xùn)練基礎(chǔ)大模型。

大模型基于這些數(shù)據(jù)預(yù)訓(xùn)練之后,再結(jié)合少數(shù)標注過生物實驗室數(shù)據(jù),學(xué)習(xí)到對生命系統(tǒng)深層次表征,進而完成像蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因序列分類等下游任務(wù)。

百圖生科xTrimo系列模型,正是其中最具代表性的范式實踐。

此次大會上,百圖生科xTrimo系列模型全面升級到V3版本,有著三大技術(shù)亮點值得關(guān)注。

圖片

首先從大模型基礎(chǔ)屬性維度來看,這是目前全球規(guī)模最大的生命科學(xué)基礎(chǔ)大模型,總體參數(shù)規(guī)模達到了2100億。

參數(shù)規(guī)模越大,意味著蘊含更廣泛的知識和擁有更強的泛化能力,因此在各種關(guān)鍵問題和任務(wù)的解決上有更強的性能和準確性。

換句話說,大模型時代Scaling Laws,其實在生命科學(xué)領(lǐng)域也同樣奏效。

截至目前,xTrimo基礎(chǔ)大模型平臺在200個任務(wù)模型達到SOTA水平,并利用這些任務(wù)模型實現(xiàn)了從頭設(shè)計全新蛋白質(zhì)、靶點發(fā)現(xiàn)等創(chuàng)新生物項目的突破。

圖片

該平臺已助力開發(fā)了20余種前沿抗體和酶,實現(xiàn)10余個創(chuàng)新靶點及靶點組合的挖掘,并都經(jīng)過實驗驗證,進入到臨床前研發(fā)等后續(xù)階段。

再從應(yīng)用維度來看,此次基礎(chǔ)大模型的發(fā)布是個模態(tài)全家桶,這是解決行業(yè)問題的新利器。

此次發(fā)布的xTrimo V3,覆蓋DNA、RNA、蛋白質(zhì)、細胞、小分子、生物視覺和生物知識文本等生命科學(xué)7個主流模態(tài)。

在上一版本已有蛋白質(zhì)和細胞兩大領(lǐng)域基礎(chǔ)之上,拓展到了基因組學(xué)、轉(zhuǎn)錄組學(xué)、細胞復(fù)雜任務(wù)、影像分析和文本分析等領(lǐng)域,從而支持從分子早期研發(fā)到生產(chǎn)放大再到后期實驗分析的全流程AI建模需求。

而除了實現(xiàn)整個探索過程的AI賦能,在一些場景下還會誕生全新的解決路徑。這是因為多模態(tài)的覆蓋,讓大模型跨模態(tài)協(xié)作成為了可能。

百圖生科技術(shù)副總裁張曉明列舉了靶點發(fā)現(xiàn)這一例子。

現(xiàn)在在細胞尺度多模態(tài)大模型視角上,靶點發(fā)現(xiàn)也有了新探索,可以先對未擾動的細胞進行蛋白質(zhì)和細胞的兩種模態(tài)的表征,同時擾動action可以基于生物基因注釋的文本模態(tài)生成擾動的編碼,在圖模型中預(yù)測擾動后表達量的變化以及推薦潛在的靶點,最后再通過細胞生物視覺的模型輔助做細胞功能的驗證。

這是一個包括蛋白、細胞、文本和視覺四個模態(tài)的協(xié)作典型場景,在效果和效率上都有顯著的提升。

而具體到各個模態(tài)的部署,我們也能看到很強的應(yīng)用屬性,為解決問題而生。

比如首個引入MoE架構(gòu)的蛋白質(zhì)大模型,參數(shù)達到千億規(guī)模。

我們都知道,通用場景下MoE架構(gòu)有利于垂直細分領(lǐng)域的處理,同樣在蛋白質(zhì)領(lǐng)域也存在這樣的情況,比如像抗體抗原、蛋白酶等,這樣一來在各種具體下游任務(wù)下,實現(xiàn)更好的性能和準確率。

還有像DNA大模型序列長度躍升至128K,可以更好的捕獲遠端調(diào)控信息,實現(xiàn)了超長序列解碼生命的可能性。

這有點類似于通用大模型具備了長文本讀取能力,由此拓展了大模型能力的邊界,更多場景得到釋放,比如總結(jié)報告、故事創(chuàng)作,解放人們的生產(chǎn)力。

最后,再從整個行業(yè)生態(tài)來看,百圖生科已經(jīng)占好生命科學(xué)AI模型提供商這一生態(tài)位——

一邊是專業(yè)嚴謹、有著自己獨特語言的科學(xué)行業(yè),還有大量的知識空間等待人類去探索。一邊是價值逐漸明晰、勢要重塑一切的大模型范式。百圖生科要做的正是他們的連接器。

此次除了基礎(chǔ)大模型的發(fā)布,他們還建設(shè)了個一站式模型平臺,相當于生命科學(xué)領(lǐng)域的大模型基礎(chǔ)設(shè)施。

圖片

訓(xùn)練端,他們給出生物多模態(tài)的統(tǒng)一訓(xùn)練框架,從跨模態(tài)預(yù)訓(xùn)練、到下游任務(wù)的微調(diào)都可以完成。

而在推理端,他們?yōu)樵擃I(lǐng)域量身定制地打造了生物與AI融合的計算引擎。

這個值得說道說道。因為在我們?nèi)粘4竽P驼Z境中,可能只需要針對AI模型本身進行推理優(yōu)化,就能在性能和成本上取得很好的效果。但在生物計算實際應(yīng)用場景中,模型運行20分鐘,其中推理僅占1分鐘,其余時間都用于執(zhí)行生物計算工具。

因此要打造推理引擎,需要將生物HPC優(yōu)化和AI模型推理優(yōu)化都要兼顧到,以及讓他們在流水線上并行運行起來。據(jù)介紹,這在多個場景實現(xiàn)十倍以上推理性能的提升。

此外,還配備了系列工具鏈:包含面向多種數(shù)據(jù)場景和用戶需求的Model Builder模塊,支持模型管理和組裝的Model Hub模塊,以及加速模型調(diào)用和物理計算的Model Booster模塊等。

而基于過去四年行業(yè)探索經(jīng)驗,他們也系統(tǒng)梳理出了兩大行業(yè)解決方案:藥物研發(fā)、生物制造,為合作伙伴提供全方位的AI模型服務(wù),加速大模型的應(yīng)用。

以藥物研發(fā)為例,他們就能客戶定制化構(gòu)建模型、也能支持像蛋白設(shè)計這樣的服務(wù)。

圖片

比如他們就利用親和力模型設(shè)計出多個親和力梯度的抗體,并定制AND GATE算法,組合雙抗實現(xiàn)靶向殺傷腫瘤細胞。通過高通量親和力檢測和 100+ 復(fù)雜構(gòu)型雙抗的表達與驗證,最終交付了具有更佳治療窗口的雙抗。

過去四年間,百圖生科的全球用戶已積累超過300家,包括跨國藥企、產(chǎn)業(yè)巨頭、大型CRO、明星BioTech、科研機構(gòu)等,總訂單超20億美元,可以說初步完成了技術(shù)和商業(yè)驗證的閉環(huán),實現(xiàn)產(chǎn)業(yè)的初步積累。

如今有了強大的基礎(chǔ)模型底座,他們的目標行業(yè)也指向了更廣泛的領(lǐng)域,包括生物醫(yī)藥、生物制造、科研教育等。

這其實也是百圖生科選擇這一生態(tài)位的具象展現(xiàn),那就是鏈接起更多的生態(tài)伙伴參與到大模型應(yīng)用的進程中。

如今生命科學(xué)領(lǐng)域大模型正在加速落地應(yīng)用,但與此同時挑戰(zhàn)也同樣艱巨,需要生態(tài)伙伴攜手來解決。

CEO劉維就舉了個例子,其數(shù)字化和智能化在很多方面尚未實現(xiàn)。諸多研發(fā)工作仍然主要以所見即所得的方式進行——

仍然以專家經(jīng)驗和人類先驗假設(shè)為基礎(chǔ)進行實驗驗證假設(shè),或者以在自然界中發(fā)現(xiàn)然后進行實驗改造為主。

而只有越來越多的企業(yè)完成大模型的賦能,才能帶動整個行業(yè)的數(shù)字化智能化。

Foundation Model+Science正在到來

借著百圖生科生命科學(xué)基礎(chǔ)大模型的發(fā)布,也是時候?qū)?strong>「大模型如何賦能生命科學(xué)領(lǐng)域」做個階段性梳理。

首先,跟其他行業(yè)一樣,生命科學(xué)領(lǐng)域正迎來全行業(yè)的重塑,甚至比其他領(lǐng)域更快。

僅過去一年時間,傳統(tǒng)藥企巨頭擁抱AI,像輝瑞、禮來等全球藥企巨頭任命首席AI官;科技巨頭紛紛出手布局,諸如谷歌Meta英偉達也早已相關(guān)探索。還有像賽諾菲,這種全球TOP10藥企愿意砸超10億美金與百圖生科共同打造AI模型。

各種生命科學(xué)大模型也紛紛被頂刊所接收,比如像百圖生科此前發(fā)布的單細胞大模型、千億參數(shù)蛋白大模型等工作就多次登上Nature子刊封面和學(xué)術(shù)頂會。相較于其他領(lǐng)域,這么一個古老的領(lǐng)域的發(fā)展速度,直接來了個彎道超車。

而從時間維度來看,計算對生命科學(xué)的賦能,經(jīng)歷從單模態(tài)單尺度到多模態(tài)多尺度的賦能。而在大模型語境下,就是從“AI+”到“大模型+”的時代,如今AI在生命科學(xué)里的創(chuàng)新應(yīng)用正在迎來「寒武紀爆發(fā)」臨界點。

一切以AlphaFold為節(jié)點。

傳統(tǒng)依靠實驗室工具和分析手段的方式,價格高昂耗時也長,無法充分發(fā)揮數(shù)據(jù)背后的價值。

隨著AI深度學(xué)習(xí)的出現(xiàn),這個問題迎來了轉(zhuǎn)機。DeepMind從人類已確定的17萬種蛋白質(zhì)序列庫中訓(xùn)練學(xué)習(xí)得到AlphaFold,實現(xiàn)了之前遠超其他所有團隊的準確率,開辟了“先假設(shè)-再驗證-最后優(yōu)化假設(shè)”的干濕實驗循環(huán)閉環(huán)。

這時候,生命科學(xué)領(lǐng)域迎來了他們自己的AI1.0時刻。

圖片

不過當時還只是聚焦于單鏈蛋白質(zhì)單一模態(tài),預(yù)測準確率還有大量的提升空間,海量的生物數(shù)據(jù)還沒有被充分挖掘。

而隨著自監(jiān)督范式Transformer架構(gòu)、擴散模型等進展的出現(xiàn),讓海量各種模態(tài)的數(shù)據(jù)處理、跨模態(tài)多尺度協(xié)作處理成為了可能,更多潛在的下游場景被實現(xiàn),也就是所謂AI2.0時刻。

就像最新的AlphaFold3,實現(xiàn)了從單鏈蛋白質(zhì)結(jié)構(gòu)預(yù)測到所有生命分子的結(jié)構(gòu)和相互作用的跨越。

其次,大模型賦能生命科學(xué)不僅在降本增效,還在于創(chuàng)新創(chuàng)造。

大模型對千行百業(yè)的賦能核心就在于降本增效,同樣在生命科學(xué)領(lǐng)域,大模型可以快速處理和分析大量的生物數(shù)據(jù),幫助科研人員更高效地篩選潛在藥物靶點、設(shè)計藥物分子以及預(yù)測藥物效果,從而在一定程度上降低研發(fā)成本、提高研發(fā)效率。

不過這只是大模型所帶來的最基本價值。創(chuàng)新創(chuàng)造才是大模型賦能生命科學(xué)的核心價值。

生命科學(xué)的技術(shù)壁壘很大程度上源于生命本質(zhì)信息的高度復(fù)雜性,而這些信息往往隱藏在生命語言中。因此相比于常規(guī)自然語言模型,生命科學(xué)大模型往往肩負著更為重大的使命,那就是深入到生物進化、基因序列等生命領(lǐng)域的核心挑戰(zhàn)。大模型就是像是一把鑰匙,打開了一扇通往生命奧秘深處的新大門。

而一旦實現(xiàn)生物數(shù)據(jù)和序列的解碼,就給當前一些重大難題的解決帶來了可能性。比如精準醫(yī)療/個性化醫(yī)療。

而在基因組學(xué)、遺傳病預(yù)測和精準醫(yī)療等領(lǐng)域,信息的準確性至關(guān)重要。但傳統(tǒng)的方法常常將DNA切割成較小的片段進行分析,導(dǎo)致關(guān)鍵信息的丟失。

但現(xiàn)在百圖生科模型所實現(xiàn)的DNA超長序列,就能完整保留所有基因信息。這讓精準的基因分析成為可能,有助于制定出最適合患者個體的治療方案。

例如,在癌癥治療中,完整的基因序列信息可以幫助確定癌細胞中特定的基因突變,從而為靶向治療提供精確的靶點,提高治療效果。

大模型帶來的除了數(shù)據(jù)處理能力,還有強大的泛化能力,給行業(yè)問題解決帶來全新的思路。

生命語言遠比自然語言復(fù)雜,模態(tài)之間存在清晰的轉(zhuǎn)化和層級關(guān)系。比如DNA、RNA、蛋白質(zhì)之間的中心法則;細胞圖像,細胞組學(xué),細胞基因表達,功能注釋文本之間對于細胞的聯(lián)合表征;從單細胞、多細胞到構(gòu)成組織。

因此大模型能做的就不僅對現(xiàn)有生物數(shù)據(jù)的簡單解析,更重要的是能夠推斷未知問題。

比如預(yù)測生物結(jié)構(gòu)背后的功能——

可以預(yù)測某種新型蛋白質(zhì)的功能,進而為設(shè)計全新的藥物或者生物技術(shù)提供可能,而這是傳統(tǒng)研究方法很難做到的創(chuàng)新突破。

還有像藥物發(fā)現(xiàn),以往的研發(fā)可能更多地依賴于既有經(jīng)驗和有限的實驗結(jié)果,但大模型可以通過對大量生命數(shù)據(jù)的學(xué)習(xí)和分析,提出以前未曾想到的藥物靶點或者研發(fā)方向。

而擁有了預(yù)見生命科學(xué)未知領(lǐng)域的 “慧眼”之后,也就為合成生物學(xué),或者更為廣泛的生物制造,帶來了可能性。

比如在酶的設(shè)計和菌種改造方面,AI模型通過學(xué)習(xí)現(xiàn)有的生物數(shù)據(jù),生成新的酶序列,并預(yù)測其催化功能。通過這種方式加速了生物制造中的酶催化過程,顯著提高了生產(chǎn)效率,并降低了制造成本。

再往前一步,整個工業(yè)制造領(lǐng)域,包括農(nóng)業(yè)、食品、化工、材料、能源等行業(yè)都能被賦能覆蓋。

從理解生命到預(yù)測生命再到設(shè)計、創(chuàng)造生命,這也是大模型為生命科學(xué)帶來創(chuàng)新創(chuàng)造價值的重要體現(xiàn)。

它從根本上改變了生命科學(xué)的研究路徑和思維方式,推動生命科學(xué)朝著更深入、更具前瞻性的方向發(fā)展。

相對于其他行業(yè),在生命科學(xué)領(lǐng)域的應(yīng)用價值更大、前景更高,也就更是一件長期主義的事情了。   

這需要生態(tài)合作,共同推動產(chǎn)業(yè)發(fā)展。更需要像百圖生科這樣的玩家站出來提供基礎(chǔ)服務(wù)。

現(xiàn)在,百圖生科,邁出了第一步。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2014-07-01 09:20:56

大數(shù)據(jù)

2022-04-08 14:17:59

數(shù)字孿生生命科學(xué)元宇宙

2024-06-26 13:21:50

2023-12-13 12:55:39

模型數(shù)據(jù)

2020-02-24 10:51:25

微軟開源Windows

2022-08-20 07:52:56

語言模型參數(shù)PaLM

2018-09-07 14:53:04

物聯(lián)網(wǎng)生命科學(xué)IOT

2023-11-27 14:48:34

人工智能深度學(xué)習(xí)大語言模型

2025-03-12 14:49:29

2023-03-02 13:21:32

2022-06-25 21:17:15

人工智能訓(xùn)練

2015-06-19 06:41:45

生命科學(xué)云計算集群計算

2024-04-19 09:17:33

AI模型

2024-06-18 09:43:26

2022-05-17 16:12:33

英偉達模型開源

2024-09-05 15:48:21

2023-09-04 12:58:05

2021-07-21 17:13:17

DeepMind開源AlphaFold 2
點贊
收藏

51CTO技術(shù)棧公眾號