自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="09s4j"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型重構(gòu)生命科學(xué)！最大基礎(chǔ)模型面世，解鎖DNA超長序列，參數(shù)規(guī)模達2100億

作者：量子位 2024-11-06 14:58:05

人工智能新聞

xTrimo V3，參數(shù)規(guī)模高達2100億，覆蓋蛋白質(zhì)、DNA、RNA、細胞等七大主流模態(tài)。背后玩家正是來自李彥宏孵化創(chuàng)辦的百圖生科。

生命科學(xué)領(lǐng)域，已經(jīng)率先進入到基礎(chǔ)模型時代！

今年，化學(xué)諾貝爾獎授予了AlphaFold，AI+Science受到空前的關(guān)注。人們驚嘆于，僅僅是一個蛋白質(zhì)結(jié)構(gòu)預(yù)測模型，就能釋放出如此巨大的行業(yè)潛力。

就在當下，在第三屆中國生物計算大會上，全球規(guī)模最大的生命科學(xué)基礎(chǔ)模型橫空出世——

xTrimo V3，參數(shù)規(guī)模高達2100億，覆蓋蛋白質(zhì)、DNA、RNA、細胞等七大主流模態(tài)。背后玩家正是來自李彥宏孵化創(chuàng)辦的百圖生科。

與應(yīng)用于其他行業(yè)的基礎(chǔ)模型有所不同，他們解碼的是生命語言，而非自然語言，意味著不僅能處理復(fù)雜的生物序列，為藥物研發(fā)、精準醫(yī)療等領(lǐng)域助力；還能開啟更多的前沿突破，比如在基因進化、合成生物學(xué)、設(shè)計/創(chuàng)造生命等方面創(chuàng)造價值……

這樣一個與我們每個人都息息相關(guān)的時代課題，如今竟然先于其他垂直領(lǐng)域，迎來了首個千億基礎(chǔ)模型。

并且，正像當時OpenAI推出提供免費Token一樣，它也限時提供免費Tokens，今年年底之前成功注冊的用戶，即可獲得2000 credits。

什么概念呢？這相當于用戶可以有機會完成1300萬氨基酸Tokens的微調(diào)訓(xùn)練任務(wù)。

來看看究竟這個微觀世界的基礎(chǔ)模型到底是怎么一回事？

大模型時代下的生命語言解碼

在第三屆生物計算大會上，大模型是整場大會出現(xiàn)的關(guān)鍵詞，而大模型在生命科學(xué)領(lǐng)域應(yīng)用的范式，也成為各個領(lǐng)域?qū)＜业墓沧R——

生命科學(xué)領(lǐng)域有著明顯的特點，實驗驗證過的有標簽的數(shù)據(jù)很貴很少，已有的數(shù)據(jù)又是不同場景，很難用來直接訓(xùn)練任務(wù)模型。但它卻擁有著海量未標注數(shù)據(jù)，像基因組數(shù)據(jù)，蛋白質(zhì)序列等，這些數(shù)據(jù)非常適合用來做預(yù)訓(xùn)練基礎(chǔ)大模型。

大模型基于這些數(shù)據(jù)預(yù)訓(xùn)練之后，再結(jié)合少數(shù)標注過生物實驗室數(shù)據(jù)，學(xué)習(xí)到對生命系統(tǒng)深層次表征，進而完成像蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因序列分類等下游任務(wù)。

而百圖生科xTrimo系列模型，正是其中最具代表性的范式實踐。

此次大會上，百圖生科xTrimo系列模型全面升級到V3版本，有著三大技術(shù)亮點值得關(guān)注。

首先從大模型基礎(chǔ)屬性維度來看，這是目前全球規(guī)模最大的生命科學(xué)基礎(chǔ)大模型，總體參數(shù)規(guī)模達到了2100億。

參數(shù)規(guī)模越大，意味著蘊含更廣泛的知識和擁有更強的泛化能力，因此在各種關(guān)鍵問題和任務(wù)的解決上有更強的性能和準確性。

換句話說，大模型時代Scaling Laws，其實在生命科學(xué)領(lǐng)域也同樣奏效。

截至目前，xTrimo基礎(chǔ)大模型平臺在200個任務(wù)模型達到SOTA水平，并利用這些任務(wù)模型實現(xiàn)了從頭設(shè)計全新蛋白質(zhì)、靶點發(fā)現(xiàn)等創(chuàng)新生物項目的突破。

該平臺已助力開發(fā)了20余種前沿抗體和酶，實現(xiàn)10余個創(chuàng)新靶點及靶點組合的挖掘，并都經(jīng)過實驗驗證，進入到臨床前研發(fā)等后續(xù)階段。

再從應(yīng)用維度來看，此次基礎(chǔ)大模型的發(fā)布是個模態(tài)全家桶，這是解決行業(yè)問題的新利器。

此次發(fā)布的xTrimo V3，覆蓋DNA、RNA、蛋白質(zhì)、細胞、小分子、生物視覺和生物知識文本等生命科學(xué)7個主流模態(tài)。

在上一版本已有蛋白質(zhì)和細胞兩大領(lǐng)域基礎(chǔ)之上，拓展到了基因組學(xué)、轉(zhuǎn)錄組學(xué)、細胞復(fù)雜任務(wù)、影像分析和文本分析等領(lǐng)域，從而支持從分子早期研發(fā)到生產(chǎn)放大再到后期實驗分析的全流程AI建模需求。

而除了實現(xiàn)整個探索過程的AI賦能，在一些場景下還會誕生全新的解決路徑。這是因為多模態(tài)的覆蓋，讓大模型跨模態(tài)協(xié)作成為了可能。

百圖生科技術(shù)副總裁張曉明列舉了靶點發(fā)現(xiàn)這一例子。

現(xiàn)在在細胞尺度多模態(tài)大模型視角上，靶點發(fā)現(xiàn)也有了新探索，可以先對未擾動的細胞進行蛋白質(zhì)和細胞的兩種模態(tài)的表征，同時擾動action可以基于生物基因注釋的文本模態(tài)生成擾動的編碼，在圖模型中預(yù)測擾動后表達量的變化以及推薦潛在的靶點，最后再通過細胞生物視覺的模型輔助做細胞功能的驗證。

這是一個包括蛋白、細胞、文本和視覺四個模態(tài)的協(xié)作典型場景，在效果和效率上都有顯著的提升。

而具體到各個模態(tài)的部署，我們也能看到很強的應(yīng)用屬性，為解決問題而生。

比如首個引入MoE架構(gòu)的蛋白質(zhì)大模型，參數(shù)達到千億規(guī)模。

我們都知道，通用場景下MoE架構(gòu)有利于垂直細分領(lǐng)域的處理，同樣在蛋白質(zhì)領(lǐng)域也存在這樣的情況，比如像抗體抗原、蛋白酶等，這樣一來在各種具體下游任務(wù)下，實現(xiàn)更好的性能和準確率。

還有像DNA大模型序列長度躍升至128K，可以更好的捕獲遠端調(diào)控信息，實現(xiàn)了超長序列解碼生命的可能性。

這有點類似于通用大模型具備了長文本讀取能力，由此拓展了大模型能力的邊界，更多場景得到釋放，比如總結(jié)報告、故事創(chuàng)作，解放人們的生產(chǎn)力。

最后，再從整個行業(yè)生態(tài)來看，百圖生科已經(jīng)占好生命科學(xué)AI模型提供商這一生態(tài)位——

一邊是專業(yè)嚴謹、有著自己獨特語言的科學(xué)行業(yè)，還有大量的知識空間等待人類去探索。一邊是價值逐漸明晰、勢要重塑一切的大模型范式。百圖生科要做的正是他們的連接器。

此次除了基礎(chǔ)大模型的發(fā)布，他們還建設(shè)了個一站式模型平臺，相當于生命科學(xué)領(lǐng)域的大模型基礎(chǔ)設(shè)施。

訓(xùn)練端，他們給出生物多模態(tài)的統(tǒng)一訓(xùn)練框架，從跨模態(tài)預(yù)訓(xùn)練、到下游任務(wù)的微調(diào)都可以完成。

而在推理端，他們?yōu)樵擃I(lǐng)域量身定制地打造了生物與AI融合的計算引擎。

這個值得說道說道。因為在我們?nèi)粘４竽Ｐ驼Z境中，可能只需要針對AI模型本身進行推理優(yōu)化，就能在性能和成本上取得很好的效果。但在生物計算實際應(yīng)用場景中，模型運行20分鐘，其中推理僅占1分鐘，其余時間都用于執(zhí)行生物計算工具。

因此要打造推理引擎，需要將生物HPC優(yōu)化和AI模型推理優(yōu)化都要兼顧到，以及讓他們在流水線上并行運行起來。據(jù)介紹，這在多個場景實現(xiàn)十倍以上推理性能的提升。

此外，還配備了系列工具鏈：包含面向多種數(shù)據(jù)場景和用戶需求的Model Builder模塊，支持模型管理和組裝的Model Hub模塊，以及加速模型調(diào)用和物理計算的Model Booster模塊等。

而基于過去四年行業(yè)探索經(jīng)驗，他們也系統(tǒng)梳理出了兩大行業(yè)解決方案：藥物研發(fā)、生物制造，為合作伙伴提供全方位的AI模型服務(wù)，加速大模型的應(yīng)用。

以藥物研發(fā)為例，他們就能客戶定制化構(gòu)建模型、也能支持像蛋白設(shè)計這樣的服務(wù)。

比如他們就利用親和力模型設(shè)計出多個親和力梯度的抗體，并定制AND GATE算法，組合雙抗實現(xiàn)靶向殺傷腫瘤細胞。通過高通量親和力檢測和 100+ 復(fù)雜構(gòu)型雙抗的表達與驗證，最終交付了具有更佳治療窗口的雙抗。

過去四年間，百圖生科的全球用戶已積累超過300家，包括跨國藥企、產(chǎn)業(yè)巨頭、大型CRO、明星BioTech、科研機構(gòu)等，總訂單超20億美元，可以說初步完成了技術(shù)和商業(yè)驗證的閉環(huán)，實現(xiàn)產(chǎn)業(yè)的初步積累。

如今有了強大的基礎(chǔ)模型底座，他們的目標行業(yè)也指向了更廣泛的領(lǐng)域，包括生物醫(yī)藥、生物制造、科研教育等。

這其實也是百圖生科選擇這一生態(tài)位的具象展現(xiàn)，那就是鏈接起更多的生態(tài)伙伴參與到大模型應(yīng)用的進程中。

如今生命科學(xué)領(lǐng)域大模型正在加速落地應(yīng)用，但與此同時挑戰(zhàn)也同樣艱巨，需要生態(tài)伙伴攜手來解決。

CEO劉維就舉了個例子，其數(shù)字化和智能化在很多方面尚未實現(xiàn)。諸多研發(fā)工作仍然主要以所見即所得的方式進行——

仍然以專家經(jīng)驗和人類先驗假設(shè)為基礎(chǔ)進行實驗驗證假設(shè)，或者以在自然界中發(fā)現(xiàn)然后進行實驗改造為主。

而只有越來越多的企業(yè)完成大模型的賦能，才能帶動整個行業(yè)的數(shù)字化智能化。

Foundation Model+Science正在到來

借著百圖生科生命科學(xué)基礎(chǔ)大模型的發(fā)布，也是時候?qū)?strong>「大模型如何賦能生命科學(xué)領(lǐng)域」做個階段性梳理。

首先，跟其他行業(yè)一樣，生命科學(xué)領(lǐng)域正迎來全行業(yè)的重塑，甚至比其他領(lǐng)域更快。

僅過去一年時間，傳統(tǒng)藥企巨頭擁抱AI，像輝瑞、禮來等全球藥企巨頭任命首席AI官；科技巨頭紛紛出手布局，諸如谷歌Meta英偉達也早已相關(guān)探索。還有像賽諾菲，這種全球TOP10藥企愿意砸超10億美金與百圖生科共同打造AI模型。

各種生命科學(xué)大模型也紛紛被頂刊所接收，比如像百圖生科此前發(fā)布的單細胞大模型、千億參數(shù)蛋白大模型等工作就多次登上Nature子刊封面和學(xué)術(shù)頂會。相較于其他領(lǐng)域，這么一個古老的領(lǐng)域的發(fā)展速度，直接來了個彎道超車。

而從時間維度來看，計算對生命科學(xué)的賦能，經(jīng)歷從單模態(tài)單尺度到多模態(tài)多尺度的賦能。而在大模型語境下，就是從“AI+”到“大模型+”的時代，如今AI在生命科學(xué)里的創(chuàng)新應(yīng)用正在迎來「寒武紀爆發(fā)」臨界點。

一切以AlphaFold為節(jié)點。

傳統(tǒng)依靠實驗室工具和分析手段的方式，價格高昂耗時也長，無法充分發(fā)揮數(shù)據(jù)背后的價值。

隨著AI深度學(xué)習(xí)的出現(xiàn)，這個問題迎來了轉(zhuǎn)機。DeepMind從人類已確定的17萬種蛋白質(zhì)序列庫中訓(xùn)練學(xué)習(xí)得到AlphaFold，實現(xiàn)了之前遠超其他所有團隊的準確率，開辟了“先假設(shè)-再驗證-最后優(yōu)化假設(shè)”的干濕實驗循環(huán)閉環(huán)。

這時候，生命科學(xué)領(lǐng)域迎來了他們自己的AI1.0時刻。

不過當時還只是聚焦于單鏈蛋白質(zhì)單一模態(tài)，預(yù)測準確率還有大量的提升空間，海量的生物數(shù)據(jù)還沒有被充分挖掘。

而隨著自監(jiān)督范式Transformer架構(gòu)、擴散模型等進展的出現(xiàn)，讓海量各種模態(tài)的數(shù)據(jù)處理、跨模態(tài)多尺度協(xié)作處理成為了可能，更多潛在的下游場景被實現(xiàn)，也就是所謂AI2.0時刻。

就像最新的AlphaFold3，實現(xiàn)了從單鏈蛋白質(zhì)結(jié)構(gòu)預(yù)測到所有生命分子的結(jié)構(gòu)和相互作用的跨越。

其次，大模型賦能生命科學(xué)不僅在降本增效，還在于創(chuàng)新創(chuàng)造。

大模型對千行百業(yè)的賦能核心就在于降本增效，同樣在生命科學(xué)領(lǐng)域，大模型可以快速處理和分析大量的生物數(shù)據(jù)，幫助科研人員更高效地篩選潛在藥物靶點、設(shè)計藥物分子以及預(yù)測藥物效果，從而在一定程度上降低研發(fā)成本、提高研發(fā)效率。

不過這只是大模型所帶來的最基本價值。創(chuàng)新創(chuàng)造才是大模型賦能生命科學(xué)的核心價值。

生命科學(xué)的技術(shù)壁壘很大程度上源于生命本質(zhì)信息的高度復(fù)雜性，而這些信息往往隱藏在生命語言中。因此相比于常規(guī)自然語言模型，生命科學(xué)大模型往往肩負著更為重大的使命，那就是深入到生物進化、基因序列等生命領(lǐng)域的核心挑戰(zhàn)。大模型就是像是一把鑰匙，打開了一扇通往生命奧秘深處的新大門。

而一旦實現(xiàn)生物數(shù)據(jù)和序列的解碼，就給當前一些重大難題的解決帶來了可能性。比如精準醫(yī)療/個性化醫(yī)療。

而在基因組學(xué)、遺傳病預(yù)測和精準醫(yī)療等領(lǐng)域，信息的準確性至關(guān)重要。但傳統(tǒng)的方法常常將DNA切割成較小的片段進行分析，導(dǎo)致關(guān)鍵信息的丟失。

但現(xiàn)在百圖生科模型所實現(xiàn)的DNA超長序列，就能完整保留所有基因信息。這讓精準的基因分析成為可能，有助于制定出最適合患者個體的治療方案。

例如，在癌癥治療中，完整的基因序列信息可以幫助確定癌細胞中特定的基因突變，從而為靶向治療提供精確的靶點，提高治療效果。

大模型帶來的除了數(shù)據(jù)處理能力，還有強大的泛化能力，給行業(yè)問題解決帶來全新的思路。

生命語言遠比自然語言復(fù)雜，模態(tài)之間存在清晰的轉(zhuǎn)化和層級關(guān)系。比如DNA、RNA、蛋白質(zhì)之間的中心法則；細胞圖像，細胞組學(xué)，細胞基因表達，功能注釋文本之間對于細胞的聯(lián)合表征；從單細胞、多細胞到構(gòu)成組織。

因此大模型能做的就不僅對現(xiàn)有生物數(shù)據(jù)的簡單解析，更重要的是能夠推斷未知問題。

比如預(yù)測生物結(jié)構(gòu)背后的功能——

可以預(yù)測某種新型蛋白質(zhì)的功能，進而為設(shè)計全新的藥物或者生物技術(shù)提供可能，而這是傳統(tǒng)研究方法很難做到的創(chuàng)新突破。

還有像藥物發(fā)現(xiàn)，以往的研發(fā)可能更多地依賴于既有經(jīng)驗和有限的實驗結(jié)果，但大模型可以通過對大量生命數(shù)據(jù)的學(xué)習(xí)和分析，提出以前未曾想到的藥物靶點或者研發(fā)方向。

而擁有了預(yù)見生命科學(xué)未知領(lǐng)域的 “慧眼”之后，也就為合成生物學(xué)，或者更為廣泛的生物制造，帶來了可能性。

比如在酶的設(shè)計和菌種改造方面，AI模型通過學(xué)習(xí)現(xiàn)有的生物數(shù)據(jù)，生成新的酶序列，并預(yù)測其催化功能。通過這種方式加速了生物制造中的酶催化過程，顯著提高了生產(chǎn)效率，并降低了制造成本。

再往前一步，整個工業(yè)制造領(lǐng)域，包括農(nóng)業(yè)、食品、化工、材料、能源等行業(yè)都能被賦能覆蓋。

從理解生命到預(yù)測生命再到設(shè)計、創(chuàng)造生命，這也是大模型為生命科學(xué)帶來創(chuàng)新創(chuàng)造價值的重要體現(xiàn)。

它從根本上改變了生命科學(xué)的研究路徑和思維方式，推動生命科學(xué)朝著更深入、更具前瞻性的方向發(fā)展。

相對于其他行業(yè)，在生命科學(xué)領(lǐng)域的應(yīng)用價值更大、前景更高，也就更是一件長期主義的事情了。

這需要生態(tài)合作，共同推動產(chǎn)業(yè)發(fā)展。更需要像百圖生科這樣的玩家站出來提供基礎(chǔ)服務(wù)。

現(xiàn)在，百圖生科，邁出了第一步。

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營