清華AIR開(kāi)源輕量版BioMedGPT!聶再清:最終目標(biāo)是生物醫(yī)藥領(lǐng)域基礎(chǔ)大模型
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
生物醫(yī)藥研發(fā)領(lǐng)域,一個(gè)名為BioMedGPT-1.6B的輕量級(jí)科研版基礎(chǔ)模型剛剛開(kāi)源。
參數(shù)16億,最大特點(diǎn)是跨模態(tài)與知識(shí)融合。
訓(xùn)練數(shù)據(jù)中,包含分子、文獻(xiàn)、專(zhuān)利、知識(shí)庫(kù)等多尺度跨模態(tài)的生物醫(yī)藥大數(shù)據(jù),并融合分子結(jié)構(gòu)、知識(shí)圖譜和文獻(xiàn)文本中的知識(shí),用于增強(qiáng)模型的泛化能力和可解釋性。
應(yīng)用任務(wù)上,BioMedGPT-1.6B則展現(xiàn)出了通用能“打”的效果,可以處理藥物性質(zhì)預(yù)測(cè)、自然語(yǔ)言類(lèi)、跨模態(tài)等多種任務(wù)。
打造這個(gè)BioMedGPT-1.6B生物醫(yī)藥基礎(chǔ)模型的團(tuán)隊(duì),來(lái)自清華智能產(chǎn)業(yè)研究院(AIR)。
項(xiàng)目負(fù)責(zé)人聶再清,清華大學(xué)國(guó)強(qiáng)教授、AIR首席研究員,主要研究領(lǐng)域是大數(shù)據(jù)與AI的前沿創(chuàng)新,以及在健康醫(yī)療領(lǐng)域的產(chǎn)業(yè)應(yīng)用,更早之前則以阿里達(dá)摩院大牛、天貓精靈首席科學(xué)家為人熟知。
△聶再清
此次開(kāi)源的BioMedGPT-1.6B,其實(shí)是他和團(tuán)隊(duì)正在做的BioMedGPT的單機(jī)輕量版,后者是一個(gè)適用于生物醫(yī)藥領(lǐng)域研發(fā)的通用大模型。
1.6B版本先行開(kāi)源,目的是小試牛刀,同時(shí)讓行業(yè)相關(guān)科研人員有東西可用。
所以,這個(gè)BioMedGPT究竟是做什么的,團(tuán)隊(duì)目前進(jìn)展如何?在業(yè)界已有不少生物醫(yī)藥專(zhuān)業(yè)大模型的情況下,做通用大模型的考量是什么,又要如何去做?
聶再清教授向我們解答了背后的思考。
生物醫(yī)藥版GPT,也應(yīng)具備“涌現(xiàn)”潛力
先來(lái)看看BioMedGPT究竟是個(gè)什么項(xiàng)目,進(jìn)展到了哪一階段。
聶再清教授認(rèn)為,就像ChatGPT成為了NLP領(lǐng)域的基礎(chǔ)大模型一樣,BioMedGPT也會(huì)成為生物醫(yī)藥領(lǐng)域的基礎(chǔ)大模型。
但在這里,“像ChatGPT”并不僅僅意味著B(niǎo)ioMedGPT=生物醫(yī)學(xué)大模型+對(duì)話能力,而是和ChatGPT一樣,會(huì)出現(xiàn)智力涌現(xiàn)的情況。
只不過(guò),這里的“智力”,指的是生物醫(yī)學(xué)領(lǐng)域方面知識(shí)的理解、規(guī)律的發(fā)現(xiàn)與靈感的啟迪。
這個(gè)基礎(chǔ)模型的底座能夠給藥物發(fā)現(xiàn)、分子/蛋白質(zhì)設(shè)計(jì)等應(yīng)用提供底層能力,同時(shí)能夠成為生物醫(yī)藥研究者的助手(Copilot)輔助研究者更高效的開(kāi)展研究探索。
所以,能實(shí)現(xiàn)這種效果的BioMedGPT,架構(gòu)上究竟長(zhǎng)啥樣?
整體來(lái)看,它是一個(gè)具備多個(gè)輸入Encoder的模型,這些Encoder會(huì)先分別處理不同模態(tài)的輸入,如分子、蛋白質(zhì)和文獻(xiàn)等。
然后,將這些不同模態(tài)的輸入,進(jìn)行統(tǒng)一表示處理,這樣就能學(xué)習(xí)到不同模態(tài)之間的關(guān)聯(lián)知識(shí)。
這給了模型“融會(huì)貫通”的能力,既可以讀文獻(xiàn)、查專(zhuān)利,又可以讀分子序列、蛋白結(jié)構(gòu)、實(shí)驗(yàn)數(shù)據(jù)。
不僅如此,BioMedGPT也是首個(gè)將多模態(tài)知識(shí)引入模型構(gòu)建的項(xiàng)目,通過(guò)知識(shí)圖譜的方式將生物醫(yī)藥領(lǐng)域的知識(shí)注入到模型中,以增強(qiáng)模型的泛化能力和可解釋性,同時(shí)能夠應(yīng)對(duì)科研領(lǐng)域知識(shí)的快速更迭,讓模型持續(xù)學(xué)習(xí),變得更“聰明”。
基于這種融會(huì)貫通與知識(shí)增強(qiáng)的能力,BioMedGPT在下游的多項(xiàng)任務(wù)中表現(xiàn)出了整體的效果提升。
目前團(tuán)隊(duì)已經(jīng)完成了實(shí)驗(yàn)驗(yàn)證階段,用一個(gè)比較小的端到端模型證明了這種思路的可行性。
那么最終能在生物醫(yī)藥方面表現(xiàn)出“智力涌現(xiàn)”的模型,預(yù)計(jì)在什么規(guī)模?
聶再清教授認(rèn)為,模型參數(shù)量級(jí)預(yù)計(jì)在幾百億左右,而訓(xùn)練這一模型達(dá)成“涌現(xiàn)”效果的數(shù)據(jù)量,幾十億到百億級(jí)應(yīng)該也就夠了。
事實(shí)上,在ChatGPT出現(xiàn)之前,也就是一年多以前,聶再清和團(tuán)隊(duì)就已經(jīng)在籌備這一項(xiàng)目,目前清華AIR生命科學(xué)相關(guān)團(tuán)隊(duì)規(guī)模已經(jīng)達(dá)到50人左右。
對(duì)于BioMedGPT的未來(lái),聶再清教授很有信心:
預(yù)計(jì)兩年內(nèi),這個(gè)模型應(yīng)該會(huì)在小范圍內(nèi)具備一定影響力,至于像ChatGPT那樣成為行業(yè)通用大模型,做到那樣的影響力可能至少還需要3~5年。
但即便如此,BioMedGPT模型究竟能否成功,目前仍舊是一個(gè)未知數(shù)。
同時(shí)對(duì)于大模型訓(xùn)練必不可少的算力和數(shù)據(jù)等方面,也仍然是業(yè)界關(guān)注的話題。
對(duì)于這些觀點(diǎn)和想法,聶再清教授又是如何看待的?
“一個(gè)理性而大膽的嘗試”
大模型的發(fā)展和AI技術(shù)的更迭組成了ChatGPT為首的一波AI新浪潮。
但早在聶再清教授動(dòng)念要將生物醫(yī)藥學(xué)科知識(shí)“塞”進(jìn)大模型里時(shí),ChatGPT還沒(méi)打破沉寂。
所以為什么要做?為什么敢做?
時(shí)間回到ChatGPT刮大風(fēng)之前。當(dāng)時(shí),GPT-2已經(jīng)可以編故事,下象棋;等到1750億參數(shù)GPT-3出現(xiàn),已經(jīng)博得眾人矚目:不僅延續(xù)了前代編故事的能力,還能寫(xiě)代碼、答問(wèn)題……
利用大規(guī)模文本數(shù)據(jù)學(xué)習(xí)語(yǔ)言知識(shí)和規(guī)律,加上狂疊參數(shù)的暴力美學(xué),GPT-3已經(jīng)在通用領(lǐng)域任務(wù)中出現(xiàn)涌現(xiàn)能力,到GPT-3.5,基本的邏輯推理能力突然出現(xiàn)。
在生物和化學(xué)領(lǐng)域,生命的本質(zhì)可以看做一種精密的編碼語(yǔ)言,尤其是生命科學(xué)領(lǐng)域中微觀世界的分子序列數(shù)據(jù)。
聶再清教授認(rèn)為,自然語(yǔ)言同樣也是一種非常精密的序列,缺一點(diǎn)或少一絲都會(huì)讓意思變得不一樣,因此二者具有類(lèi)似的特征。
基于此,大模型的底層思想或許有用于生命科學(xué)微觀數(shù)據(jù)處理的可能。如果能實(shí)現(xiàn),就能利用生物醫(yī)藥領(lǐng)域的專(zhuān)業(yè)知識(shí),幫助完成科研任務(wù)。
工作正式開(kāi)始之前,團(tuán)隊(duì)將微觀(基因、分子、蛋白質(zhì)、細(xì)胞)與文獻(xiàn)知識(shí)壓縮到一個(gè)端到端的模型里,用實(shí)驗(yàn)驗(yàn)證了這條思路的可能性——確實(shí)在部分藥物研發(fā)關(guān)鍵下游任務(wù)中取得SOTA效果。
于是,做一個(gè)適用于生物醫(yī)藥領(lǐng)域研發(fā)的基礎(chǔ)大模型這事,正式開(kāi)始了。
此前,無(wú)論是單獨(dú)針對(duì)分子、蛋白質(zhì)還是生物醫(yī)藥領(lǐng)域文獻(xiàn),都有團(tuán)隊(duì)單獨(dú)打造過(guò)大模型,但還沒(méi)有人做一個(gè)行業(yè)通用的多模態(tài)版本。而現(xiàn)在的開(kāi)源版本BioMedGPT-1.6B,并非一個(gè)接近AGI甚至與ChatGPT能力媲美的版本。
“畢竟大家的期待比較高,我們還是要把期待降下來(lái),”聶再清教授解釋選擇現(xiàn)在向外界告知進(jìn)度的原因,大方表示目前還達(dá)不到理想狀態(tài)的能力,“實(shí)際上,我們最主要還是想把現(xiàn)有工作服務(wù)到正在進(jìn)行相關(guān)研究的科研人員?!?/p>
但這樣的嘗試,被聶再清教授稱為一種理性而大膽的選擇。
理性,是因?yàn)橥ㄟ^(guò)實(shí)驗(yàn),確實(shí)發(fā)現(xiàn)人類(lèi)知識(shí)經(jīng)過(guò)encoder后,能夠產(chǎn)生幫助;大膽,是因?yàn)橐环矫孢€未完全證明這個(gè)工作的商業(yè)實(shí)用價(jià)值,工作還在初步階段,模型的規(guī)模和模態(tài)的種類(lèi)都有待擴(kuò)大。
但在這個(gè)樂(lè)觀的估計(jì)下,工作還是推進(jìn)了;不僅推進(jìn),還快速拿出了輕量級(jí)版本。
樂(lè)觀倒不是因?yàn)闆](méi)由來(lái)的盲目,聶再清教授表示,數(shù)據(jù)、算力和成本上,BioMedGPT暫時(shí)都不存在什么擔(dān)憂:
數(shù)據(jù)質(zhì)量上,生物醫(yī)學(xué)領(lǐng)域的論文和專(zhuān)利質(zhì)量“還是很高的”,不必過(guò)于擔(dān)心訓(xùn)練語(yǔ)料質(zhì)量不高的情況,并且目前已公開(kāi)的PubMedQA等數(shù)據(jù)集,數(shù)據(jù)量“已經(jīng)足夠”。
同時(shí),團(tuán)隊(duì)集合了具有生物醫(yī)學(xué)專(zhuān)業(yè)背景的同學(xué),對(duì)數(shù)據(jù)集的構(gòu)建做了精細(xì)專(zhuān)業(yè)的設(shè)計(jì)和專(zhuān)業(yè)的標(biāo)注。
當(dāng)然,還有一些任務(wù)所需的私有數(shù)據(jù),BioMedGPT希望通過(guò)未來(lái)的雙通道干濕閉環(huán)得到補(bǔ)充。
算力層面,聶再清教授是這樣表示的:
目前國(guó)內(nèi)敢跳出來(lái)宣布入局大模型的團(tuán)隊(duì),背后肯定已經(jīng)有足夠的算力支撐規(guī)劃。
數(shù)據(jù)豐富但公開(kāi),算力稀缺但不是無(wú)法解決,日后入局者紛至沓來(lái),是不是會(huì)在壁壘很薄的情況下形成不必要的行業(yè)競(jìng)爭(zhēng)?
聶再清教授表示了對(duì)這個(gè)問(wèn)題的否定,他認(rèn)為做的人越多,意味著關(guān)注度越高,最終的結(jié)果就是利好行業(yè)內(nèi)所有的AI制藥公司。
最后,我們也朝聶再清教授拋出了那個(gè)靈魂問(wèn)題——
生物醫(yī)藥研發(fā)階段,一切都容不得半點(diǎn)差錯(cuò),怎么約束大模型的幻覺(jué)?
聶再清教授說(shuō)了段繞口令般的話:
我們當(dāng)然希望,大模型知道“自己知道什么事”,也知道“它知道自己不知道什么事”。但,目前確實(shí)也會(huì)出現(xiàn)大模型“不知道自己不知道”的情況。
而大模型“不知道自己不知道”,就是我們常見(jiàn)的大模型幻覺(jué)——它以為自己知道,其實(shí)它不知道。
針對(duì)生物醫(yī)藥領(lǐng)域解決的思路,是通過(guò)兩個(gè)閉環(huán)來(lái)實(shí)現(xiàn)對(duì)模型的“糾偏”。?
干濕實(shí)驗(yàn)驗(yàn)證通過(guò)濕實(shí)驗(yàn),將模型真實(shí)性趨近物理真實(shí)世界;專(zhuān)家在環(huán)可控的設(shè)計(jì),則通過(guò)專(zhuān)家instruct,讓模型與人類(lèi)專(zhuān)家認(rèn)知趨近。
換言之,通過(guò)“做實(shí)驗(yàn)”和“跟專(zhuān)家學(xué)”兩個(gè)環(huán)路,讓AI模型幻覺(jué)降低。
聶再清與團(tuán)隊(duì)的下一站,就是通過(guò)兩個(gè)閉環(huán),盡可能擴(kuò)大“大模型知道自己能做啥”的范圍,以進(jìn)一步降低大模型“不知道自己不知道”的比例。
對(duì)于此次開(kāi)源,中國(guó)工程院院士、清華大學(xué)講席教授、AIR院長(zhǎng)張亞勤院士表示:
將大模型范式應(yīng)用于生命科學(xué)是理性又大膽的探索。
AIR的研究團(tuán)隊(duì)以構(gòu)建生物醫(yī)藥領(lǐng)域大模型為目標(biāo),相繼研發(fā)了多個(gè)生物醫(yī)藥專(zhuān)業(yè)領(lǐng)域的AI模型,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、抗體設(shè)計(jì)等領(lǐng)域取得了不錯(cuò)的成果。
此次開(kāi)源的輕量級(jí)科研版基礎(chǔ)模型BioMedGPT-1.6B是在生命科學(xué)領(lǐng)域的重要進(jìn)展。
未來(lái),研究團(tuán)隊(duì)將繼續(xù)用BioMedGPT進(jìn)一步整合領(lǐng)域內(nèi)多源異構(gòu)的數(shù)據(jù),將知識(shí)融入模型構(gòu)建之中,實(shí)現(xiàn)生物世界文本和知識(shí)的統(tǒng)一表示學(xué)習(xí),帶來(lái)生物醫(yī)藥領(lǐng)域的“智能涌現(xiàn)”。?
?開(kāi)源地址:https://github.com/BioFM/OpenBioMed