ICLR 2024 | UIUC等提出BioBridge:用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型
01 引言
這是 UIUC Zifeng Wang 等發(fā)表在 ICLR'24 上的論文。
論文題目:
BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs
論文鏈接:
??https://arxiv.org/pdf/2310.03320.pdf??
在生物醫(yī)學(xué)研究領(lǐng)域,一直以來,基礎(chǔ)模型(Foundation Models,簡(jiǎn)稱FMs)大多局限于單一模態(tài)的數(shù)據(jù)處理,比如僅僅專注于蛋白質(zhì)序列、小分子結(jié)構(gòu)或者是臨床數(shù)據(jù)分析。這種單模態(tài)的處理框架雖然在特定任務(wù)上表現(xiàn)出色,但在應(yīng)對(duì)多樣化的生物醫(yī)學(xué)數(shù)據(jù)時(shí),其潛能卻受到了限制。
▲ 幾種構(gòu)建多模態(tài)模型的方法:CLIP,ImageBind,BioBridge
02 CLIP
傳統(tǒng)的多模態(tài)方法,比如大名鼎鼎的 CLIP 模型 [1],大多建立在配對(duì)的多模態(tài)數(shù)據(jù)上。比如,如果我們要訓(xùn)練一個(gè)蛋白質(zhì)-文本模型,就需要收集大量的蛋白質(zhì)序列和其對(duì)應(yīng)的文本描述,從而做對(duì)比學(xué)習(xí)。這一類工作有很多,比如在 x-rays 和臨床筆記上做對(duì)比的 MedCLIP [2],在文本和蛋白質(zhì)上做的 ProteinDT [3],在文本和分子上做的 MolT5 [4],等等。
但是,假如我們有超過兩個(gè)模態(tài),比如有三個(gè)模態(tài) A,B,C,在這種思路下,我們就需要三種配對(duì)數(shù)據(jù),AB, AC, 和 BC,才能訓(xùn)練一個(gè)三塔的多模態(tài)模型。當(dāng)存在更多模態(tài)的時(shí)候,這種對(duì)于數(shù)據(jù)的需要是排列組合式增長(zhǎng)的。這就使這種配對(duì)數(shù)據(jù)的思路很難用于超過兩個(gè)模態(tài)的情況。
03 ImageBind
ImageBind [5] 是 Meta AI 提出的一種用來構(gòu)建多模態(tài)檢索模型的一種方法。其本質(zhì)是選擇一個(gè)模態(tài)作為中間模態(tài),比如圖片,然后讓其他模態(tài)的模型都向圖片模態(tài)靠攏。在這情況下,假設(shè)我們有一個(gè)中間模態(tài) A,還有另外兩個(gè)模態(tài) B,C,我們就需要收集 AB 和 AC 兩種配對(duì)數(shù)據(jù)。在這種情況下,ImageBind 一共需要 (模態(tài)數(shù)-1)個(gè)數(shù)的配對(duì)數(shù)據(jù),而且需要更新 (模態(tài)數(shù)-1)個(gè)模態(tài)的編碼器來構(gòu)建多模態(tài)系統(tǒng)。
04 BioBridge
本文提出用知識(shí)圖譜(KG)來作為多模態(tài)數(shù)據(jù)源,從而將獨(dú)立訓(xùn)練的單模態(tài)基礎(chǔ)模型橋接(Bridge)成一個(gè)能夠處理多種數(shù)據(jù)模態(tài)的系統(tǒng)(Multimodal FM)。
單模態(tài)的數(shù)據(jù)往往比多模態(tài)數(shù)據(jù)的數(shù)量要大的多。我們可以收集到超過 2.5 億個(gè)蛋白質(zhì)序列或者 15 億個(gè)分子結(jié)構(gòu),但是只能收集到 44 萬個(gè)蛋白質(zhì)文本對(duì)。大模型的縮放原理告訴我們,基礎(chǔ)模型需要“大”數(shù)據(jù)才能產(chǎn)生所謂的 emergent ability。所以我們更容易訓(xùn)練出很好的單模態(tài)模型,卻不容易從零開始訓(xùn)練出一個(gè)多模態(tài)模性。
在這種思路下,我們希望能夠在訓(xùn)練好的單模態(tài)基礎(chǔ)模型的基礎(chǔ)上,去把它們合并在一起去作為一個(gè)多模態(tài)的系統(tǒng)。這就產(chǎn)生了這篇文章里提到的 “bridge” 的概念。
KG 存在許多三元組,比如(蛋白質(zhì) A, associated with,疾病 B)。這樣,我們希望能夠用一個(gè)單模態(tài)的蛋白質(zhì)模型去編碼蛋白質(zhì) A,然后設(shè)計(jì)一個(gè)關(guān)系模型取編碼 “associated with”,將蛋白質(zhì) A 的embedding 映射到疾病的 space 里。這樣,我們可以匹配由蛋白質(zhì) A 生成的 embedding 和疾病 B 的 embedding,做到跨模態(tài)檢索。
通過 BioBridge,不同類型的生物醫(yī)學(xué)數(shù)據(jù)能夠?qū)崿F(xiàn)無縫交互和轉(zhuǎn)換,而且這一切都不需要對(duì)原有的單模態(tài)模型做任何調(diào)整。
05 一些結(jié)果
這里放一小部分結(jié)果,更多的結(jié)果在原文可見。
這里我們是用 BioBridge 來根據(jù)輸入的文本,檢索相關(guān)的蛋白質(zhì),再用蛋白質(zhì)+文本去 prompt Galactica 生成分子模型。這里的思路是利用 BioBridge 來構(gòu)建一個(gè)多模態(tài)的 RAG 系統(tǒng)。本文發(fā)現(xiàn)加上 RAG 的 galactica 能夠更好地生成符合輸入文本描述的分子。
本文轉(zhuǎn)自 PaperWeekly ,作者:Zifeng Wang
