識別細胞也能用大模型了!清華系團隊出品,已入選ICML 2024 | 開源
大模型帶來的生命科學領域突破,剛剛再傳新進展。
來自清華系,使用大模型實現(xiàn)了單細胞身份識別,同時模型LangCell也正式對外開源。
它不僅可以準確識別細胞身份,還具有很強的零樣本分析能力,論文已被ICML 2024錄?。
LangCell的數(shù)據集中包含約2750萬條數(shù)據,覆蓋了細胞類型、發(fā)育階段、組織器官、疾病等8個維度的信息,稱得上是“細胞的百科全書”。
實際測試中,LangCell也在多個細胞識別理解任務上超越了前SOTA,在研究人員專門設計的新任務上也表現(xiàn)突出。
而且,即使在不使用文本信息的情況下,單獨用其包含的細胞編碼器模塊,也能在各個任務上實現(xiàn)最優(yōu)表現(xiàn)。
出品團隊:清華系創(chuàng)業(yè)公司??分?與清華?學AIR聶再清教授團隊。
大模型,細胞識別的“新武器”
細胞,是探索?命奧秘的起點,細胞?份的識別,是?物科學領域的??熱點。
這不僅關乎細胞的“戶?調查”,還關系到它們在組織中的“社交關系”,以及它們對“?物信號”和“環(huán)境變化”的敏感反應,?了解這些信息的重要途徑,就是分析單細胞測序數(shù)據。
但單細胞測序數(shù)據分析,就像是?場科學界的“尋寶游戲”,可能需要?個??到???不等的跨學科的團隊,用?周到?個?,甚?更?時間來完成。
現(xiàn)在,LangCell模型成為了細胞?份識別的“新武器”。
LangCell是?個結合單細胞RNA測序數(shù)據與?然語?處理進?預訓練的單細胞表征模型,不僅提?了識別的準確性,還減少了對?量標記數(shù)據的依賴。
傳統(tǒng)的單細胞RNA測序數(shù)據分析,就像是在沒有地圖的情況下尋找寶藏,雖然能找到?些線索,但總有些?不從?。
?LangCell模型,通過構建單細胞數(shù)據和?然語?的統(tǒng)?表?,就像是給了模型?張“藏寶圖”,讓它能夠更直接地找到與細胞?份相關的信息。
具體來說,LangCell主要由細胞編碼器(Cell Encoder,CE)和文本編碼器兩部分組成。
其中細胞編碼器使用預訓練的Geneformer初始化。將排序后的基因表達序列輸入轉化為嵌入向量序列,在序列開始處添加[CLS]標記,其嵌入向量經過線性變換作為整個細胞的表征向量。
文本編碼器又有單模態(tài)和多模態(tài)兩種編碼模式。
單模態(tài)時相當于一個BERT模型,用于將文本轉換為嵌入向量;
多模態(tài)時在self-attention后添加cross-attention模塊,融合細胞嵌入向量計算聯(lián)合表征,并通過線性層預測細胞-文本匹配概率。
為訓練LangCell,研究?員還構建了?個名為scLibrary的數(shù)據集,它包含了2750萬條scRNA-seq數(shù)據及從OBO Foundry中獲取的細胞?份的多視??本描述,就像是細胞研究的“百科全書”。
這個數(shù)據集不僅包含了?量的原始數(shù)據,還包含了多視?的細胞?份?本描述,為模型提供了豐富的學習材料。
此外在零樣本場景中,只需未知類型細胞的scRNA-seq數(shù)據輸入到CE中,得到細胞嵌入向量表征,然后與候選類型的文本嵌入向量進行相似度計算,分數(shù)最高的類型即被預測為該未知細胞的類型。
結果,LangCell模型在零樣本細胞?份理解場景中表現(xiàn)出?,即使沒有進?微調,也能直接對新的細胞類型進?注釋。
在PBMC數(shù)據集上,零樣本的LangCell分類準確率就已達到86.5%,F(xiàn)1評分更是超過了前SOTA模型的9-shot表現(xiàn)。
在更具挑戰(zhàn)的跨數(shù)據集的細胞-文本檢索任務中,LangCell的零樣本召回率R@1、R@5和R@10結果都超過了用30%標注數(shù)據訓練的BioTranslator模型。
此外,研究者還專門構建了“非小細胞肺癌亞型分類”和“細胞通路識別”兩個具有重要生物學意義的新基準測試任務。
結果在非小細胞肺癌亞型分類任務中,LangCell的零樣本分類準確率和F1分數(shù)分別達到93.5%和93.2%,比10-shot的Geneformer高出約20%。
而對于細胞批次整合任務,在PBMC10K和Perirhinal Cortex兩個數(shù)據集上,LangCell的Avgbio、ASWbatch和Sfinal三個指標均達到了最優(yōu)。
不僅LangCell的表現(xiàn)優(yōu)異,即使在不使用文本信息的情況下,單獨的CE模塊也能在各個任務上實現(xiàn)最優(yōu)表現(xiàn)。
在多個細胞類型注釋任務的數(shù)據集上,CE模塊的成績都超過了前SOTA,在細胞通路識別上的表現(xiàn)也十分優(yōu)異。
作者介紹,LangCell的這些能力,在新疾病或細胞亞型的研究中尤為重要,可以減少對?量標記數(shù)據的依賴,加速疾病機理的發(fā)現(xiàn)。
團隊簡介
??分?由清華?學智能產業(yè)研究院(AIR)孵化,重點研究方向是?物醫(yī)藥?業(yè)基礎?模型及新?代對話式?物醫(yī)藥研發(fā)助?。
水木分子和清華大學還有兩項與北大和南大共同研發(fā)的成果一同入選了ICML 2024,分別在小分子3D表示學習和大分子蛋白質表示學習方面取得進展。
GitHub:https://github.com/PharMolix/OpenBioMed
論文地址https://arxiv.org/abs/2405.06708