哈佛、麻省推出面向醫(yī)學(xué)多模態(tài)助手—PathChat
哈佛醫(yī)學(xué)院、麻省理工學(xué)院、俄亥俄州立大學(xué)韋克斯納醫(yī)學(xué)等研究人員聯(lián)合推出了,面向醫(yī)學(xué)領(lǐng)域的多模態(tài)AI助手——PathChat。
PathChat不僅能理解、分析復(fù)雜的醫(yī)學(xué)圖像,還能基于多輪文本對(duì)話,為臨床醫(yī)生、醫(yī)護(hù)人員提供精準(zhǔn)和個(gè)性化的病理學(xué)指導(dǎo)。
論文地址:https://www.nature.com/articles/s41586-024-07618-3
為了提升PathChat的多功能處理能力,使用了一個(gè)多模態(tài)架構(gòu)由視覺編碼器、多模態(tài)投影和大語言模型三大塊組成。
視覺編碼器充當(dāng)PathChat的“眼睛”也是整個(gè)架構(gòu)的核心模塊之一,可將高分辨率的病理學(xué)圖像轉(zhuǎn)換成機(jī)器可以處理的低維特征表示,使得視覺信息能夠被語言模型理解和處理。視覺編碼器使了自監(jiān)督學(xué)習(xí)方法,可以從未標(biāo)記的圖像中學(xué)習(xí)。
多模態(tài)投影模塊作為視覺與語言的橋梁,接收了圖像特征的進(jìn)一步處理。該模塊通過注意力池化層和多層感知器(MLP)來實(shí)現(xiàn),將視覺特征圖轉(zhuǎn)換為固定長度的圖像標(biāo)記序列。這些圖像標(biāo)記隨后被映射到與語言模型的嵌入維度相同的空間,為后續(xù)的語言模型處理做好了準(zhǔn)備。
大語言模型方面,PathChat使用的是Meta開源的Llama 2家族的130億參數(shù)變體作為其核心模型。
這是一個(gè)基于Transformer架構(gòu)的自回歸語言模型,包含40層Transformer,每層有40個(gè)注意力頭,嵌入維度為5,120,隱藏維度為13,824,并采用了旋轉(zhuǎn)位置編碼,能夠處理長達(dá)4,096的上下文序列。不僅能夠處理文本,還能在接收到視覺特征后,給出準(zhǔn)確的文本回應(yīng)。
PathChat的訓(xùn)練過程分為兩個(gè)階段。在預(yù)訓(xùn)練階段,大語言模型的權(quán)重被凍結(jié),只有多模態(tài)投影模塊接收參數(shù)更新。
該階段的目的是讓投影模塊學(xué)會(huì)如何將視覺編碼器的輸出即圖像的低維特征表示——映射到與大語言模型的文本嵌入空間相同的維度,使用了大約100,000對(duì)圖像和字幕對(duì)。
隨后,進(jìn)入PathChat指令微調(diào)階段,大語言模型和投影模塊共同接受端到端的訓(xùn)練,以生成對(duì)多樣化指令的響應(yīng)。
這些指令包括了自然語言和視覺輸入,反映了病理學(xué)領(lǐng)域內(nèi)的真實(shí)查詢。通過這種方式,PathChat能夠?qū)W習(xí)如何理解和生成與病理學(xué)相關(guān)的復(fù)雜響應(yīng)。
為了驗(yàn)證其性能,PathChat在多項(xiàng)選擇診斷問題和開放性問答場景中接受了測試。結(jié)果顯示,在面對(duì)公開和私有病例的診斷測試時(shí),PathChat相比LLaVa-1.5、GPT-4V等模型具有顯著優(yōu)勢,尤其在綜合考量了圖像和臨床情境的診斷問題上,其準(zhǔn)確率超出20%以上。
除了在測試中的優(yōu)異表現(xiàn),PathChat還展現(xiàn)了其在多種應(yīng)用場景中的潛力。例如,它能分析不同器官部位的病理圖像,參與人機(jī)交互的鑒別診斷過程,尤其在資源有限或處理如未知原發(fā)性癌癥等復(fù)雜情況時(shí),PathChat通過與病人的多輪深度對(duì)話,逐步縮小鑒別范圍,輔助醫(yī)生作出更精確的診斷。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
