178頁，128個案例，GPT-4V醫(yī)療領(lǐng)域全面測評，離臨床應(yīng)用與實際決策尚有距離

作者：機器之心 2023-11-05 15:13:38

上海交大&上海AI Lab發(fā)布178頁GPT-4V醫(yī)療案例測評，首次全面揭秘GPT-4V醫(yī)療領(lǐng)域視覺性能。

在大型基礎(chǔ)模型的推動下，人工智能的發(fā)展近來取得了巨大進步，尤其是 OpenAI 的 GPT-4，其在問答、知識方面展現(xiàn)出的強大能力點亮了 AI 領(lǐng)域的尤里卡時刻，引起了公眾的普遍關(guān)注。

GPT-4V (ision) 是 OpenAI 最新的多模態(tài)基礎(chǔ)模型。相較于 GPT-4，它增加了圖像與語音的輸入能力。該研究則旨在通過案例分析評估 GPT-4V (ision) 在多模態(tài)醫(yī)療診斷領(lǐng)域的性能，一共展現(xiàn)并分析共計了 128（92 個放射學(xué)評估案例，20 個病理學(xué)評估案例以及 16 個定位案例）個案例共計 277 張圖像的 GPT-4V 問答實例（注：本文不會涉及案例展示，請參閱原論文查看具體的案例展示與分析）。

ArXiv 鏈接：https://arxiv.org/abs/2310.09909
百度云下載地址：https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2
Google Drive下載地址：https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

總結(jié)而言，原作者希望系統(tǒng)地評估 GPT-4V 如下的多種能力：

GPT-4V 能否識別醫(yī)學(xué)圖像的模態(tài)和成像位置？識別各種模態(tài)（如 X 射線、CT、核磁共振成像、超聲波和病理）并識別這些圖像中的成像位置，是進行更復(fù)雜診斷的基礎(chǔ)。
GPT-4V 能否定位醫(yī)學(xué)影像中的不同解剖結(jié)構(gòu)？精確定位圖像中的特定解剖結(jié)構(gòu)對識別異常、確保正確處理潛在問題至關(guān)重要。
GPT-4V 能否發(fā)現(xiàn)和定位醫(yī)學(xué)圖像中的異常？檢測異常，如腫瘤、骨折或感染是醫(yī)學(xué)圖像分析的主要目標(biāo)。在臨床環(huán)境中，可靠的人工智能模型不僅需要發(fā)現(xiàn)這些異常，還需要準(zhǔn)確定位，以便進行有針對性的干預(yù)或治療。
GPT-4V 能否結(jié)合多張圖像進行診斷？醫(yī)學(xué)診斷往往需要綜合不同成像模態(tài)或視圖的信息，進行整體觀察。因此探究 GPT-4V 組合和分析多圖信息的能力至關(guān)重要。
GPT-4V 能否撰寫醫(yī)療報告，描述異常情況和相關(guān)的正常結(jié)果？對于放射科醫(yī)生和病理學(xué)家來說，撰寫報告是一項耗時的工作。如果 GPT-4V 在這一過程中提供幫助，生成準(zhǔn)確且與臨床相關(guān)的報告，無疑將提高整個工作流程的效率。
GPT-4V 能否在解讀醫(yī)學(xué)影像時整合患者病史？患者的基本信息和既往病史會在很大程度上影響對當(dāng)前醫(yī)學(xué)影像的解讀。在模型預(yù)測過程中如果能綜合考慮到這些信息去分析圖像將使分析更加個性化，也更加準(zhǔn)確。
GPT-4V 能否在多輪交互中保持一致性和記憶性？在某些醫(yī)療場景中，單輪分析可能是不夠的。在長時間的對話或分析過程中，尤其是在復(fù)雜的醫(yī)療環(huán)境中，保持對數(shù)據(jù)認(rèn)知的連續(xù)性至關(guān)重要。

原論文的評估涵蓋了 17 個醫(yī)學(xué)系統(tǒng)，包括：中樞神經(jīng)系統(tǒng)、頭頸部、心臟、胸部、血液、肝膽、肛腸、泌尿、婦科、產(chǎn)科、乳腺科、肌肉骨骼科、脊柱科、血管科、腫瘤科、創(chuàng)傷科、兒科。

圖像來自日常臨床使用的 8 種模態(tài)，包括：X 光、計算機斷層掃描 (CT)、磁共振成像 (MRI)、正電子發(fā)射斷層掃描 (PET)、數(shù)字減影血管造影 (DSA)、乳房 X 射線照相術(shù)、超聲波檢查和病理學(xué)檢查。

17 個醫(yī)學(xué)系統(tǒng)以及 8 種成像模態(tài)示意圖

論文指出，雖然 GPT-4V 在區(qū)分醫(yī)學(xué)影像模態(tài)和解剖結(jié)構(gòu)方面表現(xiàn)出很強的能力，但在疾病診斷和生成綜合報告方面卻仍面臨巨大挑戰(zhàn)。這些發(fā)現(xiàn)突出表明，雖然大型多模態(tài)模型在計算機視覺和自然語言處理方面取得了重大進展，但仍遠未達到有效支持真實世界的醫(yī)療應(yīng)用和臨床決策的要求。

測試案例挑選

原論文的放射學(xué)問答來自于 Radiopaedia，圖像直接從網(wǎng)頁下載，定位案例來自于多個醫(yī)學(xué)公開分割數(shù)據(jù)集，病理圖像則來自于 PathologyOutlines 。在挑選案例時作者們?nèi)娴目紤]了如下方面：

公布時間：考慮到 GPT-4V 的訓(xùn)練數(shù)據(jù)極有可能異常龐大，為了避免所選到的測試案例出現(xiàn)在訓(xùn)練集中，作者只選用了 2023 年發(fā)布的最新案例。
標(biāo)注可信度：醫(yī)療診斷本身具有爭議和模糊性，作者根據(jù) Radiopaedia 提供的案例完成度，盡量選用完成度大于 90% 的案例來保證標(biāo)注或診斷的可信程度。
圖像模態(tài)多樣性：在選取案例時，作者盡可能地展示 GPT-4V 對于多種成像模態(tài)的響應(yīng)情況。

在圖像處理時作者也做了如下規(guī)范化以保證輸入圖像的質(zhì)量：

多圖選擇：考慮到 GPT-4V 支持的最大圖像輸入上限為 4，但部分案例會有超過 4 張的相關(guān)圖像，首先作者在選取案例時會盡可能避免這種情況，其次在不可避免地遇到這種案例時，作者會根據(jù) Radiopaedia 提供的案例注釋挑選最相關(guān)的圖像。
截面選擇：大量的放射圖像數(shù)據(jù)為 3D（連續(xù)多幀二維圖像）形式，無法直接輸入 GPT-4V，必須挑選一個最有代表性的截面代替完整的 3D 圖像輸入 GPT-4V。根據(jù) Radiopaedia 的案例上傳規(guī)范，放射醫(yī)生在上傳 3D 圖像時被要求選擇一個最相關(guān)的截面。作者們利用了這一點，選用了 Radiopaedia 推薦的軸截面替代 3D 數(shù)據(jù)進行輸入。
圖像標(biāo)準(zhǔn)化：醫(yī)療圖像的標(biāo)準(zhǔn)化設(shè)計窗寬窗位的選擇，不同的視窗會突出不同的組織，作者們使用的 Radiopaedio 案例上傳時放射專家所選擇的窗寬窗位輸入圖像。對于分割數(shù)據(jù)集而言，原論文則采用了 [-300,300] 的視窗，并作 0-1 的案例級的歸一化。

原論文的測試均使用了 GPT-4V 的網(wǎng)頁版，第一輪問答用戶會輸入圖像，然后展開多輪的問答。為了避免上下文的互相影響，對于每次新的案例，都會新建一個問答窗口進行問答。

GPT-4V 問答案例，圖中紅色代表錯誤，黃色代表不確定，綠色代表正確，Reference 中的顏色則代表對應(yīng)判斷的依據(jù)，未標(biāo)記顏色的句子需要讀者自行判斷正確性，更多案例以及案例分析請參考原論文

在病理評估中，所有圖像都會進行兩輪對話。第一輪詢問能否僅根據(jù)輸入圖像生成報告。這一輪的目的是評估 GPT-4V 能否在不提供任何相關(guān)醫(yī)療提示的情況下識別圖像模態(tài)和組織來源。在第二輪中，用戶會提供正確的組織來源，并詢問 GPT-4V 是否能根據(jù)病理圖像及其組織來源信息做出診斷，希望 GPT-4V 能修改報告并提供明確的診斷結(jié)果。

病理圖像的案例展示，更多案例以及案例分析請參考原論文

在定位評估中，原論文采取了循序漸進的方式：首先測試 GPT-4V 是否能識別出所提供圖像中目標(biāo)的存在；然后要求它根據(jù)圖像左上角為（x，y）=（0，0）和右下角為（x，y）=（w，h）生成目標(biāo)的邊界框坐標(biāo)，并對每個單一定位任務(wù)重復(fù)評估多次，以獲得至少 4 個預(yù)測邊界框，計算它們的 IOU 分?jǐn)?shù)，并選出最高的一個來證明其上限性能；然后得出平均邊界框，計算 IOU 分?jǐn)?shù)，以證明其平均性能。

定位問答的案例展示，更多案例以及案例分析請參考原論文

測評中的局限性

當(dāng)然原作者也提到了一些測評中的不足與限制：

1. 只能進行定性而非定量的評估

鑒于 GPT-4V 只提供在線網(wǎng)頁界面，只能手動上傳測試用例，導(dǎo)致原評估報告在可擴展性方面受到限制，因此只能提供定性評估。

2. 樣本偏差

所選樣本均來自在線網(wǎng)站，可能無法反映日常門診中的數(shù)據(jù)分布情況。尤其是大多數(shù)評估病例都是異常病例，這可能會給評估帶來潛在偏差。

3. 注釋或參考答案并不完整

從 Radiopaedia 或者 PathologyOutlines 網(wǎng)站上獲得的參考描述大多沒有結(jié)構(gòu)，也沒有標(biāo)準(zhǔn)化的放射學(xué) / 病理學(xué)報告格式。特別是，這些報告中的大部分主要側(cè)重于描述異常情況，而不是對病例進行全面描述，并不能直接作為完美的回復(fù)簡單對比。

4. 只有二維切片輸入

在實際臨床環(huán)境中，包括 CT、MRI 掃描在內(nèi)的放射圖像通常采用 3D DICOM 格式。然而，GPT-4V 最多只能支持四張二維圖像的輸入，所以原文在測評時只能輸入二維關(guān)鍵切片或小片段（用于病理學(xué)）。

總之，盡管評估可能并不徹底詳盡，但原作者們相信，這一分析仍舊可以為研究人員和醫(yī)學(xué)專業(yè)人員提供了寶貴的見解，它揭示了多模態(tài)基礎(chǔ)模型的當(dāng)前能力，并可能激勵未來建立醫(yī)學(xué)基礎(chǔ)模型的工作。

重要觀察結(jié)果

原測評報告根據(jù)測評案例，概括了多個觀察到的 GPT-4V 的表現(xiàn)特點：

放射案例部分

作者們根據(jù) 92 個放射學(xué)評估案例和 20 個定位案例得出如下觀察結(jié)果：

1. GPT-4V 可以辨識出醫(yī)療圖像的模態(tài)以及成像位置

對于大多數(shù)圖像內(nèi)容的模態(tài)識別、成像部位判定以及圖像平面類別判定等任務(wù)，GPT4-V 都表現(xiàn)出了良好的處理能力。例如，作者們指出 GPT-4V 能很容易區(qū)分核磁共振、CT、X 光等各種模態(tài)；判斷圖像所描述的人體具體部位；判斷出核磁共振圖像的軸位、失狀位和冠狀位等。

2. GPT-4V 幾乎無法做出精確的診斷

作者們發(fā)現(xiàn)：一方面，OpenAI 似乎設(shè)置了安全機制，嚴(yán)格限制了 GPT-4V 做出直接診斷；另一方面，除了針對非常明顯的診斷案例，GPT-4V 的分析能力較差，僅局限于列舉出可能存在的一系列疾病，而不能給出較為精確的診斷。

3. GPT-4V 可以生成出結(jié)構(gòu)化的報告，但是內(nèi)容大部分并不正確

GPT-4V 在絕大多數(shù)情況下都能生成較為標(biāo)準(zhǔn)的報告，但作者們認(rèn)為，相比于整合程度更高且內(nèi)容更靈活的手寫報告，在針對多模態(tài)或多幀圖像時，它更傾向于逐圖描述且缺乏綜合能力。因此內(nèi)容大部分參考價值較小且缺乏準(zhǔn)確性。

4. GPT-4V 可以辨識出醫(yī)學(xué)圖像中的標(biāo)記以及文本注釋，但并不能理解其出現(xiàn)在圖像中的意義

GPT-4V 展現(xiàn)出較強的文本識別、標(biāo)記識別等能力，并且會嘗試?yán)眠@些標(biāo)記進行分析。但作者們認(rèn)為，其局限性在于：其一，GPT-4V 總是會過度利用文本和標(biāo)記且圖像本身成為次要參考對象；其二，它魯棒性較低，常常會誤解圖像中的醫(yī)學(xué)注釋和引導(dǎo)。

5. GPT-4V 可以辨識出醫(yī)療植入器械以及它們在圖像中的位置

在大多數(shù)案例中，GPT4-V 都能正確識別到植入人體的醫(yī)療設(shè)備，并較為準(zhǔn)確地定位它們的位置。并且作者們發(fā)現(xiàn)，甚至在一些較為困難的案例中，可能出現(xiàn)診斷錯誤，但判斷醫(yī)療設(shè)備識別正確的情況。

6. GPT-4V 面對多圖輸入時會遇到分析障礙

作者們發(fā)現(xiàn)，在面對同一模態(tài)的不同視角下的圖像時，GPT-4V 盡管會展現(xiàn)出相比于進輸入單張圖的更好的分析能力，但仍然傾向于分別對每張視圖進行單獨的分析；而在面對不同模態(tài)的圖像混合輸入時，GPT-4V 更難得出綜合了不同模態(tài)信息的合理分析。

7. GPT-4V 的預(yù)測極易受到患者疾病史的引導(dǎo)

作者們發(fā)現(xiàn)是否提供患者疾病史會對 GPT-4V 的回答產(chǎn)生較大影響。在提供疾病史的情況下，GPT-4V 常常會將其作為關(guān)鍵點，對圖中的潛在異常做出推斷；而在不提供疾病史的情況下，GPT-4V 則會更傾向于將圖像作為正常案例進行分析。

8. GPT-4V 并不能在醫(yī)學(xué)圖像中定位到解剖結(jié)構(gòu)和異常

作者們認(rèn)為 GPT-4V 定位效果較差主要表現(xiàn)為：其一，GPT-4V 在定位過程中總是會得到遠離真實邊界的預(yù)測框；其二，它在對同一幅圖的多輪重復(fù)預(yù)測中表現(xiàn)出顯著的隨機性；其三，GPT-4V 顯示出了明顯的偏置性，例如：腦部 MRI 圖像中小腦一定位于底部。

9. GPT-4V 可以根據(jù)用戶的多輪交互，改變它的既有回答

GPT-4V 可以在一系列的互動中修改其響應(yīng)，使之正確。例如，在文中所示的例子中，作者們輸入了子宮內(nèi)膜異位癥的 MRI 圖像。GPT-4V 最初錯誤地將盆腔 MRI 分類為膝關(guān)節(jié) MRI，從而得到了一個不正確的輸出。但用戶通過與 GPT-4V 的多輪互動對其進行糾正，最終做出了準(zhǔn)確的診斷。

10. GPT-4V 幻覺問題嚴(yán)重，尤其傾向?qū)⒒颊邤⑹鰹檎＜词巩惓Ｐ盘枠O為顯著

GPT-4V 總是生成出結(jié)構(gòu)上看上去非常完整詳實的報告，但其中的內(nèi)容卻并不正確，很多時候即使圖像異常區(qū)域明顯它仍舊會認(rèn)為患者正常。

11. GPT-4V 在醫(yī)學(xué)問答上不夠穩(wěn)定

GPT-4V 在常見圖像和罕見圖像上的表現(xiàn)差異巨大，在不同的身體系統(tǒng)方面也展現(xiàn)出明顯的性能差別。另外，對同一醫(yī)學(xué)圖像的分析可能會因更改 prompt 而產(chǎn)生不一致的結(jié)果，例如，如，GPT-4V 在 “ What is the diagnosis for this brain CT?” 的 prompt 下最初判斷給定的圖像為異常，但后來它生成了一個認(rèn)為同一圖像為正常的報告。這種不一致性強調(diào)了 GPT-4V 在臨床診斷中的性能可能是不穩(wěn)定和不可靠的。

12. GPT-4V 對醫(yī)療領(lǐng)域做了嚴(yán)格的安全限制

作者們發(fā)現(xiàn) GPT-4V 已經(jīng)在醫(yī)學(xué)領(lǐng)域的問答中建立了防止?jié)撛谡`用的安全防護措施，確保用戶能夠安全使用。例如，當(dāng) GPT-4V 被要求做出診斷時，"Please provide the diagnosis for this chest X-ray."，它可能會拒絕給出答案，或強調(diào) “我不是專業(yè)醫(yī)學(xué)建議的替代品”。在多數(shù)情況下，GPT-4V 會傾向于使用包含 “appears to be” 或 “could be” 之類的短語來表示不確定性。

病理案例部分

此外，作者們?yōu)榱颂剿?GPT-4V 在病理圖像的報告生成和醫(yī)學(xué)診斷方面的能力，對來自不同組織的 20 種惡性腫瘤病理圖像開展了圖像塊級別的測試，并得出以下結(jié)論：

1. GPT-4V 能夠進行準(zhǔn)確的模態(tài)識別

在所有測試案例中，GPT-4V 都可以正確地識別所有病理圖像（H&E 染色的組織病理圖像）的模態(tài)。

2. GPT-4V 能夠生成結(jié)構(gòu)化報告

給定一個沒有任何醫(yī)學(xué)提示的病理圖像，GPT-4V 可以生成一個結(jié)構(gòu)化且詳細(xì)的報告來描述圖像特征。在 20 個案例中，有 7 個案例能夠使用如 “組織結(jié)構(gòu)”、“細(xì)胞特征”、“基質(zhì)”、“腺體結(jié)構(gòu)”、“細(xì)胞核” 等術(shù)語明確地列出了其觀察結(jié)果，甚至可以正確地從不同組織的病理圖像中識別腺體結(jié)構(gòu)和上皮特征。

3. GPT-4V 在 Prompt 的引導(dǎo)下能夠?qū)蟾孢M行修正

當(dāng)在第二輪對話的 prompt 中對組織器官進行修正時，GPT-4V 可以很大程度地修改報告修改其報告，并為預(yù)測正常的案例提供一個確切的診斷，或為預(yù)測異常的案例提供幾個可能的選項。

4. GPT-4V 生成的描述大多基于知識

盡管 GPT-4V 可以為病理圖像寫一個結(jié)構(gòu)化的報告，但許多關(guān)于細(xì)胞和細(xì)胞核的詳細(xì)描述都是 H&E 染色圖像的通用特征，而不是根據(jù)圖像特有模式生成。此外，GPT-4V 提供的診斷結(jié)果也可能來源于通用醫(yī)學(xué)知識，而不是根據(jù)病理圖像的形態(tài)結(jié)構(gòu)推理得到。

5. GPT-4V 的診斷性能有限

在 20 個案例中，GPT-4V 將四個腫瘤案例誤診為正常組織，正確診斷了源于膀胱、中樞神經(jīng)系統(tǒng)和口腔組織中的 3 類癌癥，對其余 13 個惡性腫瘤則給出了模糊的診斷。尤其是針對肛門和子宮組織上的癌癥，GPT-4V 的診斷結(jié)果中既包含正常組織也涵蓋惡性腫瘤，這表明 GPT-4V 可能并沒有真正從這些病理圖像中檢測到異常。

總的來說，GPT-4V 在醫(yī)療領(lǐng)域的表現(xiàn)并不像 GPT-4 在醫(yī)療問答中那樣驚艷，遠未達到實際臨床要求。

本文只概括性的截取了部分原論文觀點，更多分析細(xì)節(jié)請參考原文。

責(zé)任編輯：張燕妮來源：機器之心

AI 測評

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

178頁，128個案例，GPT-4V醫(yī)療領(lǐng)域全面測評，離臨床應(yīng)用與實際決策尚有距離

測試案例挑選

測評中的局限性

重要觀察結(jié)果

178頁，128個案例，GPT-4V醫(yī)療領(lǐng)域全面測評，離臨床應(yīng)用與實際決策尚有距離