自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4V醫(yī)學(xué)執(zhí)照考試成績超過大部分醫(yī)學(xué)生,AI加入臨床還有多遠(yuǎn)?

人工智能 新聞
在最新的研究中,來自馬薩諸塞大學(xué)、復(fù)旦大學(xué)的跨學(xué)科研究人員團(tuán)隊(duì)利用生成式多模態(tài)預(yù)訓(xùn)練模型 GPT-4V (ision) 突破了人工智能在醫(yī)學(xué)問答中的最佳水平。

人工智能(AI)在醫(yī)學(xué)影像診斷方面的應(yīng)用已經(jīng)有了長足的進(jìn)步。然而,在未經(jīng)嚴(yán)格測試的情況下,醫(yī)生往往難以采信人工智能的診斷結(jié)果。對(duì)于他們來說,理解人工智能根據(jù)醫(yī)學(xué)影像給出的判別,需要增加額外的認(rèn)知成本。

為了增強(qiáng)醫(yī)生對(duì)輔助醫(yī)療的人工智能之間的信任,讓 AI 通過一個(gè)醫(yī)生必須通過的資格考試或許是一個(gè)有效的方法。醫(yī)學(xué)執(zhí)照考試是用來評(píng)估醫(yī)生專業(yè)知識(shí)和技能的標(biāo)準(zhǔn)化考試,是衡量一個(gè)醫(yī)生是否有能力安全有效地護(hù)理患者的基礎(chǔ)。

在最新的研究中,來自馬薩諸塞大學(xué)、復(fù)旦大學(xué)的跨學(xué)科研究人員團(tuán)隊(duì)利用生成式多模態(tài)預(yù)訓(xùn)練模型 GPT-4V (ision) 突破了人工智能在醫(yī)學(xué)問答中的最佳水平。研究測試了 GPT-4V 回答美國醫(yī)學(xué)執(zhí)照考試題的能力,特別是題目包含圖像的考題 —— 這對(duì)醫(yī)療人工智能系統(tǒng)來說一直以來都是一項(xiàng)挑戰(zhàn)。

該研究表明,GPT-4V 不僅超越了 GPT-4 和 ChatGPT 等前輩,還超越了大部分醫(yī)學(xué)生,為人工智能能夠作為輔助診斷和臨床決策的工具提供了理論上的可能。該研究分析了 GPT-4V 在不同醫(yī)學(xué)子領(lǐng)域的性能。

同時(shí),該研究還指出了醫(yī)療人工智能在一致解釋方面的局限性,強(qiáng)調(diào)了人機(jī)協(xié)作在未來醫(yī)療診斷中的重要性。

圖片

論文鏈接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3

測試問題收集

該研究中,用來測試人工智能醫(yī)學(xué)執(zhí)照考試的題型為涉及不同醫(yī)學(xué)領(lǐng)域、難度各異的帶有圖像的選擇題。論文作者們選擇了來自美國醫(yī)學(xué)執(zhí)照考試(USMLE)、醫(yī)學(xué)生考試題庫(AMBOSS)和診斷放射學(xué)資格核心考試(DRQCE)的三套選擇題,共計(jì) 226 道題(28 個(gè)醫(yī)學(xué)領(lǐng)域),來測試 GPT-4V 的準(zhǔn)確性。

其中 AMBOSS 和 DRQCE 的數(shù)據(jù)未公開,需要用戶注冊后才能獲取。AMBOSS 數(shù)據(jù)集中的每個(gè)問題都設(shè)定有對(duì)應(yīng)的難度。問題按難易程度分五級(jí),1、2、3、4 和 5 級(jí)分別代表學(xué)生第一次作答時(shí)最容易答對(duì)的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的問題。

此外,作者們還收集了醫(yī)療專業(yè)人士的偏好,用以評(píng)估 GPT-4V 的解釋是否違背醫(yī)學(xué)常識(shí)。當(dāng) GPT-4V 做錯(cuò)的時(shí)候,作者們還收集了來自醫(yī)療專業(yè)人士的反饋,用來改善 GPT-4V。

圖片用美國醫(yī)學(xué)執(zhí)照考試(USMLE)中包含圖像的考題測試 GPT-4V。

準(zhǔn)確性

結(jié)果顯示,GPT-4V 在帶有圖像的醫(yī)學(xué)執(zhí)照考試題上表現(xiàn)出了很高的準(zhǔn)確率,分別在 USMLE、AMBOSS 和 DRQCE 上達(dá)到了 86.2%、62.0% 和 73.1%,遠(yuǎn)遠(yuǎn)超過了 ChatGPT 和 GPT-4。與準(zhǔn)備考試的學(xué)生相比,GPT-4V 的大致排名能達(dá)到前 20-30% 的水平。

而在 2022 年,美國醫(yī)學(xué)執(zhí)照考試大約有前 90% 的考生通過了考試,這意味著 GPT-4V 想要獲得通過,也相對(duì)較為輕松。GPT-4V 的準(zhǔn)確率反映了它掌握大量生物醫(yī)學(xué)和臨床科學(xué)知識(shí),也能夠解決醫(yī)患相處中遇到的問題。這些都是進(jìn)入醫(yī)學(xué)臨床實(shí)踐的必備技能。

GPT-4V在美國醫(yī)學(xué)執(zhí)照考試(USMLE)的測試表現(xiàn)遠(yuǎn)遠(yuǎn)超過了 ChatGPT 和 GPT-4。

在使用提示和不使用提示的情況下,GPT-4V 在 AMBOSS 的準(zhǔn)確率分別為 86% 和 63%。隨著問題難度的增加,不使用提示時(shí) GPT-4V 的表現(xiàn)呈現(xiàn)下降趨勢(卡方檢驗(yàn),顯著性水平 0.05)。然而,當(dāng)使用提示提問時(shí),這種下降趨勢并未明顯觀察到。這表明,來自醫(yī)療專業(yè)人士的提示可以很好的幫助 GPT-4 做出正確的決策。

圖片

GPT-4V 和學(xué)生在不同難度 AMBOSS 考試上的準(zhǔn)確率

解釋性

在解釋質(zhì)量方面,作者們發(fā)現(xiàn),當(dāng) GPT-4V 回答正確時(shí),醫(yī)療專業(yè)人士對(duì) GPT-4V 給出的解釋與專家給出的解釋的偏好相差不大。這說明 GPT-4V 的解釋具有可信度和專業(yè)性。作者們還發(fā)現(xiàn),在 GPT-4V 的解釋中,有超過 80% 的回答包含了對(duì)題目中圖像和文本的解讀,這說明 GPT-4V 能夠利用多模態(tài)的數(shù)據(jù)來生成回答。

然而,當(dāng) GPT-4V 回答錯(cuò)誤時(shí),它的解釋中也存在一些嚴(yán)重的問題,例如圖像誤解(Image misunderstanding)、文本幻覺(Text hallucination)、推理錯(cuò)誤(Reasoning error)等,這些問題可能會(huì)影響 GPT-4V 的可靠性和可解釋性。

圖片

針對(duì)每道考試題,醫(yī)療專業(yè)人員從專家生成的解釋和 GPT-4V 生成的解釋中選擇偏好??荚嚪譃?Step1, Step2CK, Step3 共 3 個(gè)階段。每個(gè)階段抽取 50 道題目進(jìn)行測試。

作者發(fā)現(xiàn)許多 GPT-4V 回答錯(cuò)誤的解釋是圖像誤解。在 55 個(gè)錯(cuò)誤回答中,有 42 個(gè)回答(76.3%)是由圖像理解錯(cuò)誤所導(dǎo)致的。相比之下,只有 10 個(gè)回答(18.2%)錯(cuò)誤歸因于文本幻覺。

針對(duì)圖像誤解,作者建議使用以圖像或者文字為形式的提示。例如,醫(yī)生可以用箭頭指示圖中重要的位置,或者用一兩句話來解釋圖像的意義來提示模型。當(dāng)醫(yī)生使用文字提示的時(shí)候,就有 40.5% (17/42 個(gè)) 之前錯(cuò)誤的回答被 GPT-4V 改正了。

輔助診斷的潛力

作者還展示了使用 GPT-4V 作為影像診斷輔助工具的可能性。基于一個(gè)高血壓病人的病例報(bào)告,醫(yī)生對(duì) GPT-4V 進(jìn)行提問。定性分析表明,GPT-4V 能夠根據(jù) CT 掃描圖像、化驗(yàn)單和病人癥狀等其他信息,提供鑒別診斷和后續(xù)檢查的建議。詳細(xì)分析請(qǐng)參考原論文。

結(jié)論與展望

作者們認(rèn)為,GPT-4V 在帶有圖像的醫(yī)學(xué)執(zhí)照考試題上展現(xiàn)了非凡的準(zhǔn)確率,在臨床決策支持方面,GPT-4V 具備無窮的潛力。然而,GPT-4V 還需要改進(jìn)它的解釋質(zhì)量和可靠性,才能真正適用于臨床場景。

論文中嘗試使用提示來改進(jìn) GPT-4V 的判斷,取得了不錯(cuò)的效果,這為未來的研究提出了一個(gè)有希望的方向:開發(fā)更精細(xì)的人類人工智能協(xié)作系統(tǒng),使得其成為臨床環(huán)境中更可靠的工具。隨著技術(shù)的不斷進(jìn)步和研究不斷深入,我們有理由相信,AI 將在提高醫(yī)療質(zhì)量、減輕醫(yī)生工作負(fù)擔(dān)和促進(jìn)醫(yī)療服務(wù)普及化方面繼續(xù)發(fā)揮重要作用。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2011-12-26 17:13:18

iPad統(tǒng)計(jì)App

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2023-12-04 13:51:00

模型數(shù)據(jù)

2010-07-07 14:47:03

SQL Server

2023-11-05 15:13:38

AI測評(píng)

2023-12-12 12:43:19

AI訓(xùn)練

2015-08-04 09:56:48

2010-11-18 12:44:25

LibreOffice

2018-08-31 07:33:58

2019-08-09 09:40:45

AI 數(shù)據(jù)人工智能

2023-12-01 12:32:04

數(shù)據(jù)訓(xùn)練

2018-11-25 21:53:10

人工智能AI開發(fā)者

2018-09-17 15:09:28

區(qū)塊鏈去中心化互聯(lián)網(wǎng)

2011-11-09 09:59:21

云計(jì)算IT管理

2021-04-06 15:20:05

編程語言JavaIT

2021-08-06 17:44:45

云安全云計(jì)算網(wǎng)絡(luò)安全

2013-09-16 15:00:15

2010-08-19 10:47:59

諾基亞Ovi永久免費(fèi)

2020-02-06 13:43:35

微軟WindowsWindows 10
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)