o1模型醫(yī)學(xué)推理驚人,超過(guò)人類醫(yī)生
在醫(yī)療領(lǐng)域,大模型的應(yīng)用和影響力正在不斷擴(kuò)大。但當(dāng)前對(duì)于大模型在醫(yī)療任務(wù)中的評(píng)估主要依賴于選擇題基準(zhǔn)測(cè)試,這種方式存在很多局限性,例如,高度受限、無(wú)法真實(shí)反映臨床決策復(fù)雜性以及模型可能通過(guò)語(yǔ)義結(jié)構(gòu)答題等問(wèn)題。
為了更全面真實(shí)地評(píng)估大模型在醫(yī)學(xué)推理任務(wù)中的實(shí)際能力,哈佛醫(yī)學(xué)院、馬里蘭大學(xué)醫(yī)學(xué)院、劍橋健康聯(lián)盟、斯坦福大學(xué)等通過(guò)OpenAI的o1-preview模型,設(shè)計(jì)了一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),包括鑒別診斷生成、推理展示、概率推理和管理推理等多個(gè)關(guān)鍵測(cè)試,并由經(jīng)驗(yàn)豐富的專家醫(yī)師用經(jīng)過(guò)嚴(yán)格驗(yàn)證的測(cè)量方法,對(duì)模型輸出的質(zhì)量進(jìn)行全面且細(xì)致的評(píng)估
結(jié)果顯示,o1-preview在差異診斷生成、展示推理和管理推理等方面展現(xiàn)了超越人類水平的表現(xiàn),尤其是在需要批判性思維的任務(wù)如診斷和管理上表現(xiàn)非常出色。
在數(shù)據(jù)收集方面,研究團(tuán)隊(duì)采用了多種評(píng)分系統(tǒng)和統(tǒng)計(jì)方法來(lái)評(píng)估o1-preview的表現(xiàn)。例如,對(duì)于鑒別診斷的質(zhì)量,兩位主治內(nèi)科醫(yī)師獨(dú)立使用Bond Score進(jìn)行評(píng)分,該評(píng)分系統(tǒng)的范圍是0到5,其中5分代表包含確切目標(biāo)診斷的鑒別診斷列表,0分代表與目標(biāo)診斷無(wú)關(guān)的鑒別診斷列表。
對(duì)于測(cè)試計(jì)劃的質(zhì)量,評(píng)分使用了從0到2的Likert量表,通過(guò)將建議的測(cè)試計(jì)劃與案例中實(shí)際進(jìn)行的診斷進(jìn)行比較。此外,研究團(tuán)隊(duì)還使用了線性加權(quán)Cohen's kappa來(lái)評(píng)估評(píng)分者之間的一致性,并通過(guò)討論解決不一致的評(píng)分。
在統(tǒng)計(jì)分析方面,研究團(tuán)隊(duì)使用了R語(yǔ)言進(jìn)行數(shù)據(jù)分析。他們比較了o1-preview與歷史上的GPT-4、主治醫(yī)師和住院醫(yī)師的表現(xiàn),并使用了McNemar's test、t-test和混合效應(yīng)模型等統(tǒng)計(jì)方法來(lái)評(píng)估模型之間的差異。
研究人員首先評(píng)估的是NEJM CPCs案例,是鑒別診斷生成器的傳統(tǒng)標(biāo)準(zhǔn)。o1-preview在這些案例中的表現(xiàn)令人印象深刻。
在143個(gè)案例中,o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中,而在70個(gè)與GPT-4相同的案例中,o1-preview在88.6%的情況下提供了確切或非常接近的診斷,相較于GPT-4的72.9%有顯著提升。
在評(píng)估o1-preview選擇下一步診斷測(cè)試的能力時(shí),兩位醫(yī)師對(duì)o1-preview生成的測(cè)試計(jì)劃進(jìn)行了評(píng)分。
在132個(gè)案例中,o1-preview在87.5%的情況下選擇了正確的測(cè)試,11%的情況下選擇的測(cè)試計(jì)劃被認(rèn)為有幫助,僅有1.5%的情況下會(huì)被認(rèn)為無(wú)幫助。這些數(shù)據(jù)進(jìn)一步證實(shí)了o1-preview在臨床決策支持中的潛力。
在NEJM Healer診斷案例中,o1-preview的表現(xiàn)同樣出色。這些案例是為評(píng)估臨床推理而設(shè)計(jì)的虛擬患者接觸,o1-preview在80個(gè)案例中的78個(gè)達(dá)到了完美的R-IDEA評(píng)分,遠(yuǎn)高于GPT-4的47個(gè)、主治醫(yī)師的28個(gè)和住院醫(yī)師的16個(gè)。
R-IDEA評(píng)分是一個(gè)驗(yàn)證過(guò)的10點(diǎn)評(píng)分系統(tǒng),用于評(píng)估記錄臨床推理的四個(gè)核心領(lǐng)域。這一結(jié)果表明o1-preview在展示臨床推理方面的能力遠(yuǎn)超人類醫(yī)師和其他同類大模型。
在基于真實(shí)案例的Grey Matters管理案例中,o1-preview的表現(xiàn)同樣出色。在五個(gè)臨床小節(jié)中,o1-preview的得分中位數(shù)為86%,高于GPT-4的42%、使用GPT-4的醫(yī)師的41%和使用傳統(tǒng)資源的醫(yī)師的34%。
在與50位普通醫(yī)師比較的六個(gè)Landmark診斷案例中,o1-preview的表現(xiàn)與GPT-4相當(dāng),中位數(shù)得分為97%,而GPT-4為92%,使用GPT-4的醫(yī)師為76%,使用傳統(tǒng)資源的醫(yī)師為74%。這些數(shù)據(jù)表明o1-preview在診斷推理方面的能力與GPT-4相當(dāng),且優(yōu)于人類醫(yī)師。
在診斷概率推理案例中,o1-preview的表現(xiàn)與GPT-4相似,在估計(jì)測(cè)試前和測(cè)試后概率方面與GPT-4表現(xiàn)相近。然而,在冠狀動(dòng)脈疾病的壓力測(cè)試中,o1-preview的密度更接近參考范圍。這一結(jié)果表明o1-preview在概率推理方面的能力與GPT-4相當(dāng),但在某些特定情況下可能更接近科學(xué)參考概率。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
