微軟論文意外「走光」,OpenAI參數(shù)全泄密!GPT-4o僅200B,o1 300B
誰(shuí)能想到,微軟在一篇醫(yī)學(xué)領(lǐng)域的論文里,竟然把OpenAI模型的參數(shù)全「曝光」了!
- GPT-4參數(shù)約1.76萬(wàn)億
- GPT-4o參數(shù)約2000億
- GPT-4o mini參數(shù)約80億
- o1-preview參數(shù)約3000億
- o1-mini參數(shù)約1000億
- Claude 3.5 Sonnet參數(shù)約1750億
研究人員:參數(shù)均為估算值
讓所有人難以置信的是,GPT-4o系列的參數(shù)如此少,mini版甚至只有8B。
有網(wǎng)友猜測(cè),4o mini是一個(gè)大約有40B參數(shù)的MoE模型,其中激活參數(shù)為8B。
因?yàn)?,他發(fā)現(xiàn)4o mini明顯比8B模型學(xué)到了更多的知識(shí),同時(shí)間運(yùn)行速度很快。
此外,由于GPT-4o是MoE架構(gòu),所以O(shè)penAI可能在mini版本上使用了相同的架構(gòu)。
另有網(wǎng)友驚訝地表示,Claude 3.5 Sonnet參數(shù)竟等同于GPT-3 davinci。
這篇來(lái)自微軟、華盛頓大學(xué)團(tuán)隊(duì)的論文中,發(fā)布了一個(gè)具有里程碑意義的評(píng)估基準(zhǔn)——MEDEC1,專(zhuān)為臨床筆記醫(yī)療錯(cuò)誤檢測(cè)和糾正而設(shè)計(jì)。
論文地址:https://arxiv.org/abs/2412.19260
這項(xiàng)基準(zhǔn)涵蓋了五種類(lèi)型的錯(cuò)誤,包括診斷、管理、治療、藥物治療和致病因子。
MEDEC的數(shù)據(jù)來(lái)源,收集了來(lái)自3家美國(guó)醫(yī)院系統(tǒng)的488篇臨床筆記,總計(jì)3,848篇臨床文本。
值得一提的是,這些數(shù)據(jù)此前從未被任何LLM接觸過(guò),能夠確保評(píng)估真實(shí)性可靠性。目前,該數(shù)據(jù)集已被用于MEDIQA-CORR共享任務(wù),以評(píng)估17個(gè)參與系統(tǒng)的表現(xiàn)。
得到數(shù)據(jù)集MEDEC后,研究團(tuán)隊(duì)對(duì)當(dāng)前最先進(jìn)的模型,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等,在醫(yī)療錯(cuò)誤檢測(cè)和糾正任務(wù)中進(jìn)行了全面測(cè)試。
同時(shí),他們也邀請(qǐng)了兩位專(zhuān)業(yè)醫(yī)生進(jìn)行相同的錯(cuò)誤檢測(cè)任務(wù),最終將AI與人類(lèi)醫(yī)生結(jié)果進(jìn)行PK。
結(jié)果發(fā)現(xiàn),最新LLM在醫(yī)療錯(cuò)誤檢測(cè)和糾正方面表現(xiàn)不俗,但與人類(lèi)醫(yī)生相比,AI還是有著明顯的差距。
這也從側(cè)面印證了,MEDEC是一個(gè)具有充分挑戰(zhàn)性的評(píng)估基準(zhǔn)。
論文講了什么?
來(lái)自美國(guó)醫(yī)療機(jī)構(gòu)的一項(xiàng)調(diào)查研究顯示,每5位閱讀臨床筆記的患者中,就有一位報(bào)告發(fā)現(xiàn)了錯(cuò)誤。
其中40%的患者認(rèn)為這些錯(cuò)誤是嚴(yán)重的,最常見(jiàn)的錯(cuò)誤類(lèi)別與當(dāng)前或過(guò)去的診斷相關(guān)。
與此同時(shí),如今越來(lái)越多的醫(yī)學(xué)文檔任務(wù)(比如,臨床筆記生成)均是由LLM去完成。
然而,將LLM用于醫(yī)學(xué)文檔任務(wù)的主要挑戰(zhàn)之一,容易產(chǎn)生「幻覺(jué)」,輸出一些虛構(gòu)內(nèi)容或錯(cuò)誤信息,直接影響了臨床決策。
畢竟,醫(yī)療無(wú)小事,一字之差可能關(guān)乎生死。
為了降低這些風(fēng)險(xiǎn),并確保LLM在醫(yī)學(xué)內(nèi)容生成中的安全性,嚴(yán)格的驗(yàn)證方法至關(guān)重要。這種驗(yàn)證需要相關(guān)的基準(zhǔn)來(lái)評(píng)估是否可以通過(guò)驗(yàn)證模型實(shí)現(xiàn)完全自動(dòng)化。
在驗(yàn)證過(guò)程中,一個(gè)關(guān)鍵任務(wù)是,檢測(cè)和糾正臨床文本中的醫(yī)學(xué)錯(cuò)誤。
站在人類(lèi)醫(yī)生的角度來(lái)考慮,識(shí)別和糾正這些錯(cuò)誤不僅需要醫(yī)學(xué)專(zhuān)業(yè)知識(shí)和領(lǐng)域背景,有時(shí)還需要具備豐富的經(jīng)驗(yàn)。
而此前,大多數(shù)關(guān)于(常識(shí)性)錯(cuò)誤檢測(cè)的研究都集中在通用領(lǐng)域。
為此,微軟華盛頓大學(xué)團(tuán)隊(duì)引入了全新數(shù)據(jù)集——MEDEC,并對(duì)不同的領(lǐng)先的LLM(比如,Claude 3.5 Sonnet、o1-preview和Gemini 2.0 Flash)進(jìn)行了實(shí)驗(yàn)。
作者稱(chēng),「據(jù)我們所知,這是首個(gè)公開(kāi)可用的臨床筆記中自動(dòng)錯(cuò)誤檢測(cè)和糾正的基準(zhǔn)和研究」。
MEDEC數(shù)據(jù)集
MEDEC數(shù)據(jù)集一共包含了3,848篇來(lái)自不同醫(yī)學(xué)專(zhuān)業(yè)領(lǐng)域的臨床文本的新數(shù)據(jù)集,標(biāo)注任務(wù)由8位醫(yī)學(xué)標(biāo)注員完成。
如前所述,該數(shù)據(jù)集涵蓋了五種類(lèi)型的錯(cuò)誤,具體包括:
- 診斷(Diagnosis):提供的診斷不準(zhǔn)確
- 管理(Management):提供的管理下一步措施不準(zhǔn)確
- 藥物治療(Pharmacotherapy):推薦的藥物治療不準(zhǔn)確
- 治療(Treatment):推薦的治療方案不準(zhǔn)確
- 致病因子(Causal Organism):指出的致病生物或致病病原體不準(zhǔn)確
(注:這些錯(cuò)誤類(lèi)型是在分析醫(yī)學(xué)委員會(huì)考試中最常見(jiàn)的問(wèn)題類(lèi)型后選定的。)
上圖1展示了,MEDEC數(shù)據(jù)集中的示例。每篇臨床文本要么是正確的,要么包含一個(gè)通過(guò)以下兩種方法之一創(chuàng)建的錯(cuò)誤:方法#1(MS)和方法#2(UW)。
數(shù)據(jù)創(chuàng)建方法#1(MS)
在此方法中,作者利用了MedQA集合中的醫(yī)學(xué)委員會(huì)考試題目。
4位具有醫(yī)學(xué)背景的標(biāo)注員參考這些考試中的醫(yī)學(xué)敘述和多項(xiàng)選擇題,在核對(duì)原始問(wèn)題和答案后,將錯(cuò)誤答案注入場(chǎng)景文本中,并排除包含錯(cuò)誤或信息模糊的問(wèn)答對(duì)。
醫(yī)學(xué)標(biāo)注員遵循以下準(zhǔn)則:
- 使用醫(yī)學(xué)敘述多項(xiàng)選擇題,將錯(cuò)誤答案注入場(chǎng)景文本中,并創(chuàng)建兩個(gè)版本,分別將錯(cuò)誤注入文本的中間或末尾。
- 使用醫(yī)學(xué)敘述多項(xiàng)選擇題,將正確答案注入場(chǎng)景文本中,以生成正確版本,如圖2所示(包含正確答案的生成文本)。
- 手動(dòng)檢查自動(dòng)生成的文本是否忠實(shí)于原始場(chǎng)景及其包含的答案。
最終,研究人員從兩個(gè)不同的場(chǎng)景(錯(cuò)誤注入文本中間或末尾)中,隨機(jī)為每篇筆記選擇一個(gè)正確版本和一個(gè)錯(cuò)誤版本,構(gòu)建了最終數(shù)據(jù)集。
數(shù)據(jù)創(chuàng)建方法#2(UW)
這里,作者使用了華盛頓大學(xué)(UW)三家醫(yī)院系統(tǒng)(Harborview Medical Center、UW Medical Center 和 Seattle Cancer Care Alliance)從2009年-2021年間的真實(shí)臨床筆記數(shù)據(jù)庫(kù)。
研究人員從中17,453條診斷支持記錄中,隨機(jī)選取了488條,這些記錄總結(jié)了患者的病情并提供了治療依據(jù)。
4名醫(yī)學(xué)生組成的團(tuán)隊(duì)手動(dòng)向其中244條記錄中引入了錯(cuò)誤。
在初始階段,每條記錄都標(biāo)注了若干候選實(shí)體,這些實(shí)體由QuickUMLS 4識(shí)別為統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的概念。
標(biāo)注員可以從這些候選實(shí)體中選擇一個(gè)簡(jiǎn)潔的醫(yī)學(xué)實(shí)體,或者創(chuàng)建一個(gè)新的文本片段(span)。隨后,該片段被標(biāo)記為五種錯(cuò)誤類(lèi)型之一。
接著,標(biāo)注員用類(lèi)似但不同的概念替換該片段,錯(cuò)誤版本由標(biāo)注員自行設(shè)計(jì)或通過(guò)基于SNOMED和LLM的方法生成。這種方法向標(biāo)注員建議替代概念,但不依賴(lài)輸入文本。醫(yī)學(xué)標(biāo)注員手動(dòng)確定最終注入文本中的概念或錯(cuò)誤。
在此過(guò)程中,每個(gè)錯(cuò)誤片段必須與臨床筆記中的至少兩個(gè)其他部分相矛盾,同時(shí)標(biāo)注員需為每個(gè)引入的錯(cuò)誤提供合理的解釋。
作者使用了Philter5工具對(duì)注入錯(cuò)誤后的臨床筆記進(jìn)行自動(dòng)去標(biāo)識(shí)化處理。
隨后,每條筆記由2名標(biāo)注員獨(dú)立審查以確保去標(biāo)識(shí)化的準(zhǔn)確性。對(duì)于任何分歧,由第3名標(biāo)注員進(jìn)行裁定。
下表1展示了訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分情況。其中,MS訓(xùn)練集包含2,189篇臨床文本,MS驗(yàn)證集包含574篇臨床文本,UW驗(yàn)證集包含160篇臨床文本。
MEDEC測(cè)試集由MS集合的597篇臨床文本和UW數(shù)據(jù)集的328篇臨床文本組成。測(cè)試集中,51.3%的筆記包含錯(cuò)誤,而48.7%的筆記是正確的。
下圖3展示了數(shù)據(jù)集中錯(cuò)誤類(lèi)型的分布情況(診斷、管理、治療、藥物治療和致病因子)。
醫(yī)療錯(cuò)誤檢測(cè)與糾正方法
為了評(píng)估模型在醫(yī)療錯(cuò)誤檢測(cè)與糾正任務(wù)中的表現(xiàn),作者將該過(guò)程劃分為三個(gè)子任務(wù):
- 子任務(wù) A:預(yù)測(cè)錯(cuò)誤標(biāo)志(0:如果文本沒(méi)有錯(cuò)誤;1:如果文本包含錯(cuò)誤)
- 子任務(wù) B:提取包含錯(cuò)誤的句子,用于已標(biāo)記錯(cuò)誤的文本(-1:如果文本沒(méi)有錯(cuò)誤;句子ID:如果文本包含錯(cuò)誤)
- 子任務(wù) C:為包含錯(cuò)誤的標(biāo)記文本生成修正后的句子(NA:如果文本沒(méi)有錯(cuò)誤;生成的句子/修正內(nèi)容:如果文本有錯(cuò)誤)
為了進(jìn)行比較,他們基于LLM構(gòu)建了解決方案,使用了兩種不同的提示詞來(lái)生成所需的輸出,以評(píng)估模型在這三個(gè)子任務(wù)中的表現(xiàn):
- 提示詞#1:
以下是關(guān)于一名患者的醫(yī)療敘述。你是一名熟練的醫(yī)生,正在審閱這些臨床文本。文本要么是正確的,要么包含一個(gè)錯(cuò)誤。文本中每行是一句話。每行以句子ID開(kāi)頭,后跟一個(gè)豎線符號(hào),然后是需要檢查的句子。檢查文本中的每一句話。如果文本正確,則返回以下輸出:CORRECT。如果文本中存在與治療、管理、病因或診斷相關(guān)的醫(yī)療錯(cuò)誤,則返回包含錯(cuò)誤的句子ID,后跟一個(gè)空格,然后是修正后的句子。發(fā)現(xiàn)并糾正錯(cuò)誤需要用到醫(yī)學(xué)知識(shí)與推理能力。
- 提示詞#2:與第一個(gè)提示詞類(lèi)似,但包含一個(gè)從訓(xùn)練集中隨機(jī)選取的輸入和輸出示例:
以下是一個(gè)示例。
0 一名35歲的女性向她的醫(yī)生訴說(shuō)手部疼痛和僵硬。1 她說(shuō),疼痛始于6周前,在她克服了一次輕微的上呼吸道感染幾天后開(kāi)始。(……) 9 雙手的雙側(cè)X線顯示左手第五掌指關(guān)節(jié)周?chē)p微的關(guān)節(jié)周?chē)琴|(zhì)減少。10 給予甲氨蝶呤。
在這個(gè)示例中,錯(cuò)誤出現(xiàn)在句子編號(hào)10:「給予甲氨蝶呤」。修正為:「給予潑尼松」。輸出為:10 1 Prednisone is given。示例結(jié)束。
實(shí)驗(yàn)與結(jié)果
語(yǔ)言模型
研究人員對(duì)幾種近期的語(yǔ)言模型進(jìn)行了實(shí)驗(yàn):
- Phi-3-7B:具有70億參數(shù)的小語(yǔ)言模型(SLM)。
- Claude 3.5 Sonnet(2024-10-22):Claude 3.5系列的最新模型(≈1750億參數(shù)),在多個(gè)編碼、視覺(jué)和推理任務(wù)中展現(xiàn)出了SOTA的性能。
- Gemini 2.0 Flash:最新/最先進(jìn)的Gemini模型。其他谷歌模型(如專(zhuān)為醫(yī)療設(shè)計(jì)的Med-PaLM,5400億參數(shù))尚未公開(kāi)。
- ChatGPT(≈1750億參數(shù))和GPT-4(≈1.76萬(wàn)億參數(shù)),是「高智能」模型。
- GPT-4o(≈2000億參數(shù)),提供「GPT-4級(jí)別的智能但速度更快」,以及專(zhuān)注于特定任務(wù)的小模型GPT-4o-mini(gpt-4o-2024-05-13)(≈80億參數(shù))。
- 最新的o1-mini(o1-mini-2024-09-12)(≈1000億參數(shù))和o1-preview(o1-preview-2024-09-12)(≈3000億參數(shù)),具備「全新AI能力」,可處理復(fù)雜推理任務(wù)。
值得注意的是,大多數(shù)模型的參數(shù)量為估算值,主要用來(lái)幫助理解模型性能。少數(shù)模型(如Phi-3和Claude)需要進(jìn)行少量自動(dòng)后處理來(lái)修正格式問(wèn)題。
結(jié)果
下表2展示了,由醫(yī)療醫(yī)生手動(dòng)標(biāo)注的結(jié)果以及使用上述兩個(gè)提示詞的多個(gè)最新LLM的結(jié)果。
在錯(cuò)誤標(biāo)志(error flag)檢測(cè)方面,Claude 3.5 Sonnet以70.16%的準(zhǔn)確率優(yōu)于其他方法,在錯(cuò)誤句子檢測(cè)中更是達(dá)到了65.62%的準(zhǔn)確率。
o1-mini在錯(cuò)誤標(biāo)志檢測(cè)中,拿下了第二高的準(zhǔn)確率69.08%。
在錯(cuò)誤糾正方面,o1-preview以0.698的綜合評(píng)分(Aggregate Score)獲得了最佳表現(xiàn),遠(yuǎn)超第二名GPT-4 [P#2] 的0.639。
下表3展示了,在每個(gè)數(shù)據(jù)集(MEDEC-MS和MEDEC-UW)上的錯(cuò)誤檢測(cè)準(zhǔn)確率和錯(cuò)誤糾正評(píng)分。其中,MS子集對(duì)Claude 3.5 Sonnet和醫(yī)生#2來(lái)說(shuō)更具挑戰(zhàn)性,而UW子集對(duì)o1-preview和醫(yī)生#1來(lái)說(shuō)更具挑戰(zhàn)性。
結(jié)果表明,與醫(yī)生的評(píng)分相比,最新的LLM在錯(cuò)誤檢測(cè)和糾正方面表現(xiàn)良好,但在這些任務(wù)中仍然不及人類(lèi)醫(yī)生。
這可能是因?yàn)?,此?lèi)錯(cuò)誤檢測(cè)和糾正任務(wù)在網(wǎng)絡(luò)和醫(yī)學(xué)教科書(shū)中相對(duì)罕見(jiàn),也就是,LLM在預(yù)訓(xùn)練中遇到相關(guān)數(shù)據(jù)的可能性較低。
這一點(diǎn)可以從o1-preview的結(jié)果中看出,該模型在基于公開(kāi)臨床文本構(gòu)建的MS子集上的錯(cuò)誤和句子檢測(cè)中分別取得了73%和69%的準(zhǔn)確率,而在私有的UW集合上僅取得了58%和48%的準(zhǔn)確率。
另一個(gè)因素是,任務(wù)需要分析和糾正現(xiàn)有的非LLM生成的文本,這可能比從0開(kāi)始起草新答案的難度更高。
下表4展示的則是,每種錯(cuò)誤類(lèi)型(診斷、管理、治療、藥物治療和病因微生物)的錯(cuò)誤檢測(cè)召回率和錯(cuò)誤糾正評(píng)分。
可以看到,o1-preview在錯(cuò)誤標(biāo)志和句子檢測(cè)中,召回率顯著高于Claude 3.5 Sonnet和兩位醫(yī)生。但在結(jié)合準(zhǔn)確率結(jié)果(見(jiàn)表2)之后發(fā)現(xiàn),醫(yī)生在準(zhǔn)確率上表現(xiàn)更佳。
這些結(jié)果表明,模型在精確度方面存在顯著問(wèn)題,并且與醫(yī)生相比,AI在在許多情況下都過(guò)度預(yù)測(cè)了錯(cuò)誤的存在(即產(chǎn)生了幻覺(jué))。
另外,結(jié)果還顯示,分類(lèi)性能與錯(cuò)誤糾正生成性能之間存在排名差異。
例如,在所有模型中,Claude 3.5 Sonnet在錯(cuò)誤標(biāo)志和句子檢測(cè)的準(zhǔn)確率上排名第一,但在糾正生成評(píng)分中排名最后(見(jiàn)表 2)。
此外,o1-preview在所有LLM中的錯(cuò)誤檢測(cè)準(zhǔn)確率排名第四,但在糾正生成中排名第一且遙遙領(lǐng)先。同樣的模式也可以在兩位醫(yī)療醫(yī)生之間觀察到。
上述現(xiàn)象,可以通過(guò)糾正生成任務(wù)的難度來(lái)解釋?zhuān)瑫r(shí)也可能反映了當(dāng)前SOTA的文本生成評(píng)估指標(biāo)在捕捉醫(yī)學(xué)文本中的同義詞和相似性方面的局限性。
表5展示了參考文本、醫(yī)生標(biāo)注以及由Claude 3.5 Sonnet和GPT模型自動(dòng)生成的糾正示例。
例如,第二個(gè)示例的參考糾正表明患者被診斷為Bruton無(wú)丙種球蛋白血癥,而LLM提供的正確答案提到了X-連鎖無(wú)丙種球蛋白血癥(該罕見(jiàn)遺傳疾病的同義詞)。
此外,一些LLM(如Claude)提供了更長(zhǎng)的答案/糾正,并附上了更多解釋。類(lèi)似的現(xiàn)象也出現(xiàn)在醫(yī)生的標(biāo)注中,其中醫(yī)生#1提供的修正比醫(yī)生#2更長(zhǎng),而兩位醫(yī)生在某些示例/案例中存在不同意見(jiàn),這反映了由不同醫(yī)生/專(zhuān)家撰寫(xiě)的臨床筆記在風(fēng)格和內(nèi)容上的差異。
關(guān)于醫(yī)療錯(cuò)誤檢測(cè)和糾正的相關(guān)研究下一步,還需要在提示詞中引入更多示例并進(jìn)行示例優(yōu)化。
作者介紹
Wen-wai Yim
Wen-wai Yim是微軟的高級(jí)應(yīng)用科學(xué)家。
她在UCSD獲得生物工程學(xué)士學(xué)位,并在華盛頓大學(xué)獲得生物醫(yī)學(xué)與健康信息博士學(xué)位,研究方向包括從臨床和放射學(xué)筆記中提取臨床事件以及進(jìn)行癌癥分期預(yù)測(cè)。
此外,還曾在斯坦福大學(xué)擔(dān)任博士后研究員,開(kāi)發(fā)用于從自由格式臨床筆記中提取信息的方法,并將這些信息與電子病歷中的元數(shù)據(jù)相結(jié)合。
她的研究興趣包括從臨床筆記和醫(yī)學(xué)對(duì)話中進(jìn)行臨床自然語(yǔ)言理解,以及從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)生成臨床筆記語(yǔ)言。
Yujuan Fu
Yujuan Fu是華盛頓大學(xué)醫(yī)學(xué)信息專(zhuān)業(yè)的博士生。
此前,她在上海交通大學(xué)獲得電子與計(jì)算機(jī)工程學(xué)士學(xué)位,在密歇根大學(xué)獲得數(shù)據(jù)科學(xué)學(xué)士學(xué)位。
研究領(lǐng)域是面向健康領(lǐng)域的自然語(yǔ)言處理:通過(guò)指令微調(diào)大語(yǔ)言模型,包括信息抽取、摘要、常識(shí)推理、機(jī)器翻譯以及事實(shí)一致性評(píng)估。
Zhaoyi Sun
Zhaoyi Sun是華盛頓大學(xué)生物醫(yī)學(xué)與健康信息學(xué)專(zhuān)業(yè)的博士生,隸屬于UW-BioNLP團(tuán)隊(duì),由Meliha Yetisgen博士指導(dǎo)。
此前,他在南京大學(xué)獲得化學(xué)學(xué)士學(xué)位,并在康奈爾大學(xué)獲得健康信息學(xué)碩士學(xué)位。
他的研究重點(diǎn)是將LLM應(yīng)用于醫(yī)療問(wèn)答和臨床筆記中的錯(cuò)誤檢測(cè),興趣是結(jié)合生物醫(yī)學(xué)圖像與文本的多模態(tài)深度學(xué)習(xí)研究,目標(biāo)是提升自然語(yǔ)言處理技術(shù)在臨床領(lǐng)域中的應(yīng)用效率和效果。
Fei Xia
Fei Xia是華盛頓大學(xué)語(yǔ)言學(xué)系的教授,也是華盛頓大學(xué)/微軟研討會(huì)的聯(lián)合組織者。此前,曾在IBM T. J. Watson研究中心擔(dān)任研究員。
她在北京大學(xué)計(jì)算機(jī)科學(xué)系獲得學(xué)士學(xué)位,并在賓夕法尼亞大學(xué)計(jì)算與信息科學(xué)系獲得碩士和博士學(xué)位。
在賓大期間,她是中文樹(shù)庫(kù)項(xiàng)目的團(tuán)隊(duì)負(fù)責(zé)人,也是XTAG項(xiàng)目的團(tuán)隊(duì)成員。博士論文導(dǎo)師是Martha Palmer博士和Aravind Joshi博士。