微軟僅憑「提示工程」讓GPT-4成醫(yī)學(xué)專家!超過(guò)一眾高度微調(diào)模型,專業(yè)測(cè)試準(zhǔn)確率首次超90%
微軟最新研究再次證明了提示工程的威力——
無(wú)需額外微調(diào),無(wú)需專家策劃,僅憑提示,GPT-4就能化身“專家”。
使用他們提出的最新提示策略Medprompt,在醫(yī)療專業(yè)領(lǐng)域,GPT-4在MultiMed QA九個(gè)測(cè)試集中取得最優(yōu)結(jié)果。
在MedQA數(shù)據(jù)集(美國(guó)醫(yī)師執(zhí)照考試題)上,Medprompt讓GPT-4的準(zhǔn)確率首次超過(guò)90%,超越BioGPT和Med-PaLM等一眾微調(diào)方法。
研究人員還表示Medprompt方法是通用的,不僅適用于醫(yī)學(xué),還可以推廣到電氣工程、機(jī)器學(xué)習(xí)、法律等專業(yè)中。
這項(xiàng)研究在X(原Twitter)一經(jīng)分享,就引發(fā)眾多網(wǎng)友關(guān)注。
沃頓商學(xué)院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉(zhuǎn)發(fā)分享。
Carlos E. Perez直呼“出色的提示策略可以甩微調(diào)一大截”:
有網(wǎng)友表示早就有這種預(yù)感,現(xiàn)在能看到結(jié)果出來(lái),真的是“so cool”:
還有網(wǎng)友表示這真的很“激進(jìn)”:
GPT-4是一項(xiàng)能改變行業(yè)的技術(shù),而我們還遠(yuǎn)沒(méi)有觸及提示的極限,也未達(dá)到微調(diào)極限。
組合提示策略,“變身”專家
Medprompt是多種提示策略的組合體,包含三大法寶:
- 動(dòng)態(tài)少樣本選擇(Dynamic few-shot selection)
- 自生成思維鏈(Self-generated chain of thought)
- 選項(xiàng)洗牌集成(Choice shuffling ensemble)
下面我們來(lái)一一介紹。
動(dòng)態(tài)少樣本選擇
少樣本學(xué)習(xí)是讓模型快速學(xué)習(xí)上下文的一種有效的方法。簡(jiǎn)單來(lái)說(shuō),就是輸入一些示例,讓模型快速適應(yīng)特定領(lǐng)域,并學(xué)習(xí)遵循任務(wù)的格式。
這種用于特定任務(wù)提示的少樣本示例通常是固定的,所以對(duì)示例的代表性和廣泛性有較高的要求。
之前一種方法是讓領(lǐng)域?qū)<?strong>手動(dòng)制作范例,但即便如此,也不能保證專家策劃的固定的少樣本示例在每個(gè)任務(wù)中都有代表性。
因此,微軟研究人員提出了動(dòng)態(tài)少樣本示例的方法。
想法是,任務(wù)訓(xùn)練集可以作為少樣本示例的來(lái)源,如果訓(xùn)練集足夠大,那就可以為不同的任務(wù)輸入選擇不同的少樣本示例。
具體來(lái)說(shuō),研究人員先利用text-embedding-ada-002模型為每個(gè)訓(xùn)練樣本和測(cè)試樣本生成向量表示。然后,對(duì)于每個(gè)測(cè)試樣本,基于向量相似度,從訓(xùn)練樣本中挑選出最相似的k個(gè)樣本。
與微調(diào)方法相比,動(dòng)態(tài)少樣本選擇利用了訓(xùn)練數(shù)據(jù),但不需要對(duì)模型參數(shù)進(jìn)行大量更新。
自生成思維鏈
思維鏈(CoT)方法就是讓模型一步一步思考,生成一系列中間推理步驟。
之前一種方法也是依賴專家手動(dòng)編寫少量的帶有提示思維鏈的示例。
在這里,研究人員發(fā)現(xiàn),可以簡(jiǎn)單地要求GPT-4使用以下提示為訓(xùn)練示例生成思維鏈:
但研究人員也指出這種自動(dòng)生成的思維鏈可能包含錯(cuò)誤的推理步驟,于是設(shè)置了一個(gè)驗(yàn)證標(biāo)簽作為過(guò)濾器,可以有效減少錯(cuò)誤。
與在Med-PaLM 2模型中專家手工制作的思維鏈?zhǔn)纠啾龋珿PT-4生成的思維鏈基本原理更長(zhǎng),而且分步推理邏輯更細(xì)粒度。
選項(xiàng)洗牌集成
除此之外,GPT-4在做選擇題時(shí),可能會(huì)存在一種偏見(jiàn),就是不管選項(xiàng)內(nèi)容是什么,它會(huì)偏向總是選擇A,或者總是選擇B,這就是位置偏差。
為了減少這個(gè)問(wèn)題,研究人員選擇將原來(lái)的選項(xiàng)順序打亂重排。比如原先選項(xiàng)是ABCD,可以變成BCDA、CDAB。
然后讓GPT-4做多輪預(yù)測(cè),每輪使用選項(xiàng)的一個(gè)不同排列順序。如此一來(lái)“迫使”GPT-4考慮選項(xiàng)的內(nèi)容。
最后對(duì)多輪預(yù)測(cè)結(jié)果做個(gè)投票,選擇最一致、正確的選項(xiàng)。
將以上幾種提示策略組合在一起就是Medprompt,下面來(lái)看測(cè)試結(jié)果。
多項(xiàng)測(cè)試最優(yōu)
在測(cè)試中,研究人員采用了MultiMed QA評(píng)估基準(zhǔn)。
使用Medprompt提示策略的GPT-4,在MultiMedQA的九個(gè)基準(zhǔn)數(shù)據(jù)集中均取得最高分,優(yōu)于Flan-PaLM 540B、Med-PaLM 2。
此外研究人員還討論了Medprompt策略在“Eyes-Off”數(shù)據(jù)上的表現(xiàn),也就是在訓(xùn)練或優(yōu)化過(guò)程中模型未曾見(jiàn)過(guò)的數(shù)據(jù)中的表現(xiàn),用于檢驗(yàn)?zāi)P褪欠襁^(guò)擬合訓(xùn)練數(shù)據(jù)。
結(jié)果GPT-4結(jié)合Medprompt策略在多個(gè)醫(yī)學(xué)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色,平均準(zhǔn)確率達(dá)到了91.3%。
研究人員還在MedQA數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),探索了三個(gè)組件對(duì)于整體性能的相對(duì)貢獻(xiàn)。
其中自動(dòng)生成思維鏈步驟對(duì)性能提升的貢獻(xiàn)最大。
而且GPT-4自動(dòng)生成的思維鏈比Med-PaLM 2中專家策劃的得分更高:
最后,研究人員還探索了Medprompt的跨域泛化能力,取用了MMLU基準(zhǔn)中的六個(gè)不同的數(shù)據(jù)集,涵蓋了電氣工程、機(jī)器學(xué)習(xí)、哲學(xué)、專業(yè)會(huì)計(jì)、專業(yè)法律和專業(yè)心理學(xué)的問(wèn)題。
還添加了另外兩個(gè)包含NCLEX(美國(guó)護(hù)士執(zhí)照考試)問(wèn)題的數(shù)據(jù)集。
結(jié)果顯示,Medprompt在這些數(shù)據(jù)集上的效果與在MultiMedQA醫(yī)學(xué)數(shù)據(jù)集上的提升幅度相近,平均準(zhǔn)確率提高了7.3%。
論文鏈接:https://arxiv.org/pdf/2311.16452.pdf