自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟僅憑「提示工程」讓GPT-4成醫(yī)學(xué)專家!超過(guò)一眾高度微調(diào)模型,專業(yè)測(cè)試準(zhǔn)確率首次超90%

人工智能 新聞
在MedQA數(shù)據(jù)集(美國(guó)醫(yī)師執(zhí)照考試題)上,Medprompt讓GPT-4的準(zhǔn)確率首次超過(guò)90%,超越BioGPT和Med-PaLM等一眾微調(diào)方法。

微軟最新研究再次證明了提示工程的威力——

無(wú)需額外微調(diào),無(wú)需專家策劃,僅憑提示,GPT-4就能化身“專家”。

使用他們提出的最新提示策略Medprompt,在醫(yī)療專業(yè)領(lǐng)域,GPT-4在MultiMed QA九個(gè)測(cè)試集中取得最優(yōu)結(jié)果。

在MedQA數(shù)據(jù)集(美國(guó)醫(yī)師執(zhí)照考試題)上,Medprompt讓GPT-4的準(zhǔn)確率首次超過(guò)90%,超越BioGPT和Med-PaLM等一眾微調(diào)方法。

圖片

研究人員還表示Medprompt方法是通用的,不僅適用于醫(yī)學(xué),還可以推廣到電氣工程、機(jī)器學(xué)習(xí)、法律等專業(yè)中。

這項(xiàng)研究在X(原Twitter)一經(jīng)分享,就引發(fā)眾多網(wǎng)友關(guān)注。

圖片

沃頓商學(xué)院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉(zhuǎn)發(fā)分享。

Carlos E. Perez直呼“出色的提示策略可以甩微調(diào)一大截”:

圖片

有網(wǎng)友表示早就有這種預(yù)感,現(xiàn)在能看到結(jié)果出來(lái),真的是“so cool”:

圖片

還有網(wǎng)友表示這真的很“激進(jìn)”:

GPT-4是一項(xiàng)能改變行業(yè)的技術(shù),而我們還遠(yuǎn)沒(méi)有觸及提示的極限,也未達(dá)到微調(diào)極限。

圖片

組合提示策略,“變身”專家

Medprompt是多種提示策略的組合體,包含三大法寶:

  • 動(dòng)態(tài)少樣本選擇(Dynamic few-shot selection)
  • 自生成思維鏈(Self-generated chain of thought)
  • 選項(xiàng)洗牌集成(Choice shuffling ensemble)

下面我們來(lái)一一介紹。

圖片

動(dòng)態(tài)少樣本選擇

少樣本學(xué)習(xí)是讓模型快速學(xué)習(xí)上下文的一種有效的方法。簡(jiǎn)單來(lái)說(shuō),就是輸入一些示例,讓模型快速適應(yīng)特定領(lǐng)域,并學(xué)習(xí)遵循任務(wù)的格式。

這種用于特定任務(wù)提示的少樣本示例通常是固定的,所以對(duì)示例的代表性和廣泛性有較高的要求。

之前一種方法是讓領(lǐng)域?qū)<?strong>手動(dòng)制作范例,但即便如此,也不能保證專家策劃的固定的少樣本示例在每個(gè)任務(wù)中都有代表性。

因此,微軟研究人員提出了動(dòng)態(tài)少樣本示例的方法。

想法是,任務(wù)訓(xùn)練集可以作為少樣本示例的來(lái)源,如果訓(xùn)練集足夠大,那就可以為不同的任務(wù)輸入選擇不同的少樣本示例。

具體來(lái)說(shuō),研究人員先利用text-embedding-ada-002模型為每個(gè)訓(xùn)練樣本和測(cè)試樣本生成向量表示。然后,對(duì)于每個(gè)測(cè)試樣本,基于向量相似度,從訓(xùn)練樣本中挑選出最相似的k個(gè)樣本。

與微調(diào)方法相比,動(dòng)態(tài)少樣本選擇利用了訓(xùn)練數(shù)據(jù),但不需要對(duì)模型參數(shù)進(jìn)行大量更新。

自生成思維鏈

思維鏈(CoT)方法就是讓模型一步一步思考,生成一系列中間推理步驟。

之前一種方法也是依賴專家手動(dòng)編寫少量的帶有提示思維鏈的示例。

圖片

在這里,研究人員發(fā)現(xiàn),可以簡(jiǎn)單地要求GPT-4使用以下提示為訓(xùn)練示例生成思維鏈:

圖片

但研究人員也指出這種自動(dòng)生成的思維鏈可能包含錯(cuò)誤的推理步驟,于是設(shè)置了一個(gè)驗(yàn)證標(biāo)簽作為過(guò)濾器,可以有效減少錯(cuò)誤。

與在Med-PaLM 2模型中專家手工制作的思維鏈?zhǔn)纠啾龋珿PT-4生成的思維鏈基本原理更長(zhǎng),而且分步推理邏輯更細(xì)粒度。

選項(xiàng)洗牌集成

除此之外,GPT-4在做選擇題時(shí),可能會(huì)存在一種偏見(jiàn),就是不管選項(xiàng)內(nèi)容是什么,它會(huì)偏向總是選擇A,或者總是選擇B,這就是位置偏差。

為了減少這個(gè)問(wèn)題,研究人員選擇將原來(lái)的選項(xiàng)順序打亂重排。比如原先選項(xiàng)是ABCD,可以變成BCDA、CDAB。

然后讓GPT-4做多輪預(yù)測(cè),每輪使用選項(xiàng)的一個(gè)不同排列順序。如此一來(lái)“迫使”GPT-4考慮選項(xiàng)的內(nèi)容。

最后對(duì)多輪預(yù)測(cè)結(jié)果做個(gè)投票,選擇最一致、正確的選項(xiàng)。

將以上幾種提示策略組合在一起就是Medprompt,下面來(lái)看測(cè)試結(jié)果。

多項(xiàng)測(cè)試最優(yōu)

在測(cè)試中,研究人員采用了MultiMed QA評(píng)估基準(zhǔn)。

圖片

使用Medprompt提示策略的GPT-4,在MultiMedQA的九個(gè)基準(zhǔn)數(shù)據(jù)集中均取得最高分,優(yōu)于Flan-PaLM 540B、Med-PaLM 2。

此外研究人員還討論了Medprompt策略在“Eyes-Off”數(shù)據(jù)上的表現(xiàn),也就是在訓(xùn)練或優(yōu)化過(guò)程中模型未曾見(jiàn)過(guò)的數(shù)據(jù)中的表現(xiàn),用于檢驗(yàn)?zāi)P褪欠襁^(guò)擬合訓(xùn)練數(shù)據(jù)。

圖片

結(jié)果GPT-4結(jié)合Medprompt策略在多個(gè)醫(yī)學(xué)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色,平均準(zhǔn)確率達(dá)到了91.3%。

研究人員還在MedQA數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),探索了三個(gè)組件對(duì)于整體性能的相對(duì)貢獻(xiàn)。

圖片

其中自動(dòng)生成思維鏈步驟對(duì)性能提升的貢獻(xiàn)最大。

圖片

而且GPT-4自動(dòng)生成的思維鏈比Med-PaLM 2中專家策劃的得分更高:

圖片

最后,研究人員還探索了Medprompt的跨域泛化能力,取用了MMLU基準(zhǔn)中的六個(gè)不同的數(shù)據(jù)集,涵蓋了電氣工程、機(jī)器學(xué)習(xí)、哲學(xué)、專業(yè)會(huì)計(jì)、專業(yè)法律和專業(yè)心理學(xué)的問(wèn)題。

還添加了另外兩個(gè)包含NCLEX(美國(guó)護(hù)士執(zhí)照考試)問(wèn)題的數(shù)據(jù)集。

結(jié)果顯示,Medprompt在這些數(shù)據(jù)集上的效果與在MultiMedQA醫(yī)學(xué)數(shù)據(jù)集上的提升幅度相近,平均準(zhǔn)確率提高了7.3%。

圖片

論文鏈接:https://arxiv.org/pdf/2311.16452.pdf

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2023-11-20 21:56:04

AI推理

2023-06-08 11:27:10

模型AI

2024-02-26 00:50:00

數(shù)據(jù)AI

2023-05-29 09:29:52

GPT-4語(yǔ)言模型

2023-09-19 09:20:16

2023-04-10 09:23:36

模型AI

2025-01-21 08:00:00

2023-12-26 08:17:23

微軟GPT-4

2023-03-20 10:19:25

ChatGPT數(shù)學(xué)

2023-09-06 16:44:03

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-09-19 14:56:00

模型訓(xùn)練

2024-07-02 13:25:22

2023-02-03 16:31:02

模型

2023-08-17 13:30:28

AI測(cè)試

2024-06-18 12:54:39

2024-12-06 14:19:50

2024-08-02 13:14:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)