自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="r34ez"><track id="r34ez"><dfn id="r34ez"></dfn></track></legend>

<tt id="r34ez"></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟僅憑「提示工程」讓GPT-4成醫(yī)學(xué)專家！超過(guò)一眾高度微調(diào)模型，專業(yè)測(cè)試準(zhǔn)確率首次超90%

作者：西風(fēng) 2023-12-04 13:51:00

人工智能新聞

在MedQA數(shù)據(jù)集(美國(guó)醫(yī)師執(zhí)照考試題)上，Medprompt讓GPT-4的準(zhǔn)確率首次超過(guò)90%，超越BioGPT和Med-PaLM等一眾微調(diào)方法。

微軟最新研究再次證明了提示工程的威力——

無(wú)需額外微調(diào)，無(wú)需專家策劃，僅憑提示，GPT-4就能化身“專家”。

使用他們提出的最新提示策略Medprompt，在醫(yī)療專業(yè)領(lǐng)域，GPT-4在MultiMed QA九個(gè)測(cè)試集中取得最優(yōu)結(jié)果。

在MedQA數(shù)據(jù)集(美國(guó)醫(yī)師執(zhí)照考試題)上，Medprompt讓GPT-4的準(zhǔn)確率首次超過(guò)90%，超越BioGPT和Med-PaLM等一眾微調(diào)方法。

研究人員還表示Medprompt方法是通用的，不僅適用于醫(yī)學(xué)，還可以推廣到電氣工程、機(jī)器學(xué)習(xí)、法律等專業(yè)中。

這項(xiàng)研究在X（原Twitter）一經(jīng)分享，就引發(fā)眾多網(wǎng)友關(guān)注。

沃頓商學(xué)院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉(zhuǎn)發(fā)分享。

Carlos E. Perez直呼“出色的提示策略可以甩微調(diào)一大截”：

有網(wǎng)友表示早就有這種預(yù)感，現(xiàn)在能看到結(jié)果出來(lái)，真的是“so cool”：

還有網(wǎng)友表示這真的很“激進(jìn)”：

GPT-4是一項(xiàng)能改變行業(yè)的技術(shù)，而我們還遠(yuǎn)沒(méi)有觸及提示的極限，也未達(dá)到微調(diào)極限。

組合提示策略，“變身”專家

Medprompt是多種提示策略的組合體，包含三大法寶：

動(dòng)態(tài)少樣本選擇（Dynamic few-shot selection）
自生成思維鏈（Self-generated chain of thought）
選項(xiàng)洗牌集成（Choice shuffling ensemble）

下面我們來(lái)一一介紹。

動(dòng)態(tài)少樣本選擇

少樣本學(xué)習(xí)是讓模型快速學(xué)習(xí)上下文的一種有效的方法。簡(jiǎn)單來(lái)說(shuō)，就是輸入一些示例，讓模型快速適應(yīng)特定領(lǐng)域，并學(xué)習(xí)遵循任務(wù)的格式。

這種用于特定任務(wù)提示的少樣本示例通常是固定的，所以對(duì)示例的代表性和廣泛性有較高的要求。

之前一種方法是讓領(lǐng)域?qū)＜?strong>手動(dòng)制作范例，但即便如此，也不能保證專家策劃的固定的少樣本示例在每個(gè)任務(wù)中都有代表性。

因此，微軟研究人員提出了動(dòng)態(tài)少樣本示例的方法。

想法是，任務(wù)訓(xùn)練集可以作為少樣本示例的來(lái)源，如果訓(xùn)練集足夠大，那就可以為不同的任務(wù)輸入選擇不同的少樣本示例。

具體來(lái)說(shuō)，研究人員先利用text-embedding-ada-002模型為每個(gè)訓(xùn)練樣本和測(cè)試樣本生成向量表示。然后，對(duì)于每個(gè)測(cè)試樣本，基于向量相似度，從訓(xùn)練樣本中挑選出最相似的k個(gè)樣本。

與微調(diào)方法相比，動(dòng)態(tài)少樣本選擇利用了訓(xùn)練數(shù)據(jù)，但不需要對(duì)模型參數(shù)進(jìn)行大量更新。

自生成思維鏈

思維鏈（CoT）方法就是讓模型一步一步思考，生成一系列中間推理步驟。

之前一種方法也是依賴專家手動(dòng)編寫少量的帶有提示思維鏈的示例。

在這里，研究人員發(fā)現(xiàn)，可以簡(jiǎn)單地要求GPT-4使用以下提示為訓(xùn)練示例生成思維鏈：

但研究人員也指出這種自動(dòng)生成的思維鏈可能包含錯(cuò)誤的推理步驟，于是設(shè)置了一個(gè)驗(yàn)證標(biāo)簽作為過(guò)濾器，可以有效減少錯(cuò)誤。

與在Med-PaLM 2模型中專家手工制作的思維鏈?zhǔn)纠啾龋珿PT-4生成的思維鏈基本原理更長(zhǎng)，而且分步推理邏輯更細(xì)粒度。

選項(xiàng)洗牌集成

除此之外，GPT-4在做選擇題時(shí)，可能會(huì)存在一種偏見(jiàn)，就是不管選項(xiàng)內(nèi)容是什么，它會(huì)偏向總是選擇A，或者總是選擇B，這就是位置偏差。

為了減少這個(gè)問(wèn)題，研究人員選擇將原來(lái)的選項(xiàng)順序打亂重排。比如原先選項(xiàng)是ABCD，可以變成BCDA、CDAB。

然后讓GPT-4做多輪預(yù)測(cè)，每輪使用選項(xiàng)的一個(gè)不同排列順序。如此一來(lái)“迫使”GPT-4考慮選項(xiàng)的內(nèi)容。

最后對(duì)多輪預(yù)測(cè)結(jié)果做個(gè)投票，選擇最一致、正確的選項(xiàng)。

將以上幾種提示策略組合在一起就是Medprompt，下面來(lái)看測(cè)試結(jié)果。

多項(xiàng)測(cè)試最優(yōu)

在測(cè)試中，研究人員采用了MultiMed QA評(píng)估基準(zhǔn)。

使用Medprompt提示策略的GPT-4，在MultiMedQA的九個(gè)基準(zhǔn)數(shù)據(jù)集中均取得最高分，優(yōu)于Flan-PaLM 540B、Med-PaLM 2。

此外研究人員還討論了Medprompt策略在“Eyes-Off”數(shù)據(jù)上的表現(xiàn)，也就是在訓(xùn)練或優(yōu)化過(guò)程中模型未曾見(jiàn)過(guò)的數(shù)據(jù)中的表現(xiàn)，用于檢驗(yàn)?zāi)Ｐ褪欠襁^(guò)擬合訓(xùn)練數(shù)據(jù)。

結(jié)果GPT-4結(jié)合Medprompt策略在多個(gè)醫(yī)學(xué)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色，平均準(zhǔn)確率達(dá)到了91.3%。

研究人員還在MedQA數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)，探索了三個(gè)組件對(duì)于整體性能的相對(duì)貢獻(xiàn)。

其中自動(dòng)生成思維鏈步驟對(duì)性能提升的貢獻(xiàn)最大。

而且GPT-4自動(dòng)生成的思維鏈比Med-PaLM 2中專家策劃的得分更高：

最后，研究人員還探索了Medprompt的跨域泛化能力，取用了MMLU基準(zhǔn)中的六個(gè)不同的數(shù)據(jù)集，涵蓋了電氣工程、機(jī)器學(xué)習(xí)、哲學(xué)、專業(yè)會(huì)計(jì)、專業(yè)法律和專業(yè)心理學(xué)的問(wèn)題。

還添加了另外兩個(gè)包含NCLEX（美國(guó)護(hù)士執(zhí)照考試）問(wèn)題的數(shù)據(jù)集。

結(jié)果顯示，Medprompt在這些數(shù)據(jù)集上的效果與在MultiMedQA醫(yī)學(xué)數(shù)據(jù)集上的提升幅度相近，平均準(zhǔn)確率提高了7.3%。

論文鏈接：https://arxiv.org/pdf/2311.16452.pdf

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="pjsx1"></sub>

<s id="pjsx1"><li id="pjsx1"></li></s>

<style id="pjsx1"></style>