自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM最全「怪癖」首曝光!馬里蘭OpenAI等30+學(xué)者祭出75頁(yè)提示報(bào)告

人工智能 新聞
大語(yǔ)言模型提示中,竟有不少「怪癖」:重復(fù)某些內(nèi)容,準(zhǔn)確性就大大提高;人名變匿名,準(zhǔn)確性就大大下降。最近,馬里蘭OpenAI等機(jī)構(gòu)的30多位研究者,首次對(duì)LLM的提示技術(shù)進(jìn)行了大規(guī)模系統(tǒng)研究,并發(fā)布75頁(yè)詳盡報(bào)告。

大語(yǔ)言模型提示的「怪異世界」,首次如此詳盡地被暴露在我們眼前。

最近,來(lái)自馬里蘭大學(xué)、OpenAI、斯坦福、微軟等12所機(jī)構(gòu)的30多名研究者,首次對(duì)LLM的提示技術(shù)進(jìn)行了大規(guī)模的系統(tǒng)研究,并發(fā)布了一份長(zhǎng)達(dá)75頁(yè)的詳盡報(bào)告。

圖片

論文地址:https://arxiv.org/abs/2406.06608

圖片

圖片

如今,提示已經(jīng)無(wú)處不在,然而在整個(gè)生成式AI行業(yè),仍然缺乏對(duì)已出現(xiàn)的數(shù)百種技術(shù)系統(tǒng)和徹底的調(diào)查。

在這項(xiàng)工作中,研究者通過(guò)結(jié)合人工和AI的力量,從arXiv、Semantic Scholar和ACL數(shù)據(jù)庫(kù)中處理了4,797條記錄,并通過(guò)PRISMA審查過(guò)程篩選出1,565篇相關(guān)論文。

由此,他們得到一種分類法,建立了包含33個(gè)術(shù)語(yǔ)的綜合詞匯表,一個(gè)包含58種文本提示技術(shù)的分類體系,以及40種其他模態(tài)的提示技術(shù)等。

圖片

這篇有史以來(lái)最全的提示技術(shù)報(bào)告,紛紛得到了業(yè)內(nèi)大佬們的鼎力推薦。

圖片

圖片

這里需要明確三個(gè)概念——

提示,是指向GenAI提供提示,然后生成響應(yīng)的過(guò)程。


提示技術(shù),是一個(gè)藍(lán)圖,描述如何構(gòu)造一個(gè)提示或多個(gè)提示的動(dòng)態(tài)排序。它可以結(jié)合條件或分支邏輯、并行性或涉及多提示的架構(gòu)。


提示工程,是指通過(guò)修改或更改正在使用的提示技術(shù),來(lái)開(kāi)發(fā)提示的迭代過(guò)程。

圖片

奇奇怪怪的大語(yǔ)言模型

有趣的是,在這個(gè)過(guò)程中,研究者發(fā)現(xiàn)了大語(yǔ)言模型一些奇怪的現(xiàn)象。

1. 重復(fù)某些話,LLM會(huì)給你驚喜

研究者發(fā)現(xiàn),如果重復(fù)部分提示,會(huì)顯著提高模型的性能。

比如,在一個(gè)關(guān)于自殺危機(jī)檢測(cè)的案例中,因?yàn)橐馔猓瑢?dǎo)致一封包含案例背景的郵件在提示中出現(xiàn)了兩次,這就導(dǎo)致模型的性能大大提高。

刪除掉重復(fù)內(nèi)容后,模型的準(zhǔn)確性就顯著降低了。

這是什么原理?

對(duì)此,研究者也無(wú)法給出明確的解釋。

2. 說(shuō)出你的名字!

研究者在測(cè)試中發(fā)現(xiàn)的另一件有趣的事,就是在提示中包含人名也很重要。

比如在上面的郵件中,如果名字被匿名,或者替換為隨機(jī)姓名時(shí),模型的準(zhǔn)確性也會(huì)下降。

為何LLM會(huì)對(duì)這種看似無(wú)關(guān)痛癢的細(xì)節(jié)如此敏感?對(duì)此,研究者們也沒(méi)有答案。

往好處想,我們可以通過(guò)探索,來(lái)提供LLM的性能。

然而如果往壞處看,這也證明提示工廠目前仍然是我們?nèi)祟愲y以理解的黑盒。在我們?nèi)祟惪磥?lái)毫不相干的細(xì)節(jié),LLM卻出乎意料地敏感。

為此,研究者建議,知道如何控制模型的提示工程師,一定要和準(zhǔn)確理解目標(biāo)的專家之間密切合作。

因?yàn)?,這些AI系統(tǒng)是被哄騙的,而非被編程的。

它們除了對(duì)所使用的特定LLM非常敏感,對(duì)提示中的特定細(xì)節(jié)也很敏感,但我們實(shí)在找不出任何明顯理由,證明這些細(xì)節(jié)到底怎么重要了。

3. 示例的選擇和順序,LLM也很敏感

通常最有效的提示方法,就是少樣本提示了,也即在提示中直接舉例。

圖片

在語(yǔ)言理解MMLU基準(zhǔn)測(cè)試中,帶有示例的提示取得了最佳效果,尤其是與CoT結(jié)合時(shí)

不過(guò),這其中也有一些奇怪的陷阱:LLM對(duì)示例的選擇和順序,竟然非常敏感。

同一示例以不同順序出場(chǎng),竟讓模型的效果大相徑庭,準(zhǔn)確度可以低于50%,也可以高于90%。

4. 代碼輔助推理潛力巨大

目前在研究和行業(yè)中得到廣泛應(yīng)用,只有一小部分提示技術(shù),最常見(jiàn)的是就是few-shot和CoT。

但「思維程序」(Program-of-Thoughts)之類的技術(shù)(代碼被用作推理的中間步驟)也很有前途,但尚未廣泛使用。

圖片

而且,在案例中,自動(dòng)化取得了最佳結(jié)果。由于手動(dòng)提示對(duì)我們往往是很大的挑戰(zhàn),因此自動(dòng)化顯然潛力巨大。

不過(guò)在研究人員看來(lái),人類微調(diào)和機(jī)器優(yōu)化的結(jié)合,可能會(huì)是最有前途的方法。

三大提示技術(shù)

論文中,研究人員提出了全面的分類提示技術(shù)——基于文本、多語(yǔ)言、多模態(tài)三大類。

文本提示

在文本提示類中,整整涵蓋了58種純文本提示技術(shù),如下圖所示。

圖片

如下,將會(huì)列舉幾個(gè)基于文本提示技術(shù)的例子。

In-Context Learning(ICL)是指AI通過(guò)提示中的范例/相關(guān)指令,可以學(xué)習(xí)技能,無(wú)需更新權(quán)重再訓(xùn)練的能力。

比如,你給出2+2=4,4+5=9,然后8+0這樣的提示之后,LLM便會(huì)從前兩個(gè)算式中學(xué)習(xí)推算,進(jìn)而解決任務(wù)。

圖片

再比如,給出指令,從以下文本中提取包含3個(gè)同樣字母,以及至少有3個(gè)其他字母的所有單詞:{TEXT}。

LLM通過(guò)理解指令,針對(duì)文本完成查找。

圖片

不過(guò),「學(xué)習(xí)」一詞或許有些誤導(dǎo)。ICL其實(shí)可以被視為「指定任務(wù)」,可能這些技能并非是真正的學(xué)習(xí),而早已存在訓(xùn)練數(shù)據(jù)之中。

就好比,你讓LLM去把一個(gè)單詞「奶酪」翻譯成法語(yǔ)。

圖片

上圖2.4中給出例子的提示,也稱為「少樣本」提示(Few-Shot Prompting),模型與此進(jìn)行的是少樣本學(xué)習(xí)。

這里,樣本質(zhì)量非常關(guān)鍵,決定著模型的輸出性能。而且,樣本的順序也會(huì)影響模型的行為,進(jìn)而導(dǎo)致LLM輸出的準(zhǔn)確率可能在50%以下,或90%以上不等。

對(duì)此,研究人員建議可以使用K-Nearest Neighbor(KNN)算法、Vote-K等方法,來(lái)提升樣本質(zhì)量。

此外,還可通過(guò)AI自生成上下文學(xué)習(xí)(SG-ICL)方法,讓AI自動(dòng)生成樣本。作者表示,在訓(xùn)練數(shù)據(jù)不可用的情況下,它的效果要好于零樣本場(chǎng)景。

圖片

作者總結(jié)了在設(shè)計(jì)少樣本提示時(shí)的六個(gè)主要設(shè)計(jì)決策,如下圖所示。

圖片

針對(duì)零樣本,有很多我們熟知的提示技術(shù),比如:

  • 角色提示:指定AI一個(gè)角色,作家、數(shù)學(xué)老師等。
  • 風(fēng)格提示:在提示中指定所需的風(fēng)格、語(yǔ)氣或體裁。
  • 情感提示:將與人類心理相關(guān)的短語(yǔ)納入提示,如「這對(duì)我的職業(yè)生涯非常重要」。
  • 系統(tǒng)2 Attention(S2A):要求LLM重寫(xiě)提示語(yǔ),并刪除其中與問(wèn)題無(wú)關(guān)的任何信息,然后,自動(dòng)將新的提示傳遞給 LLM,以獲取最終響應(yīng)。
  • SimToM:涉及多人或多物的復(fù)雜問(wèn)題時(shí),LLM試圖確定一個(gè)人所知道的一系列事實(shí),然根據(jù)這些事實(shí)回答問(wèn)題。這是一個(gè)雙提示過(guò)程,有助于消除提示中無(wú)關(guān)信息的影響。
  • 重述和回答(RaR):指示LLM在生成最終答案之前,重述和擴(kuò)展問(wèn)題。
  • 重讀(RE2):在提示語(yǔ)中加上「再次閱讀問(wèn)題」提示,可顯著提高大模型在復(fù)雜推理問(wèn)題性能。
  • 自我追問(wèn)(Self-Ask):讓LLM先決定是否需要針對(duì)給定的提示提出后續(xù)問(wèn)題。若需要,LLM會(huì)生成這些問(wèn)題,然后回答這些問(wèn)題,最后回答原始問(wèn)題。

在「思維生成」上,CoT是其中最具代表性的方法,而「最純凈」的CoT是不需要任何示例,即零樣本CoT。

僅需在提示語(yǔ)中,添加一個(gè)誘導(dǎo)思考的短語(yǔ)——讓我們一步一步地思考,讓我們一步一步地解決這個(gè)問(wèn)題......

圖片

此外,CoT還可以是少樣本CoT,顧名思義,就是為L(zhǎng)LM提供一些樣本,可大幅提升模型性能。

圖片

我們還可以通過(guò)分解(Decomposition)的提示策略,明確將問(wèn)題分解,以提升模型解決問(wèn)題的能力,其中就包括:

  • 從少到多提示法:提示LLM將給定的問(wèn)題分解成子問(wèn)題,但不求解這些子問(wèn)題。分解完成后,再依次解決這些子問(wèn)題,每次都將模型響應(yīng)附加到提示中,直到得出最終結(jié)果。
  • 分解提示(DECOMP):少量樣本會(huì)提示LLM如何使用某些函數(shù),比如包括字符串分割或互聯(lián)網(wǎng)搜索等(單獨(dú)作為工具調(diào)用)。鑒于此,LLM將其原始問(wèn)題分解為子問(wèn)題,并將其發(fā)送給不同的函數(shù)。
  • 「計(jì)劃-解決」提示:包括一個(gè)改進(jìn)的零樣本CoT提示——讓我們先了解問(wèn)題,并制定一個(gè)解決問(wèn)題的計(jì)劃。然后,讓我們執(zhí)行計(jì)劃,逐步解決問(wèn)題。
  • 思維樹(shù)(ToT):從初始問(wèn)題開(kāi)始,然后以思維的形式生成多個(gè)可能的步驟,從而創(chuàng)建一個(gè)樹(shù)狀搜索問(wèn)題。并評(píng)估每一步在解決該問(wèn)題上所取得的進(jìn)展。
  • Skeleton-of-Though:將一個(gè)復(fù)雜問(wèn)題分解成多個(gè)子問(wèn)題,并行地讓LLM分別回答,最后將結(jié)果合并就能得到整體回答。

圖片

與「分解」相對(duì)應(yīng)地,還有「集合」(Ensembling)策略,是指使用多個(gè)提示來(lái)解決同一問(wèn)題,然后將這些回答匯總為最終輸出的過(guò)程。

其中的方法包括,示例集合(DENSE)、推理混合專家(MoRE)、自洽、DiVeRSe、多種CoT元推理等等。

最后,還有自我批評(píng)(Self-Criticism)提示策略,包括以下幾種技術(shù):自我校準(zhǔn)、逆轉(zhuǎn)思維鏈 (RCoT)、自我驗(yàn)證、驗(yàn)證鏈 (COVE)、累積推理。

除了研究提示技術(shù),研究人員還回顧了用于自動(dòng)優(yōu)化提示的「提示工程」技術(shù)。

提示工程過(guò)程包括三個(gè)重復(fù)步驟:1)在數(shù)據(jù)集上進(jìn)行推理,2)評(píng)估性能,3)修改提示模板。

圖片

這是一個(gè)用于標(biāo)注任務(wù)的LLM輸出注釋結(jié)果,展示了答案工程(Answer Engineering)的三個(gè)設(shè)計(jì)決策:答案形狀的選擇、答案空間和提取器。

由于這是一個(gè)分類任務(wù)的輸出,答案形狀可以限制為單個(gè)token,答案空間可以限制為兩個(gè)token之一(「positive」或「negative」),盡管在這個(gè)圖像中它們沒(méi)有被限制。

圖片

最后,研究者總結(jié)發(fā)現(xiàn),在所有的提示技術(shù)中,少樣本學(xué)習(xí)、零樣本推理、高質(zhì)量上下文提示示例,自洽,提示順序敏感性使用率排在了前五。

圖片

與此同時(shí),我們還可以通過(guò)數(shù)據(jù)集中論文引用的基準(zhǔn)數(shù)據(jù)集和模型次數(shù),來(lái)衡量提示技術(shù)的使用情況。

圖片

多語(yǔ)種提示

在多語(yǔ)種提示技術(shù)中,研究人員主要介紹了CoT、Human-in-the-Loop、上下文學(xué)習(xí)、上下文示例選擇、翻譯提示、多語(yǔ)種技術(shù)、提示語(yǔ)言這幾大要點(diǎn)。

圖片

先翻譯后提示,是最簡(jiǎn)單的策略。不過(guò),有些提示技術(shù),要比翻譯性能速度來(lái)的要快。

比如CoT已經(jīng)通過(guò)多種方法(XLT、CLSP),已擴(kuò)展到了多語(yǔ)種環(huán)境中。

針對(duì)上下文學(xué)習(xí)的策略有:X-InSTA提示,以及跨語(yǔ)言翻譯上下文提示(In-CLT)。同時(shí),上下文示例選擇對(duì)模型多語(yǔ)言性能也至關(guān)重要。

因此,需找與源文本語(yǔ)義相似的上下文示例,就成為一項(xiàng)技術(shù)活。有研究者曾提出了,PARC(通過(guò)跨語(yǔ)言檢索增強(qiáng)提示)的方法。

Human-in-the-Loop包含了交互鏈提示(ICP)以及迭代提示兩種方法。

另外,提示模板語(yǔ)言選擇會(huì)明顯影響模型的性能。在多語(yǔ)言任務(wù)中,用英語(yǔ)構(gòu)建提示模板,往往比用任務(wù)語(yǔ)言更加有效。

這是由多數(shù)LLM在預(yù)訓(xùn)練期間,使用了大量的英文數(shù)據(jù)決定的。

圖片

順便提一句,任務(wù)語(yǔ)言提示模板,則是針對(duì)特定語(yǔ)言使用情況來(lái)使用任務(wù)語(yǔ)言提示。

多模態(tài)提示

圖片

隨著GenAI模型的發(fā)展,現(xiàn)今也出現(xiàn)了許多多模態(tài)提示技術(shù)。

圖像

比如圖像形態(tài)的提示,包括照片、圖畫(huà)、屏幕截圖等數(shù)據(jù)。

這個(gè)過(guò)程中,可以使用負(fù)面提示對(duì)某些提示中的某些術(shù)語(yǔ)進(jìn)行數(shù)字加權(quán),讓模型更多或更少地考慮它們。

比如,如果對(duì)「錯(cuò)誤的手」或「多余的手指」進(jìn)行負(fù)權(quán)重,模型更有可能生成解剖學(xué)上正確的手。

圖片

如今,CoT已經(jīng)以各種方式擴(kuò)展到了圖像領(lǐng)域。

比如一個(gè)簡(jiǎn)單的例子,就是包含數(shù)學(xué)問(wèn)題的圖像的提示,同時(shí)附有文本說(shuō)明「一步步解決這個(gè)問(wèn)題」。

另外,還有職責(zé)明確的思維鏈。

圖片

上面這道題,要求考慮每對(duì)磁鐵的磁力,來(lái)判斷以下陳述哪個(gè)是正確的。這個(gè)例子證明了,輸入理由在多模態(tài)推理中是多么重要,以及理由在zero-shot和fine-tuning場(chǎng)景中的不同作用

它可以把從最少到最多的提示擴(kuò)展到多模態(tài)設(shè)置,創(chuàng)建子問(wèn)題,然后解決它們,將答案組合成最終響應(yīng)。

比如這項(xiàng)任務(wù)中,要求模型選出圖中的哺乳動(dòng)物。

圖片

這項(xiàng)任務(wù)要求模型回答:哪種溶液中的藍(lán)色顆粒濃度更高?

圖片

請(qǐng)問(wèn):這種雜交產(chǎn)生的大鼠是侏儒的概率有多大?

圖片

多模態(tài)思維圖則是將Graph-of-Thought擴(kuò)展到多模態(tài)設(shè)置中。

在推理時(shí),輸入提示會(huì)用于構(gòu)建思維圖,然后和原始提示一起使用,來(lái)生成回答問(wèn)題的基本原理。

圖片

當(dāng)圖像與問(wèn)題一起輸入時(shí),圖像標(biāo)注模型被用來(lái)生成圖像的文本描述,然后在思維圖構(gòu)建之前,將其附加到提示中,以提供一種視覺(jué)的上下文。

圖片

圖片

圖像鏈(CoI)是思維鏈提示的多模態(tài)擴(kuò)展,生成圖像是其思維過(guò)程的一部分。

用「讓我們逐個(gè)圖像思考」來(lái)生成SVG,模型就可以用它進(jìn)行視覺(jué)推理了。

圖片

具體來(lái)說(shuō),CoI的首要步驟,就是逐步生成圖像。不過(guò)要求SD XL或Dall-E遵循復(fù)雜指令生成圖像時(shí),他們卻遇到了困難。因此,研究者引入符號(hào)多模態(tài)LLM。當(dāng)LLM提供各種文本提示時(shí),它將生成不同格式(如SVG格式)的符號(hào)表示。

圖片

該圖展示了SDXL(中)和 DALL-E 3(右)使用原始圖像(左)中的標(biāo)注生成新圖像的過(guò)程

圖片

「一個(gè)女人正在等電梯,但電梯里的人卻著火了。這種情況會(huì)在哪里發(fā)生?」

可以看出,在解決相同問(wèn)題時(shí),與純文本推理相比,CoI的直覺(jué)性更強(qiáng),能夠用視覺(jué)常識(shí)知識(shí)來(lái)補(bǔ)充文本中缺失的細(xì)節(jié),從而輔助推理過(guò)程。

圖片

除了圖像之外,還有分解提示、視頻提示,以及3D提示技術(shù),可以顯著提升多模態(tài)模型的響應(yīng)性能。

案例研究:自殺危機(jī)綜合癥(SCS)的標(biāo)注


在這項(xiàng)研究中,研究人者將提示技術(shù)應(yīng)用于標(biāo)注Reddit帖子是否表明自殺危機(jī)綜合癥(SCS)的任務(wù)。

通過(guò)這個(gè)案例研究,未來(lái)去展示提示工程在現(xiàn)實(shí)世界問(wèn)題中的應(yīng)用。

對(duì)此,研究人員使用了馬里蘭大學(xué)的Reddit自殺傾向數(shù)據(jù)集,并與一位專家提示工程師合作,記錄了他們將F1分?jǐn)?shù)從0提升到0.53的過(guò)程。

圖片

不同提示技術(shù)的陷阱分?jǐn)?shù)

圖片

隨著提示工程師的開(kāi)發(fā),不同提示技術(shù)的陷阱分?jǐn)?shù)被繪制成圖

圖片

自動(dòng)化技術(shù)(DSPy)能夠擊敗人類提示工程師

PRISMA審查過(guò)程

論文的數(shù)據(jù)收集過(guò)程,遵循了基于PRISMA方法的系統(tǒng)審查流程。

首先,通過(guò)關(guān)鍵詞搜索從arXiv、Semantic Scholar和ACL數(shù)據(jù)庫(kù)中抓取數(shù)據(jù)。其中,包含44個(gè)術(shù)語(yǔ),每個(gè)術(shù)語(yǔ)都與提示和提示工程密切相關(guān)。

然后,根據(jù)論文標(biāo)題進(jìn)行去重,通過(guò)人類和AI審查確定相關(guān)性,并通過(guò)檢查論文正文中是否包含「prompt」一詞自動(dòng)刪除不相關(guān)的論文。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-04-26 09:25:00

模型推理AI

2025-04-15 09:00:00

模型推理AI

2023-06-19 13:44:00

AI3D

2023-07-28 14:29:00

數(shù)據(jù)訓(xùn)練

2023-11-03 12:56:00

AI模型

2024-11-11 17:33:35

2025-03-03 09:00:00

2023-10-31 12:23:17

GPT-4版本VLM

2020-10-26 10:51:09

人工智能AI語(yǔ)言

2023-10-07 06:50:03

2020-09-04 15:05:15

AI監(jiān)控技術(shù)人工智能

2021-10-09 15:32:11

信息安全技術(shù)

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2024-05-29 06:00:00

2024-09-03 14:51:02

2019-05-22 10:57:15

工具微服務(wù)架構(gòu)

2020-03-27 10:25:34

機(jī)器人人工智能系統(tǒng)

2024-12-19 13:28:54

2023-06-14 14:57:38

模型AI

2021-07-02 16:24:08

自動(dòng)駕駛無(wú)人駕駛人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)