自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

恕我直言,你的模型可能并沒(méi)看懂prompt在說(shuō)啥

人工智能 開(kāi)發(fā)
in-context learning學(xué)習(xí)的并不是輸入與標(biāo)注之間的關(guān)聯(lián),而是通過(guò)展示數(shù)據(jù)形式,來(lái)激活預(yù)訓(xùn)練模型的能力。

隨著GPT-3等超大模型的興起,in-context learning的形式也流行起來(lái)。在in-context learning中,模型不根據(jù)下游任務(wù)調(diào)整參數(shù),而是將下游任務(wù)的輸入輸出接起來(lái)之后作為prompt,引導(dǎo)模型根據(jù)測(cè)試集的輸入生成預(yù)測(cè)結(jié)果。該方法的表現(xiàn)可以大幅超越零監(jiān)督學(xué)習(xí),并給大模型高效運(yùn)用提供了新的思路。

然而,in-context learning中,模型真的學(xué)習(xí)了下游任務(wù)么?作為prompt的訓(xùn)練樣本,到底是如何讓模型work的?

本文作者發(fā)現(xiàn),in-context learning學(xué)習(xí)的并不是輸入與標(biāo)注之間的關(guān)聯(lián),而是通過(guò)展示數(shù)據(jù)形式,來(lái)激活預(yù)訓(xùn)練模型的能力。此外還有兩個(gè)附帶的結(jié)論:(1)在meta learning的環(huán)境下,in-context learning的這一特點(diǎn)更為明顯;(2)因?yàn)闃?biāo)簽不重要,所以可以用無(wú)標(biāo)注領(lǐng)域內(nèi)數(shù)據(jù)做in-context zero shot learning。

論文題目:Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?論文鏈接:https://arxiv.org/abs/2202.12837項(xiàng)目地址:https://github.com/Alrope123/rethinking-demonstrations

背景

大規(guī)模預(yù)訓(xùn)練模型的無(wú)監(jiān)督預(yù)測(cè):對(duì)預(yù)訓(xùn)練好的語(yǔ)言模型,輸入測(cè)試數(shù)據(jù)的輸入(x),直接通過(guò)語(yǔ)言模型預(yù)測(cè)輸出(P(y|x))。如下圖所示。其中minimal是最簡(jiǎn)單的方式,mannual是加入人工設(shè)計(jì)的部分。藍(lán)色是需要預(yù)測(cè)的標(biāo)簽部分。這篇論文中,作者默認(rèn)采用Minimal的方式處理測(cè)試數(shù)據(jù)。

而in-context learning,類似于上述的無(wú)監(jiān)督預(yù)測(cè),但在輸入測(cè)試樣例前輸入少量標(biāo)注數(shù)據(jù)。同樣不需要參數(shù)調(diào)整,直接訓(xùn)練。相當(dāng)于在無(wú)監(jiān)督預(yù)測(cè)的基礎(chǔ)上,引入如下前綴:

而本文主要探究的,就是in-context learning中,模型究竟從加入的這段前綴中學(xué)到了什么。

實(shí)驗(yàn)設(shè)置

本文主要探究了6種不同的預(yù)訓(xùn)練模型,其中,MetaICL采用了大量的下游任務(wù)以in-context learning的形式進(jìn)行了元學(xué)習(xí):

對(duì)于每個(gè)模型,作者采用了兩種應(yīng)用方式,即direct和channel:

作者一共探究了26個(gè)數(shù)據(jù)集,其中16個(gè)分類任務(wù)和10個(gè)多項(xiàng)選擇任務(wù)。

在實(shí)驗(yàn)細(xì)節(jié)上,作者對(duì)于每個(gè)instance,展示了16個(gè)標(biāo)注樣例。每組設(shè)置(26個(gè)數(shù)據(jù)集6個(gè)預(yù)訓(xùn)練模型2組使用方式)用5個(gè)隨機(jī)數(shù)種子跑了5遍。作者在 airseq 13B 和 GPT-3 兩個(gè)大模型上,出于算力的考慮只做了6個(gè)數(shù)據(jù)集,和3個(gè)隨機(jī)數(shù)種子。

由于實(shí)驗(yàn)較多,作者一般僅匯報(bào)各種均值。

模型沒(méi)有學(xué)習(xí)標(biāo)簽

這篇文章的第一個(gè)結(jié)論是:in-context learning中,模型并沒(méi)有學(xué)習(xí)輸入和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。

通過(guò)給in-context的訓(xùn)練樣本賦予隨機(jī)標(biāo)簽,可以構(gòu)建隨機(jī)標(biāo)注的設(shè)置。從下圖中可以看出,無(wú)論是分類任務(wù)(上),還是多項(xiàng)選擇任務(wù)(下),隨機(jī)標(biāo)注設(shè)置下(紅)模型表現(xiàn)均和正確標(biāo)注(黃)表現(xiàn)相當(dāng),且明顯超過(guò)沒(méi)有in-context樣本的zero-shot 設(shè)置(藍(lán))。

這一點(diǎn)趨勢(shì),在改變隨機(jī)標(biāo)簽的in-context樣本比例,以及改變in-context樣本數(shù)量時(shí),都是保持的。選用人工設(shè)計(jì)的in-context展示形式(prompt),結(jié)論也不發(fā)生改變。

下圖調(diào)整的是改變隨機(jī)標(biāo)簽的in-context樣本比例。

下圖左邊是Channel MetaICL,右邊是 Direct GPT-J,K調(diào)的是展示樣例的數(shù)目。

下圖+T表示采用人工設(shè)計(jì)的in-context展示形式。

模型學(xué)習(xí)任務(wù)形式

這篇文章的第二個(gè)結(jié)論是:in-context learning中,模型學(xué)到(激活)了輸入數(shù)據(jù)、預(yù)測(cè)標(biāo)簽的分布,以及這種數(shù)據(jù)+label的語(yǔ)言表達(dá)形式。

下圖中,青綠色的柱子為用(從外部語(yǔ)料中)隨機(jī)采樣的句子替換輸入句子的設(shè)置??梢钥吹?,模型表現(xiàn)明顯下降。因此,in-context learning中,展示樣本和測(cè)試樣本在語(yǔ)料分布上的一致性比較中央。猜測(cè)模型很可能學(xué)到了展示樣本的語(yǔ)言風(fēng)格。

下圖中,青綠色的柱子為用隨機(jī)詞匯替代展示樣本中的標(biāo)簽。可以看到,模型表現(xiàn)明顯下降。因此,in-context learning中,展示樣本中的標(biāo)簽內(nèi)容與測(cè)試樣本的標(biāo)簽內(nèi)容的一致性是比較重要的。猜測(cè)模型很可能從展示樣本中學(xué)到了標(biāo)簽詞匯的分布。

下圖中,分別用labels only(深紫)和no labels(深綠)來(lái)探索展示模式的差異對(duì)模型表現(xiàn)的影響??梢钥吹剑P拖鄬?duì)于上面兩圖的OOD setting而言,都有了進(jìn)一步的下降。這可以表明,除了領(lǐng)域內(nèi),輸入和標(biāo)簽表達(dá)方式之外,in-context learning中模型還會(huì)學(xué)習(xí)這種輸入輸出的語(yǔ)言模式。

總結(jié)與討論

模型有沒(méi)有學(xué)習(xí)?

作者認(rèn)為,傳統(tǒng)意義上的學(xué)習(xí)指模型建模輸入樣本和輸出樣本之間的關(guān)聯(lián)(P(y|x)或P(x,y)∝P(x|y))。在這種意義下,in-context learning并沒(méi)有學(xué)習(xí)。

然而,模型可以通過(guò)展示樣例,中的輸入、輸出、及輸入+輸出的語(yǔ)言表達(dá)風(fēng)格來(lái)提升表現(xiàn)。在一定程度上,這種利用前綴輸入激活大模型語(yǔ)言表達(dá)建模能力的方式也算是一種學(xué)習(xí)。

因此,這也表明:大模型零監(jiān)督能力遠(yuǎn)超預(yù)期。

畢竟,學(xué)習(xí)表達(dá)形式、語(yǔ)言風(fēng)格與標(biāo)簽形式,不需要標(biāo)注數(shù)據(jù)的參與。大模型潛在地就具有了這種(分類)能力。

當(dāng)然,反過(guò)來(lái),也表明了in-context learning的局限在于,它不能真正建模輸入和輸出之間的關(guān)系,因此在一些輸入輸出之間的關(guān)系必然沒(méi)有被無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)所建模的下游任務(wù)而言,in-context learning很可能失效。

不過(guò),看起來(lái)目前大多數(shù)傳統(tǒng)NLP的任務(wù)都不會(huì)滿足上述“失效”設(shè)定。

額外的一點(diǎn)啟示

這篇文章的一作 Sewon Min 近期創(chuàng)作了很多相關(guān)主題的高質(zhì)量工作,包括:

  • Noisy Channel Language Model Prompting for Few-Shot Text Classification ~ https://arxiv.org/pdf/2108.04106.pdf
  • MetaICL: Learning to Learn In Context ~ https://arxiv.org/pdf/2110.15943.pdf

平時(shí)有些同學(xué)做了很多實(shí)驗(yàn),一到寫論文就什么實(shí)驗(yàn)結(jié)果都想往論文里放。

這里還是可以學(xué)習(xí)一下 Sewon Min。這三篇文章arxiv的時(shí)間跨度只有6個(gè)月,很多實(shí)驗(yàn)甚至是有overlap的,基本可以判斷為一作同時(shí)在做的幾項(xiàng)工作。作者從不同的角度去分割了這些實(shí)驗(yàn),以不同的匯報(bào)方式,講出了三個(gè)故事,每個(gè)故事看起來(lái)都完整且獨(dú)立,看起來(lái)就很棒。

責(zé)任編輯:張燕妮 來(lái)源: 夕小瑤的賣萌屋
相關(guān)推薦

2020-02-15 14:34:33

IDEA插件代碼

2021-11-03 07:58:27

異步編程線程

2020-11-27 19:08:51

AI 數(shù)據(jù)人工智能

2022-05-06 08:26:21

babel編譯器

2023-10-20 07:29:16

框架模型Prompt

2024-07-17 09:47:18

2011-07-28 09:15:56

MIUI小米手機(jī)雷軍

2024-02-01 08:29:42

大數(shù)據(jù)計(jì)算業(yè)務(wù)

2025-02-18 10:25:10

2023-05-20 00:13:22

prompt團(tuán)隊(duì)升職

2023-11-30 08:15:58

模型結(jié)構(gòu)化

2011-08-31 13:12:36

2024-04-29 09:25:19

2024-08-12 12:30:27

2024-06-05 08:29:35

2019-09-02 08:08:30

緩存HTTP數(shù)據(jù)庫(kù)

2021-05-26 10:19:01

jreJava應(yīng)用程序

2019-09-10 13:48:12

NLP神經(jīng)網(wǎng)絡(luò)模型

2014-06-19 14:49:37

iCloud認(rèn)證令牌密碼

2017-11-01 15:09:26

字體Android技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)