自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="mxa1d"><i id="mxa1d"></i></strike>

<p id="mxa1d"><li id="mxa1d"><pre id="mxa1d"></pre></li></p>

<legend id="mxa1d"><track id="mxa1d"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4變笨！回答新問(wèn)題性能太差，想保持水準(zhǔn)只能不斷訓(xùn)練新模型

作者：新智元 2024-01-02 13:12:53

最近由UCSC的研究人員發(fā)表論文，證明大模型的零樣本或者少樣本能力，幾乎都是來(lái)源于對(duì)于訓(xùn)練數(shù)據(jù)的記憶。

昨天，一篇系統(tǒng)性地研究了GPT-4為什么會(huì)「降智」的論文，引發(fā)了AI圈的廣泛討論。

隨著大家對(duì)GPT-4使用得越來(lái)越頻繁，用戶(hù)每過(guò)一段時(shí)間都會(huì)集中反應(yīng)，GPT-4好像又變笨了。

圖片

最近的情況是，如果用戶(hù)不小心和GPT-4說(shuō)現(xiàn)在是12月份，GPT-4的輸出的內(nèi)容就會(huì)明顯變少。

有一位用戶(hù)專(zhuān)門(mén)做了一個(gè)測(cè)試，分別告訴GPT-4現(xiàn)在是5月份和12月份，然后對(duì)比輸出結(jié)果，發(fā)現(xiàn)12月份的結(jié)果比5月份差了不少。

圖片

大家討論都覺(jué)得是說(shuō)GPT-4會(huì)給自己放寒假，看到12月份就不想干活了。

但是如果放在這篇論文中來(lái)看，作者認(rèn)為，最主要的原因是大模型有一個(gè)現(xiàn)在看來(lái)幾乎是無(wú)解的缺陷——缺乏持續(xù)學(xué)習(xí)和進(jìn)化能力。

圖片

論文地址：https://arxiv.org/abs/2312.16337

我們發(fā)現(xiàn)在LLM在訓(xùn)練數(shù)據(jù)創(chuàng)建日期之前的數(shù)據(jù)集上的表現(xiàn)，要明顯好于在訓(xùn)練日期之后發(fā)布的數(shù)據(jù)集的表現(xiàn)。

圖片

不論是零樣本還是多樣本的測(cè)試中，LLM都會(huì)呈現(xiàn)出這種情況。

論文還指出，LLM在他們以前真正「見(jiàn)過(guò)」的任務(wù)上表現(xiàn)良好，而在新任務(wù)上表現(xiàn)不佳，根本原因還是因?yàn)橹皇怯涀×舜鸢?，而沒(méi)有辦法有效地獲得新知識(shí)和理解。

而造成這種表現(xiàn)差別如此巨大的原因，就在于「任務(wù)污染」。

圖片

在上表中，作者發(fā)現(xiàn)可以從GPT-3模型中都能提取任務(wù)示例，并且從davinci到GPT-3.5-turbo的每個(gè)新版本中，提取的訓(xùn)練示例數(shù)量都在增加，與GPT-3系列模型在這些任務(wù)上的零樣本性能提高密切相關(guān)。

說(shuō)白了，之所以模型在截止時(shí)間之前的數(shù)據(jù)集測(cè)試表現(xiàn)良好，是因?yàn)橛?xùn)練數(shù)據(jù)中已經(jīng)包含了數(shù)據(jù)集中的問(wèn)題。

這充分說(shuō)明了GPT-3系列各個(gè)版本在這些任務(wù)上的性能增強(qiáng)是由任務(wù)污染導(dǎo)致的。

對(duì)于那些不存在任務(wù)污染證據(jù)的分類(lèi)任務(wù)，大型語(yǔ)言模型很少能在零樣本和少樣本設(shè)置下顯著優(yōu)于簡(jiǎn)單多數(shù)基準(zhǔn)。

在上表中，研究人員也列出對(duì)于51個(gè)后訓(xùn)練數(shù)據(jù)收集且無(wú)提取任務(wù)示例的模型/數(shù)據(jù)集組合中，只有1個(gè)組合的模型能在零樣本或少樣本設(shè)置下顯著優(yōu)于多數(shù)基準(zhǔn)。

這說(shuō)明一旦沒(méi)有任務(wù)污染的可能性，LLM的零樣本和少樣本表現(xiàn)其實(shí)并不突出。

網(wǎng)友們看了之后悲觀地表示：目前很難構(gòu)建能夠持續(xù)適應(yīng)且不會(huì)對(duì)已編碼的過(guò)去知識(shí)和新知識(shí)造成災(zāi)難性干擾的機(jī)器學(xué)習(xí)模型。

圖片

ChatGPT是過(guò)去互聯(lián)網(wǎng)的快照 - 隨著互聯(lián)網(wǎng)的變化，ChatGPT 在有用任務(wù)的知識(shí)和性能方面都變得過(guò)時(shí)了。
OpenAI和大模型公司都必須面對(duì)這樣一個(gè)事實(shí)——他們必須不斷重新訓(xùn)練新模型。

圖片

也許，這就某種程度上為什么沒(méi)過(guò)一段時(shí)間，人們就會(huì)發(fā)現(xiàn)ChatGPT又變笨了，也許只是因?yàn)槟悴粩嗟卦谟眯聠?wèn)題考它，它的真實(shí)水品慢慢地被暴露出來(lái)了。

測(cè)試模型

研究人員針對(duì)12個(gè)模型進(jìn)行了測(cè)試：

5個(gè)OpenAI發(fā)布的GPT模型，7個(gè)開(kāi)源的LLM。

圖片

針對(duì)這些模型，他們選取了兩組剛好卡在模型訓(xùn)練時(shí)間前后的數(shù)據(jù)集進(jìn)行了測(cè)試。

圖片

測(cè)試方法

時(shí)序分析

然后研究人員分別測(cè)試了不同模型在相同兩組數(shù)據(jù)集上的表現(xiàn)。從結(jié)果可以明顯看出，在模型數(shù)據(jù)訓(xùn)練截止日期之后發(fā)布的數(shù)據(jù)集，零樣本和多樣本性能明顯要差了很多。

圖片

對(duì)于12個(gè)模型和16個(gè)數(shù)據(jù)集，研究人員進(jìn)行了192個(gè)模型/數(shù)據(jù)集組合。

在這些組合中，136 個(gè)數(shù)據(jù)集在 LLM 培訓(xùn)數(shù)據(jù)收集日期之前發(fā)布（收集前），56 個(gè)數(shù)據(jù)集在之后發(fā)布（收集后）。對(duì)于這兩個(gè)集合，我們計(jì)算模型擊敗大多數(shù)基線(xiàn)（零樣本和少樣本）的模型/數(shù)據(jù)集組合的百分比。

結(jié)果如下圖 1 所示。我們發(fā)現(xiàn)，對(duì)于在創(chuàng)建 LLM 之前發(fā)布的數(shù)據(jù)集，LLM 更有可能在零和少數(shù)樣本設(shè)置上擊敗多數(shù)基線(xiàn)。

圖片

針對(duì)單個(gè)的LLM，進(jìn)一步發(fā)現(xiàn)：

針對(duì)每個(gè)LLM單獨(dú)進(jìn)行測(cè)試。結(jié)果如上圖2所示。這樣的趨勢(shì)在具有全范圍日期的模型中保持不變，進(jìn)一步表明數(shù)據(jù)集的絕對(duì)日期不是主要因素，而是日期數(shù)據(jù)集相對(duì)于法學(xué)碩士訓(xùn)練數(shù)據(jù)收集日期的變化是更重要的因素。

任務(wù)示例提取分析

如果LLM能夠生成與測(cè)試數(shù)據(jù)中的示例完全匹配的示例，則證明LLM在訓(xùn)練期間已經(jīng)看到了該任務(wù)的測(cè)試集。

研究人員采用類(lèi)似的方法來(lái)測(cè)試任務(wù)污染。他們不嘗試生成測(cè)試數(shù)據(jù)，而是提示模型生成訓(xùn)練示例，因?yàn)閷?duì)于零次或少次評(píng)估，模型不應(yīng)在任何任務(wù)示例上進(jìn)行訓(xùn)練。

如果LLM可以根據(jù)提示生成訓(xùn)練示例，這就是任務(wù)污染的證據(jù)。

下表4顯示了所有模型中所有任務(wù)的任務(wù)示例提取結(jié)果。

圖片

進(jìn)一步研究人員還發(fā)現(xiàn)，對(duì)于沒(méi)有被證明存在任務(wù)污染可能性的任務(wù)，LLM很少表現(xiàn)出比大多數(shù)基線(xiàn)具有統(tǒng)計(jì)顯著性的改進(jìn)。

在上表4中，對(duì)于收集后且沒(méi)有提取任務(wù)示例的 51 個(gè)模型/數(shù)據(jù)集組合，51 個(gè)模型/數(shù)據(jù)集組合中只有 1 個(gè)（即 2%）在零樣本或少樣本設(shè)置的情況下表現(xiàn)出相對(duì)于大多數(shù)基線(xiàn)的統(tǒng)計(jì)顯著改進(jìn)。

成員推理分析

為了進(jìn)一步檢查訓(xùn)練數(shù)據(jù)污染的影響，研究人員應(yīng)用了成員推理來(lái)檢查模型生成的內(nèi)容是否與數(shù)據(jù)集中的示例完全匹配。

圖片

上圖5a和圖5b分別顯示了GPT-3系列版本和最新開(kāi)源 LLM 的采樣訓(xùn)練集和完整開(kāi)發(fā)集生成的示例有多少是完全相同的。

因?yàn)閿?shù)據(jù)庫(kù)模式（atabase schemas ）不在零樣本提示中，因此如果模型可以生成與訓(xùn)練或開(kāi)發(fā)數(shù)據(jù)中完全相同的表名或字段名，則一定存在污染。

如圖5所示，精確匹配生成的示例數(shù)量隨著時(shí)間的推移而增加，這表明Spider上的任務(wù)污染程度正在增加。

他們還在提示中添加模式后計(jì)算執(zhí)行準(zhǔn)確性，并將其與完全匹配的代數(shù)進(jìn)行繪制（圖 6）。我們發(fā)現(xiàn)完全匹配的生成示例數(shù)量與執(zhí)行準(zhǔn)確性之間存在很強(qiáng)的正相關(guān)性（?? = 0.88），這強(qiáng)烈表明污染的增加與性能的提高有關(guān)。

圖片

參考資料：

https://arxiv.org/abs/2312.16337

責(zé)任編輯：武曉燕來(lái)源：新智元

GPT-4 UCSC 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)