這是GPT-4變笨的新解釋
自發(fā)布以來(lái),曾被認(rèn)為是世界上最強(qiáng)大的 GPT-4 也經(jīng)歷了多場(chǎng)「信任危機(jī)」。
如果說(shuō)今年早些時(shí)候那次「間歇式降智」與 OpenAI 重新設(shè)計(jì) GPT-4 架構(gòu)有關(guān),前段時(shí)間的「變懶」傳聞就更搞笑了,有人測(cè)出只要告訴 GPT-4「現(xiàn)在是寒假」,它就會(huì)變得懶懶散散,仿佛進(jìn)入了一種冬眠狀態(tài)。
大模型變懶、變笨,具體是指模型在新任務(wù)上的零樣本性能變差。盡管上述原因聽起來(lái)很有趣,但問(wèn)題到底怎么解決呢?
在最近的一篇論文中,加州大學(xué)圣克魯斯分校研究者的新發(fā)現(xiàn)或可解釋 GPT-4 性能下降的深層原因:
「我們發(fā)現(xiàn),在訓(xùn)練數(shù)據(jù)創(chuàng)建日期之前發(fā)布的數(shù)據(jù)集上,LLM 的表現(xiàn)出奇地好于之后發(fā)布的數(shù)據(jù)集。」
它們?cè)凇敢娺^(guò)的」任務(wù)上表現(xiàn)出色,而在新任務(wù)上則表現(xiàn)糟糕。這意味著,LLM 只是基于近似檢索的模仿智能方法,主要是記憶東西,而沒(méi)有任何程度的理解。
說(shuō)白了,就是 LLM 的泛化能力「沒(méi)有說(shuō)的那么強(qiáng)」—— 基礎(chǔ)不扎實(shí),實(shí)戰(zhàn)總有出紕漏的時(shí)候。
造成這種結(jié)果的一大原因是「任務(wù)污染」,這是數(shù)據(jù)污染的其中一種形式。我們以前熟知的數(shù)據(jù)污染是測(cè)試數(shù)據(jù)污染,即在預(yù)訓(xùn)練數(shù)據(jù)中包含測(cè)試數(shù)據(jù)示例和標(biāo)簽。而「任務(wù)污染」是在預(yù)訓(xùn)練數(shù)據(jù)中加入任務(wù)訓(xùn)練示例,使零樣本或少樣本方法中的評(píng)估不再真實(shí)有效。
研究者在論文中首次對(duì)數(shù)據(jù)污染問(wèn)題進(jìn)行了系統(tǒng)分析:
論文鏈接:https://arxiv.org/pdf/2312.16337.pdf
看完論文,有人「悲觀」地表示:
這是所有不具備持續(xù)學(xué)習(xí)能力的機(jī)器學(xué)習(xí)(ML)模型的命運(yùn),即 ML 模型權(quán)重在訓(xùn)練后會(huì)被凍結(jié),但輸入分布會(huì)不斷變化,如果模型不能持續(xù)適應(yīng)這種變化,就會(huì)慢慢退化。
這意味著,隨著編程語(yǔ)言的不斷更新,基于 LLM 的編碼工具也會(huì)退化。這就是為什么你不必過(guò)分依賴這種脆弱工具的原因之一。
不斷重新訓(xùn)練這些模型的成本很高,遲早有人會(huì)放棄這些低效的方法。
目前還沒(méi)有任何 ML 模型能夠可靠地持續(xù)適應(yīng)不斷變化的輸入分布,而不會(huì)對(duì)之前的編碼任務(wù)造成嚴(yán)重干擾或性能損失。
而這正是生物神經(jīng)網(wǎng)絡(luò)所擅長(zhǎng)的領(lǐng)域之一。由于生物神經(jīng)網(wǎng)具有強(qiáng)大的泛化能力,學(xué)習(xí)不同的任務(wù)可以進(jìn)一步提高系統(tǒng)的性能,因?yàn)閺囊豁?xiàng)任務(wù)中獲得的知識(shí)有助于改善整個(gè)學(xué)習(xí)過(guò)程本身,這就是所謂的「元學(xué)習(xí)」。
「任務(wù)污染」的問(wèn)題有多嚴(yán)重?我們一起來(lái)看下論文內(nèi)容。
模型和數(shù)據(jù)集
實(shí)驗(yàn)所使用的模型有 12 個(gè)(如表 1 所示),其中 5 個(gè)是專有的 GPT-3 系列模型,7 個(gè)是可免費(fèi)獲取權(quán)重的開放模型。
數(shù)據(jù)集分為兩類:2021 年 1 月 1 日之前或之后發(fā)布的數(shù)據(jù)集,研究者使用這種劃分方法來(lái)分析舊數(shù)據(jù)集與新數(shù)據(jù)集之間的零樣本或少樣本性能差異,并對(duì)所有 LLM 采用相同的劃分方法。表 1 列出了每個(gè)模型訓(xùn)練數(shù)據(jù)的創(chuàng)建時(shí)間,表 2 列出了每個(gè)數(shù)據(jù)集的發(fā)布日期。
上述做法的考慮是,零樣本和少樣本評(píng)估涉及模型對(duì)其在訓(xùn)練期間從未見過(guò)或僅見過(guò)幾次的任務(wù)進(jìn)行預(yù)測(cè),其關(guān)鍵前提是模型事先沒(méi)有接觸過(guò)要完成的特定任務(wù),從而確保對(duì)其學(xué)習(xí)能力進(jìn)行公平的評(píng)估。然而,受污染的模型會(huì)給人一種未接觸或僅接觸過(guò)幾次的能力的假象,因?yàn)樗鼈冊(cè)陬A(yù)訓(xùn)練期間已經(jīng)接受過(guò)任務(wù)示例的訓(xùn)練。在按時(shí)間順序排列的數(shù)據(jù)集中,檢測(cè)這種不一致性會(huì)相對(duì)容易一些,因?yàn)槿魏沃丿B或異常都會(huì)很明顯。
測(cè)量方法
研究者采用了四種方法來(lái)測(cè)量「任務(wù)污染」:
- 訓(xùn)練數(shù)據(jù)檢查:在訓(xùn)練數(shù)據(jù)中搜索任務(wù)訓(xùn)練示例。
- 任務(wù)示例提取:從現(xiàn)有模型中提取任務(wù)示例。只有經(jīng)過(guò)指令調(diào)優(yōu)的模型才能進(jìn)行提取,這種分析也可用于訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù)的提取。注意,為了檢測(cè)任務(wù)污染,提取的任務(wù)示例不必與現(xiàn)有的訓(xùn)練數(shù)據(jù)示例完全匹配。任何演示任務(wù)的示例都表明零樣本學(xué)習(xí)和少樣本學(xué)習(xí)可能存在污染。
- 成員推理:此方法僅適用于生成任務(wù)。檢查輸入實(shí)例的模型生成內(nèi)容是否與原始數(shù)據(jù)集完全相同。如果完全匹配,就可以推斷它是 LLM 訓(xùn)練數(shù)據(jù)中的一員。這與任務(wù)示例提取不同,因?yàn)樯傻妮敵鰰?huì)被檢查是否完全匹配。開放式生成任務(wù)的精確匹配強(qiáng)烈表明模型在訓(xùn)練過(guò)程中見過(guò)這些示例,除非模型「通靈」,知道數(shù)據(jù)中使用的確切措辭。(注意,這只能用于生成任務(wù)。)
- 時(shí)序分析:對(duì)于在已知時(shí)間范圍內(nèi)收集訓(xùn)練數(shù)據(jù)的模型集,在已知發(fā)布日期的數(shù)據(jù)集上測(cè)量其性能,并使用時(shí)序證據(jù)檢查污染證據(jù)。
前三種方法精度高,但召回率低。如果能在任務(wù)的訓(xùn)練數(shù)據(jù)中找到數(shù)據(jù),那么就能確定模型曾見過(guò)示例。但由于數(shù)據(jù)格式的變化、用于定義任務(wù)的關(guān)鍵字的變化以及數(shù)據(jù)集的大小,使用前三種方法找不到污染證據(jù)并不能證明沒(méi)有污染。
第四種方法,按時(shí)間順序分析的召回率高,但精確度低。如果由于任務(wù)污染而導(dǎo)致性能較高,那么按時(shí)間順序分析就有很大機(jī)會(huì)發(fā)現(xiàn)它。但隨著時(shí)間的推移,其他因素也可能導(dǎo)致性能提高,因此精確度較低。
因此,研究者采用了所有四種方法來(lái)檢測(cè)任務(wù)污染,發(fā)現(xiàn)了在某些模型和數(shù)據(jù)集組合中存在任務(wù)污染的有力證據(jù)。
他們首先對(duì)所有測(cè)試過(guò)的模型和數(shù)據(jù)集進(jìn)行時(shí)序分析,因?yàn)樗钣锌赡馨l(fā)現(xiàn)可能的污染;然后使用訓(xùn)練數(shù)據(jù)檢查和任務(wù)示例提取尋找任務(wù)污染的進(jìn)一步證據(jù);接下來(lái)觀察了 LLM 在無(wú)污染任務(wù)中的性能,最后使用成員推理攻擊進(jìn)行額外分析。
重點(diǎn)結(jié)論如下:
1、研究者對(duì)每個(gè)模型在其訓(xùn)練數(shù)據(jù)在互聯(lián)網(wǎng)上抓取之前創(chuàng)建的數(shù)據(jù)集和之后創(chuàng)建的數(shù)據(jù)集進(jìn)行了分析。結(jié)果發(fā)現(xiàn),對(duì)于在收集 LLM 訓(xùn)練數(shù)據(jù)之前創(chuàng)建的數(shù)據(jù)集,其性能高于大多數(shù)基線的幾率明顯更高(圖 1)。
2、研究者進(jìn)行了訓(xùn)練數(shù)據(jù)檢查和任務(wù)示例提取,以查找可能存在的任務(wù)污染。結(jié)果發(fā)現(xiàn),對(duì)于不可能存在任務(wù)污染的分類任務(wù),在一系列任務(wù)中,模型很少比簡(jiǎn)單多數(shù)基線有統(tǒng)計(jì)意義上的顯著提高,無(wú)論是零樣本還是少樣本(圖 2)。
研究者也檢查了 GPT-3 系列和開放 LLM 的平均表現(xiàn)隨時(shí)間的變化,如圖 3:
3、作為案例研究,研究者還嘗試對(duì)分析中的所有模型進(jìn)行語(yǔ)義解析任務(wù)的成員推理攻擊,發(fā)現(xiàn)在最終任務(wù)中,提取實(shí)例的數(shù)量與模型的準(zhǔn)確性之間存在很強(qiáng)的相關(guān)性(R=.88)(圖 6)。這有力地證明了在這一任務(wù)中零樣本性能的提高是由于任務(wù)污染造成的。
4、研究者還還仔細(xì)研究了 GPT-3 系列模型,發(fā)現(xiàn)可以從 GPT-3 模型中提取訓(xùn)練示例,而且從 davinci 到 GPT-3.5-turbo 的每個(gè)版本中,可提取的訓(xùn)練示例數(shù)量都在增加,這與 GPT-3 模型在該任務(wù)上零樣本性能的提高密切相關(guān)(圖 2)。這有力地證明了從 davinci 到 GPT-3.5-turbo 的 GPT-3 模型在這些任務(wù)上的性能提高是由于任務(wù)污染造成的。