Transformer本可以深謀遠慮,但就是不做
「別讓 Yann LeCun 看見了?!?/p>
Yann LeCun 表示太遲了,他已經(jīng)看到了。今天要介紹的這篇 「LeCun 非要看」的論文探討的問題是:Transformer 是深謀遠慮的語言模型嗎?當它在某個位置執(zhí)行推理時,它會預先考慮后面的位置嗎?
這項研究得出的結(jié)論是:Transformer 有能力這樣做,但在實踐中不會這樣做。
我們都知道,人類會思而后言。數(shù)十年的語言學研究表明:人類在使用語言時,內(nèi)心會預測即將出現(xiàn)的語言輸入、詞或句子。
不同于人類,現(xiàn)在的語言模型在「說話」時會為每個 token 分配固定的計算量。那么我們不禁要問:語言模型會和人類一樣預先性地思考嗎?
近期的一些研究已經(jīng)表明:可以通過探查語言模型的隱藏狀態(tài)來預測下一 token 之后的更多 token。有趣的是,通過在模型隱藏狀態(tài)上使用線性探針,可以在一定程度上預測模型在未來 token 上的輸出,而干擾隱藏狀態(tài)則可以對未來輸出進行可預測的修改。
這些發(fā)現(xiàn)表明在給定時間步驟的模型激活至少在一定程度上可以預測未來輸出。
但是,我們還不清楚其原因:這只是數(shù)據(jù)的偶然屬性,還是因為模型會刻意為未來時間步驟準備信息(但這會影響模型在當前位置的性能)?
為了解答這一問題,近日科羅拉多大學博爾德分校和康奈爾大學的三位研究者發(fā)布了一篇題為《語言模型是否會規(guī)劃未來 token?》的論文。
論文標題:Do Language Models Plan for Future Tokens?
論文地址:https://arxiv.org/pdf/2404.00859.pdf
研究概覽
他們觀察到,在訓練期間的梯度既會為當前 token 位置的損失優(yōu)化權(quán)重,也會為該序列后面的 token 進行優(yōu)化。他們又進一步問:當前的 transformer 權(quán)重會以怎樣的比例為當前 token 和未來 token 分配資源?
他們考慮了兩種可能性:預緩存假設(pre-caching hypothesis)和面包屑假設(breadcrumbs hypothesis)。
預緩存假設是指 transformer 會在時間步驟 t 計算與當前時間步驟的推理任務無關(guān)但可能對未來時間步驟 t + τ 有用的特征,而面包屑假設是指與時間步驟 t 最相關(guān)的特征已經(jīng)等同于將在時間步驟 t + τ 最有用的特征。
為了評估哪種假設是正確的,該團隊提出了一種短視型訓練方案(myopic training scheme),該方案不會將當前位置的損失的梯度傳播給之前位置的隱藏狀態(tài)。
對上述假設和方案的數(shù)學定義和理論描述請參閱原論文。
實驗結(jié)果
為了了解語言模型是否可能直接實現(xiàn)預緩存,他們設計了一種合成場景,其中只能通過顯式的預緩存完成任務。他們配置了一種任務,其中模型必須為下一 token 預先計算信息,否則就無法在一次單向通過中準確計算出正確答案。
該團隊構(gòu)建的合成數(shù)據(jù)集定義。
在這個合成場景中,該團隊發(fā)現(xiàn)了明顯的證據(jù)可以說明 transformer 可以學習預緩存。當基于 transformer 的序列模型必須預計算信息來最小化損失時,它們就會這樣做。
之后,他們又探究了自然語言模型(預訓練的 GPT-2 變體)是會展現(xiàn)出面包屑假設還是會展現(xiàn)出預緩存假設。他們的短視型訓練方案實驗表明在這種設置中,預緩存出現(xiàn)的情況少得多,因此結(jié)果更偏向于面包屑假設。
基于 token 位置的原始 GPT-2 模型與短視型 GPT-2 模型的交叉熵損失及其差異。
GPT-2 通過原始和短視型訓練獲得的驗證交叉熵損失。
于是該團隊聲稱:在真實語言數(shù)據(jù)上,語言模型并不會在顯著程度上準備用于未來的信息。相反,它們是計算對預測下一個 token 有用的特征 —— 事實證明這對未來的步驟也很有用。
該團隊表示:「在語言數(shù)據(jù)中,我們觀察到貪婪地針對下一 token 損失進行優(yōu)化與確保未來預測性能之間并不存在顯著的權(quán)衡?!?/p>
因此我們大概可以看出來,Transformer 能否深謀遠慮的問題似乎本質(zhì)上是一個數(shù)據(jù)問題。
可以想象,也許未來我們能通過合適的數(shù)據(jù)整理方法讓語言模型具備人類一樣預先思考的能力。
本文轉(zhuǎn)自 機器之心,作者:機器之心
