LLM的「母語」是什么?
大語言模型的「母語」是什么?
我們的第一反應(yīng)很可能是:英語。
但事實果真如此嗎?尤其是對于能夠聽說讀寫多種語言的LLM來說。
對此,來自EPFL(洛桑聯(lián)邦理工學院)的研究人員發(fā)表了下面這篇工作來一探究竟:
圖片
論文地址:https://arxiv.org/pdf/2402.10588
項目地址:https://github.com/epfl-dlab/llm-latent-language
作者以Llama2為對象,向我們展示了具有多語言能力的Transformer,是如何思考問題的。
像「羊駝」這種在英語區(qū)下長大的娃,他的「多語言」到底是本質(zhì)屬性,還是僅僅套了個翻譯的殼?
這對于人們理解LLM的運行機制至關(guān)重要。
圖片
要探究大模型的內(nèi)心世界,雖然聽起來有點復(fù)雜,但實際上一點也不簡單。
研究人員在這里化繁為簡,使用特定的提示來保證輸出的唯一性,同時把Llama-2-7B的32層輸出全部提取出來——一層一層一層的剝開她的心。
圖片
于是,我們能在上圖清楚地看到,羊駝在得到中文翻譯(「花」)時的整個推理過程。
Transformer將輸入token進行逐層映射,最終預(yù)測出下一個token,中間那些我們大概能理解或者不能理解的字符串,就是LLM使用的「內(nèi)部語言」。
顯然,在中間層的「思考」環(huán)節(jié),羊駝用的是偏向于英語的某種神秘文字。
這里需要強調(diào)一下,這是羊駝的自發(fā)行為,因為提示中壓根就沒有一點英語!
圖片
比如上圖是其中的一個實驗,構(gòu)建了法語翻譯中文的提示,且限制了正確答案只需1個token(花)。
而下圖的統(tǒng)計顯示:在Llama2的大部分前向傳遞中,正確中文token(藍色)的概率遠低于英文翻譯(橙色)的概率。中文只在最后兩層中占據(jù)主導(dǎo)地位。
圖片
為了方便大家觀察,作者還將嵌入在高維空間中的路徑的可視化(實際是8192個維度,這里使用2D展示)。
從輸入到輸出,軌跡以紅色開始,以紫色結(jié)束。我們可以看到,這些路徑基本都是先繞道英語,然后才返回正確的中文。
圖片
不過,這是否確實表明Llama2先用英文進行推理,然后將再其翻譯成中文?
作者表示,比這更微妙一點。那些看起來像英語的中間嵌入實際上對應(yīng)于抽象概念,而不是具體的英文token。
所以,一方面,Llama2內(nèi)部的「通用語」不是英語,而是概念;
但另一方面,這些神秘字符又顯然是偏向于英語的概念。
因此,在語義上,而非純粹的詞匯意義上,英語確實可以被視為羊駝的「母語」。
網(wǎng)友:我早就發(fā)現(xiàn)了
有網(wǎng)友表示:恕我直言,不僅僅是羊駝系列,基本上所有LLM都是這樣。
圖片
「對于以英語為母語的人來說,這可能會令人驚訝,但對于其他人來說,這種傾向性是可見的,只不過有時多,有時少。」
「有時我會想LLM為什么要這樣回答,然后我意識到這個答案在英語中更有意義?!?/span>
「這在詩歌中更是顯而易見的。LLM寫詩很漂亮,但通常沒有押韻.——如果你把它翻譯成英語,就押韻了?!?/span>
另一位網(wǎng)友表示,這是大模型帶來的偏見,要小心了。
圖片
「英語和中文最終將成為LLM提示和輸出的最佳語言,而隨著LLM的應(yīng)用范圍越來越廣泛,世界其他語言將更加邊緣化。」
模型表達空間的探索
當嵌入逐層轉(zhuǎn)換時,它們會經(jīng)歷3個階段:
1. 輸入空間:模型消除分詞器帶來的影響。
2. 概念空間:嵌入進入一個抽象的概念空間中。
3. 輸出空間:概念被映射回原本的表達形式。
圖片
模型
實驗專注于Llama-2系列語言模型。Llama-2系列模型在多語言語料庫上進行訓練,語料庫主要由英語主導(dǎo)(占89.70%)。
不過考慮到總體訓練數(shù)據(jù)的大?。?萬億個token),即使是一小部分非英語訓練數(shù)據(jù),絕對值仍然很大(德語占0.17%=3.4B,中文占0.13%=2.6B)。
Llama-2有7B/13B/70B三種尺寸,分別為32/40/80層,嵌入維度d=4096/5120/8192,詞匯表V包含32,000個token。實驗中使用8位量化探究這三種不同大小的模型。
實驗
實驗的目標是探索Llama-2的內(nèi)部狀態(tài),是否與特定的自然語言相對應(yīng),這需要從token分布映射到語言。
為了規(guī)避許多token在語言方面上模棱兩可的問題,研究人員構(gòu)造了特殊的提示,限制token輸出的唯一性,并且可以明確地歸因于某一種語言。
翻譯任務(wù)
將前面的非英語(例如法語)單詞翻譯成中文,示例如下,向模型展示四個單詞,并帶有正確的翻譯,后跟第五個沒有翻譯的單詞,讓模型預(yù)測下一個token:
圖片
重復(fù)任務(wù)
要求模型簡單地重復(fù)最后一個單詞,提示如下:
圖片
完形填空任務(wù)
作為一項稍微困難的任務(wù),模型需要預(yù)測句子中缺失的單詞。給定一個目標單詞,通過GPT-4構(gòu)建一個以該單詞開頭的英語句子,屏蔽目標單詞,并將該句子翻譯成其他語言。英語示例如下:
圖片
單詞選擇
為了實現(xiàn)明確的語言歸屬,研究人員為每種語言構(gòu)建了一組封閉的單詞。掃描Llama-2的詞匯表,尋找具有單token英文翻譯的單token中文單詞(主要是名詞)。
這樣一來,Llama-2預(yù)測下一個中文單詞的正確概率就可以直接從下一個token概率中讀出。
保險起見,作者還在德語、法語和俄語上進行了相同的實驗,總共測試了139個中文、104個德語、56個法語和115個俄語單詞。三個任務(wù)的測試結(jié)果如下:
圖片
上圖表示Llama-2前向傳遞期間,每一層輸出是英語還是中文的概率,三個任務(wù)分別為:(a)從德語/法語/俄語到中文的翻譯任務(wù),(b)中文重復(fù)任務(wù),(c)中文完形填空任務(wù)。
誤差線顯示輸入文本的95%高斯置信區(qū)間(翻譯任務(wù)為353,重復(fù)任務(wù)和完形填空為139)。
8192D太空漫游
自回歸Transformer是以增量方式求解的,每一層通過添加殘差來修改前一層產(chǎn)生的潛在向量,這一過程在幾何上可以描述為通過d維歐幾里得空間的路徑。
圖片
為了建立直覺,首先考慮一個假設(shè)的極端情況,即token位于整個d維空間的適當子空間中。
如果latent embedding(h)具有與token子空間正交的分量,則表示預(yù)測中包含與h無關(guān)的信息。
研究人員采用h和token嵌入之間的均方余弦,來表示h的能量有多少轉(zhuǎn)化為logit分數(shù)。為了可解釋性,這里通過token嵌入本身的均方余弦進行歸一化,得到h的平方token能量:
圖片
在上面的球形示意圖中,所有嵌入都位于原點周圍的球體上。token嵌入位于赤道上,主要沿x軸分布,x軸捕獲語言(左英文,右中文),y軸捕捉概念,z軸提供了額外的自由度,可用于存儲有關(guān)上下文、語言等的信息。Transformer正向傳遞沿球體表面移動。
在第1階段,latent embedding從北極開始,與輸出token和概念嵌入正交。
階段2旋轉(zhuǎn)到概念空間中,英語token占據(jù)主導(dǎo)。
最后,第3階段沿赤道旋轉(zhuǎn)到目標語言的半球,產(chǎn)生輸出token。
參考資料: