AI信任危機之后,揭秘預(yù)訓(xùn)練如何塑造機器的「可信靈魂」
圖表 1: 大模型的通用訓(xùn)練流程 [1]
在人工智能的前沿領(lǐng)域,大語言模型(Large Language Models,LLMs)由于其強大的能力正吸引著全球研究者的目光。在 LLMs 的研發(fā)流程中,預(yù)訓(xùn)練階段占據(jù)著舉足輕重的地位,它不僅消耗了大量的計算資源,還蘊含著許多尚未揭示的秘密。根據(jù) OpenAI 的研究,在 InstructGPT 的開發(fā)過程中,預(yù)訓(xùn)練階段近乎耗盡了全部的算力和數(shù)據(jù)資源,占比高達 98% [2]。
圖表 2: 帶著笑臉的修格斯 [3]
預(yù)訓(xùn)練模型宛如一頭未經(jīng)雕琢卻力量強大的猛獸。在經(jīng)歷了漫長的預(yù)訓(xùn)練階段后,模型已經(jīng)建模了大量而又豐富的世界知識。借助高質(zhì)量的對話數(shù)據(jù)進行有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT),我們可以使這個「野獸」理解人類的語言、適應(yīng)社會的需要;而后通過基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)的進一步優(yōu)化,使其更精準(zhǔn)地契合用戶的個性化訴求,在價值觀上與人類「對齊」,從而能更好地服務(wù)于社會。諸如 SFT 和 RLHF 等相關(guān)對齊階段,可以視為對這頭猛獸的馴化過程。但我們的目標(biāo)不止于此,更重要的是揭示賦予 LLMs 獨特能力的根本過程 —— 預(yù)訓(xùn)練(The Pre-training Period)。預(yù)訓(xùn)練階段猶如一個蘊藏?zé)o限可能的寶盒,亟待科研人員深入挖掘其中更為深遠的價值及運作機制。
當(dāng)前,多數(shù)開源的 LLMs 僅公布模型權(quán)重與性能指標(biāo),而深入理解模型行為則需要更多詳盡信息。LLM360 [4] 與 OLMo [5] 的全面開源,向研究者和社區(qū)提供了包括訓(xùn)練數(shù)據(jù)、超參配置、預(yù)訓(xùn)練過程中的多個模型權(quán)重切片以及性能評測在內(nèi)的全方位深度解析,大大增強了 LLMs 訓(xùn)練過程的透明度,助力我們洞悉其運作機理。
人類到底能否信任 LLMs?面對這一核心問題,上海 AI Lab、中國人民大學(xué)、中國科學(xué)院大學(xué)等機構(gòu)從預(yù)訓(xùn)練階段入手,試圖洞察 LLMs 這個龐然大物。團隊致力于剖析 LLMs 如何在預(yù)訓(xùn)練階段內(nèi)構(gòu)建可信的相關(guān)概念(Trustworthiness),并試圖探索預(yù)訓(xùn)練階段是否具備引導(dǎo)和提升最終 LLMs 可信能力的潛力。
- 論文標(biāo)題:Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models
- 論文鏈接:https://arxiv.org/abs/2402.19465
- 項目主頁:https://github.com/ChnQ/TracingLLM
這項工作首次給出了如下觀察:
- 發(fā)現(xiàn) LLMs 在預(yù)訓(xùn)練的早期階段就建立了有關(guān)可信概念的線性表征,能夠區(qū)分可信與不可信的輸入。
- 發(fā)現(xiàn)預(yù)訓(xùn)練過程中,LLMs 表現(xiàn)出對于可信概念類似于「信息瓶頸」先擬合、再壓縮的學(xué)習(xí)過程。
- 基于表征干預(yù)技術(shù),初步驗證了 LLMs 在預(yù)訓(xùn)練過程中的切片可以幫助提升最終 LLMs 的可信能力。
圖表 3: 文章概覽圖
在本研究中,團隊使用了 LLM360 [4] 開源項目所提供的豐富 LLM 預(yù)訓(xùn)練資源。該項目以 1.3 萬億 Tokens 的預(yù)訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練出其基礎(chǔ)的 7B 模型 Amber,并均勻地開源了 360 個預(yù)訓(xùn)練過程中的模型參數(shù)切片。此外,基于 Amber,LLM360 進一步發(fā)布了兩個微調(diào)模型:使用指令微調(diào)優(yōu)化的 AmberChat 模型和經(jīng)過安全對齊優(yōu)化的 AmberSafe 模型。
1.LLMs 在預(yù)訓(xùn)練過程中迅速建立起有關(guān)可信概念的線性表征
數(shù)據(jù)集:本文主要探究可信領(lǐng)域下的五個關(guān)鍵維度:可靠性(reliability)、毒性(toxicity)、隱私性(privacy)、公平性(fairness)和魯棒性(robustness)。每個維度下,團隊均選取了具有代表性的相關(guān)數(shù)據(jù)集來輔佐研究:TruthfulQA、Toxicity、ConfAIde、StereoSet 以及經(jīng)過特定擾動處理的 SST-2。團隊根據(jù)原數(shù)據(jù)集的設(shè)定,對每個樣本進行標(biāo)注,以標(biāo)識每個輸入樣本是否包含不正確、有毒、隱私泄露、有歧視和被擾動的信息。
實驗設(shè)置:本文采用線性探針(Linear Probing)技術(shù) [6] 來量化 LLMs 內(nèi)部表征對可信概念的建模情況。
具體地,對于某個可信維度下的數(shù)據(jù)集,團隊收集所有切片在該數(shù)據(jù)集下的內(nèi)部表征,對于每個切片的每一層表征都訓(xùn)練一個線性分類器,線性分類器在測試集上的正確率代表著模型內(nèi)部表征區(qū)分不同可信概念的能力。前 80 個切片的實驗結(jié)果如下(后續(xù)完整切片的實驗結(jié)果請移步正文附錄,實驗趨勢大體相同):
圖表 4: 線性探針實驗結(jié)果
上圖所示實驗結(jié)果表明:
- 隨著預(yù)訓(xùn)練的進行,在所選取的五個可信維度上,大模型中間層的表征可以很好地區(qū)分是否可信;
- 對于區(qū)分某個樣本是否可信,大模型在預(yù)訓(xùn)練的早期階段(前 20 個切片)就迅速學(xué)習(xí)到相關(guān)概念。
2.信息瓶頸視角下審視 LLMs 有關(guān)可信概念的預(yù)訓(xùn)練動態(tài)
受到利用互信息來探測模型在訓(xùn)練過程中動態(tài)變化的啟發(fā) [7],本文也利用互信息對 LLMs 表征在預(yù)訓(xùn)練過程中的動態(tài)變化做了初步探索。團隊借鑒了 [7] 中使用信息平面分析傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的方法,分別探究了模型表征 T 與五個原始數(shù)據(jù)集 X 之間的互信息,以及模型表征 T 與數(shù)據(jù)集標(biāo)簽 Y 之間的互信息。其中,在 Reliability 維度上的實驗結(jié)果如下(其他可信維度的實驗結(jié)果請移步原文附錄):
圖表 5: 互信息實驗結(jié)果
從圖中可以看出,T 與 X 的互信息呈現(xiàn)出先上升后下降的趨勢,而 T 與 Y 的互信息則持續(xù)上升。綜合來看,團隊發(fā)現(xiàn)這些趨勢與經(jīng)典論文 [7] 中描述的先「擬合」 (fitting) 后「壓縮」 (compression) 兩個階段相吻合。具體來說,大語言模型在初始隨機化時并不具備保留信息的能力,因此互信息接近于 0;隨著預(yù)訓(xùn)練的進行,大模型逐漸具備語言理解和概念建模的能力,因此互信息持續(xù)增長;隨著預(yù)訓(xùn)練的進一步進行,大模型逐漸學(xué)會壓縮無關(guān)信息并提取有效信息,因此 T 和 X 的互信息減少,而 T 和 Y 的互信息繼續(xù)增長。
從互信息的角度,這是一個很有趣的發(fā)現(xiàn)。盡管定義和實驗設(shè)置存在細微的差異,但大語言模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練階段都能被劃分為「擬合」和「壓縮」兩個階段。這暗示著大語言模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中可能存在一些共通之處。這一發(fā)現(xiàn)不僅豐富了團隊對大模型預(yù)訓(xùn)練動態(tài)的理解,也為未來的研究提供了新的視角和思路。
3.預(yù)訓(xùn)練切片如何助力最終 LLMs 可信能力提升
(1)表征干預(yù)技術(shù)
團隊觀察到,既然 LLMs 在其預(yù)訓(xùn)練的早期階段就已經(jīng)學(xué)習(xí)到了有關(guān)可信概念線性可分的表征,那么一個很自然的問題是:LLMs 在預(yù)訓(xùn)練過程中的切片能不能幫助最終的指令微調(diào)模型(SFT model)進行對齊呢?
團隊基于表征干預(yù)的技術(shù)(Activation Intervention),給予該問題初步的肯定回答。
表征干預(yù)(Activation Intervention)是 LLMs 領(lǐng)域中一個正在快速興起的技術(shù),已被多個場景下驗證有效 [8-9]。這里以如何減輕 LLMs 的幻覺問題,讓其回答變得更「真實」為例 [8],簡要闡述表征干預(yù)技術(shù)的基本流程:
- 首先,分別使用涵蓋真實與虛假信息的正負文本來刺激 LLMs 并收集其對應(yīng)的內(nèi)部表征;
- 然后,對正負表征的質(zhì)心作差獲得「指向真實方向的引導(dǎo)向量(Steering Vector)」;
- 最后,在 LLMs 前向推理時每一步產(chǎn)生的表征上加上該引導(dǎo)向量,達到干預(yù)輸出的目的。
不同于上述方法從待干預(yù)模型自身抽取引導(dǎo)向量,團隊意在從 LLMs 預(yù)訓(xùn)練過程的切片中構(gòu)建引導(dǎo)向量來干預(yù)指令微調(diào)模型,如下圖所示。
圖表 6: 表征干預(yù)技術(shù)示意圖
其中,團隊使用北京大學(xué)團隊開源的 PKU-RLHF-10K 數(shù)據(jù)集 [10-11] 來構(gòu)建正負文本對,該數(shù)據(jù)集包含一萬條帶有安全 / 非安全回復(fù)標(biāo)注的對話數(shù)據(jù),可用于 LLMs 的 RLHF 訓(xùn)練。
(2)實驗結(jié)果分析
論文在上文提及的可信領(lǐng)域下五個維度的數(shù)據(jù)集(Reliability: TruthfulQA,Toxicity: Toxigen,F(xiàn)airness: StereoSet,Privacy: ConfAIde,Robustness: SST-2),以及四個常用的大模型通用能力評測數(shù)據(jù)集(MMLU,ARC,RACE,MathQA)上,評測了四個模型的性能:指令微調(diào)模型 AmberChat,安全對齊模型 AmberSafe,使用來自 AmberChat 自身的引導(dǎo)向量干預(yù)后的 AmberChat,使用來自中間預(yù)訓(xùn)練切片的引導(dǎo)向量干預(yù)后的 AmberChat。實驗結(jié)果如下圖所示(更多的實驗觀察結(jié)果請移步原文):
圖表 7: 表征干預(yù)后模型性能評測結(jié)果
實驗結(jié)果表明,在使用來自預(yù)訓(xùn)練切片的引導(dǎo)向量干預(yù) AmberChat 后,AmberChat 在三個可信維度(TruthfulQA,Toxigen,StereoSet)上都有較明顯的提升。同時,這種干預(yù)對模型通用能力的影響并不顯著(在 ARC,MMLU 上表現(xiàn)出邊際損失,在 MathQA 和 RACE 上表現(xiàn)出邊際提升)。
令人驚訝的是,使用預(yù)訓(xùn)練的中間切片構(gòu)建的引導(dǎo)向量,相比于來自 AmberChat 自身的引導(dǎo)向量,能更顯著地提升 AmberChat 模型的可信性能。
4.小結(jié)
隨著人工智能技術(shù)的不斷進步,未來,當(dāng)試圖對齊比人類更強大的模型(Superalignment)時,傳統(tǒng)的依賴「人類反饋」的微調(diào)技術(shù),如 RLHF 等,或?qū)⒉辉僮嘈?nbsp;[12-13]。為了應(yīng)對這一挑戰(zhàn),研究機構(gòu)正在積極探索新的解決方案。例如,OpenAI 提出了「弱對強監(jiān)督」的方法 [12],Meta 提出了「自我獎勵」機制 [13]。同時,越來越多的研究開始關(guān)注「自我對齊」(self-alignment)這一新興領(lǐng)域 [14-15] 。
該研究為解決 Superalignment 問題提供了新的視角:利用 LLMs 在預(yù)訓(xùn)練過程中的切片來輔助最終的模型對齊。團隊首先探究了預(yù)訓(xùn)練過程中 LLMs 是如何構(gòu)建和理解「可信」這一概念的:1)觀察到 LLMs 在預(yù)訓(xùn)練的早期階段就已經(jīng)建模了關(guān)于可信概念的線性表征;2)發(fā)現(xiàn) LLMs 在學(xué)習(xí)可信概念的過程中呈現(xiàn)出的類信息瓶頸的現(xiàn)象。此外,通過應(yīng)用表征干預(yù)技術(shù),團隊初步驗證了預(yù)訓(xùn)練過程中的切片對于輔助最終 LLMs 對齊的有效性。
團隊表示,期望本研究能夠為深入理解 LLMs 如何動態(tài)構(gòu)建和發(fā)展其內(nèi)在的可信屬性提供新的視角,并激發(fā)未來在 LLMs 對齊技術(shù)領(lǐng)域的更多創(chuàng)新嘗試。同時期待這些研究成果能有助于推動 LLMs 向著更可信、更可控的方向發(fā)展,為人工智能倫理與安全領(lǐng)域貢獻堅實的一步。
參考文獻
[1] https://karpathy.ai/stateofgpt.pdf
[2] https://openai.com/research/instruction-following
[3] twitter.com/anthrupad
[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.
[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.
[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48 (1), 207-219.
[7] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.
[8] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.
[9] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.
[10] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.
[11] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K
[12] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.
[13] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.
[14] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.
[15] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.