我們一起聊聊Google DeepMind推出Gemma 2 技術(shù)報(bào)告
引言:大規(guī)模語言模型的發(fā)展與挑戰(zhàn)
近年來,大規(guī)模語言模型(LLMs)在語言理解、生成和推理方面展現(xiàn)出了強(qiáng)大的能力。隨著模型規(guī)模的不斷擴(kuò)大,新的能力也逐漸顯現(xiàn)。最新的大型模型不僅在推理基準(zhǔn)測試上達(dá)到了前所未有的性能,還展示了多模態(tài)和多語言的能力,甚至能處理超過1M個令牌的上下文長度。
盡管小規(guī)模模型的性能也在迅速提升,這些提升主要來自于增加訓(xùn)練長度。然而,這種方法與數(shù)據(jù)集大小的增長呈對數(shù)關(guān)系,最新的小型模型需要高達(dá)15T令牌才能將藝術(shù)狀態(tài)提高不到1-2%。
這些持續(xù)的改進(jìn)表明,小型模型仍然存在未充分訓(xùn)練的問題。在本工作中,我們探索了提高小型模型性能的替代方法,而不僅僅是增加訓(xùn)練長度。一種解決方案是改進(jìn)網(wǎng)絡(luò)在每個訓(xùn)練步驟中接收的信息質(zhì)量,通過替換下一個令牌預(yù)測任務(wù)來實(shí)現(xiàn),采用更豐富的目標(biāo)。我們采用了知識蒸餾方法,這種方法經(jīng)常被用來減少小型模型的訓(xùn)練時(shí)間,通過提供更豐富的梯度。
此外,我們還利用了幾種已知的Transformer修改技術(shù),例如交替使用全局和局部注意力層,以及分組查詢注意力機(jī)制。通過這些技術(shù)的應(yīng)用,我們的模型在與規(guī)模相當(dāng)?shù)拈_放模型相比,顯著提升了性能,并且在某些情況下,甚至能與規(guī)模是其兩倍的模型競爭。
總的來說,這些技術(shù)的應(yīng)用不僅提升了小型模型的性能,也為大規(guī)模語言模型的發(fā)展提供了新的可能性。然而,這些模型的測試不能覆蓋所有應(yīng)用場景,因此在部署或使用之前,所有用戶都應(yīng)進(jìn)行嚴(yán)格的安全測試。
論文標(biāo)題、機(jī)構(gòu)、論文鏈接和項(xiàng)目地址
1. 論文標(biāo)題:Gemma 2: Improving Open Language Models at a Practical Size
2. 機(jī)構(gòu):Google DeepMind
3. 論文鏈接:??https://arxiv.org/pdf/2408.00118.pdf??
模型架構(gòu)與技術(shù)創(chuàng)新
1. Gemma 2模型的基本架構(gòu)
Gemma 2模型繼承了Gemma系列模型的基本架構(gòu),采用了解碼器僅Transformer架構(gòu)(Vaswani et al., 2017)。這種架構(gòu)特別強(qiáng)調(diào)了使用旋轉(zhuǎn)位置嵌入(RoPE)(Su et al., 2021)和近似的GeGLU非線性激活函數(shù)(Shazeer, 2020)。在Gemma 2中,與Gemma 1相比,采用了更深的網(wǎng)絡(luò)層次結(jié)構(gòu),并在每個Transformer子層中使用了RMSNorm(Zhang and Sennrich, 2019)進(jìn)行輸入和輸出的規(guī)范化,以穩(wěn)定訓(xùn)練過程。
2. 知識蒸餾與訓(xùn)練數(shù)據(jù)的使用
在Gemma 2的開發(fā)中,采用了知識蒸餾技術(shù)(Hinton et al., 2015),這是一種通過大模型(教師模型)來訓(xùn)練小模型(學(xué)生模型)的方法。具體來說,通過模擬教師模型對每個令牌的概率分布,來訓(xùn)練學(xué)生模型,而不是簡單的下一個令牌預(yù)測。這種方法可以給小模型提供更豐富的梯度信息,從而在不增加訓(xùn)練令牌數(shù)量的情況下,顯著提高模型性能。例如,Gemma 2的27B模型在13萬億令牌上進(jìn)行訓(xùn)練,而9B和2B模型分別在8萬億和2萬億令牌上進(jìn)行訓(xùn)練。
3. 改進(jìn)的Transformer技術(shù):局部-全局注意力與群組查詢注意力
Gemma 2模型在其Transformer層中引入了局部滑動窗口注意力和全局注意力的交替使用(Beltagy et al., 2020a; Luong et al., 2015),這種設(shè)計(jì)旨在提高模型處理長序列數(shù)據(jù)的能力。此外,Gemma 2還采用了群組查詢注意力(Grouped-Query Attention, GQA)機(jī)制(Ainslie et al., 2023),該機(jī)制通過將注意力頭分組來提高推理時(shí)的速度,同時(shí)保持下游任務(wù)性能。這些技術(shù)的應(yīng)用使得Gemma 2在多項(xiàng)自動化基準(zhǔn)測試和人類評估中表現(xiàn)出色,相對于同等規(guī)模的開放模型顯著提升了性能。
訓(xùn)練過程與數(shù)據(jù)處理
1. 使用的數(shù)據(jù)類型與規(guī)模
在本次訓(xùn)練中,Gemma 2模型使用了大量的數(shù)據(jù),其中27B模型使用了13萬億個主要是英語的token,9B模型使用了8萬億個token,而2B模型則使用了2萬億個token。這些token來源于多種數(shù)據(jù)源,包括網(wǎng)絡(luò)文檔、代碼和科學(xué)文章。這些數(shù)據(jù)的最終混合是通過類似于Gemini 1.0中的方法確定的。
2. 數(shù)據(jù)過濾與安全性考慮
為了確保數(shù)據(jù)的安全性和適用性,我們采用了與Gemma 1相同的數(shù)據(jù)過濾技術(shù)。具體來說,我們過濾了預(yù)訓(xùn)練數(shù)據(jù)集以減少不需要或不安全的表達(dá),過濾掉某些個人信息或其他敏感數(shù)據(jù),從我們的預(yù)訓(xùn)練數(shù)據(jù)混合中去除評估集的污染,并通過最小化敏感輸出的傳播來減少背誦的風(fēng)險(xiǎn)。
3. 計(jì)算基礎(chǔ)設(shè)施與優(yōu)化技術(shù)
我們的模型是在TPUv4、TPUv5e和TPUv5p上訓(xùn)練的。具體來說,2B模型在TPUv5e的2x16x16配置上訓(xùn)練,總共使用了512個芯片;9B模型在TPUv4的8x16x32配置上訓(xùn)練,使用了4096個芯片;而27B模型則在TPUv5p的8x24x32配置上訓(xùn)練,使用了6144個芯片。我們還使用了類似于ZeRO-3的技術(shù)進(jìn)一步分片優(yōu)化器狀態(tài)。對于超過單個pod的規(guī)模,我們在數(shù)據(jù)中心網(wǎng)絡(luò)上執(zhí)行數(shù)據(jù)副本減少,使用了Pathways方法和單控制器編程范式。此外,我們還使用了GSPMD分區(qū)器進(jìn)行訓(xùn)練步驟計(jì)算,以及MegaScale XLA編譯器。
模型性能與評估
1. 預(yù)訓(xùn)練與指令調(diào)優(yōu)模型的性能
預(yù)訓(xùn)練模型和指令調(diào)優(yōu)模型(IT模型)在多個自動化基準(zhǔn)測試和人類評估中展示了顯著的性能。例如,Gemma 2模型在Chatbot Arena評估中表現(xiàn)優(yōu)異,其27B模型的Elo評分高于多個競爭模型。此外,這些模型在處理多輪對話和遵循指令的能力上也有所提升,顯示出與之前版本相比的顯著改進(jìn)。
2. 人類評估與自動化基準(zhǔn)測試
Gemma 2模型在多種領(lǐng)域進(jìn)行了廣泛的評估,包括自動化基準(zhǔn)測試和人類偏好評估。在自動化基準(zhǔn)測試中,Gemma 2的27B模型與其他大小相近的模型相比表現(xiàn)出色,甚至與訓(xùn)練時(shí)間更長、參數(shù)量更大的模型競爭。在人類評估方面,Gemma 2模型在Chatbot Arena中的表現(xiàn)尤為突出,其中27B模型的Elo評分超過了多個競爭模型。
3. 知識蒸餾對小模型性能的影響
知識蒸餾是一種有效的技術(shù),可以顯著提升小模型的性能。通過使用大模型作為教師模型,小模型可以在訓(xùn)練過程中學(xué)習(xí)到更豐富的信息,從而提高其性能。例如,Gemma 2的2B和9B模型通過知識蒸餾訓(xùn)練,與以往版本相比,在多個基準(zhǔn)測試中顯示出了10%的性能提升。這證明了即使在相同的訓(xùn)練代幣數(shù)量下,知識蒸餾也能顯著提高模型的質(zhì)量和效果。
安全性、隱私與責(zé)任
1. 模型的隱私保護(hù)與數(shù)據(jù)安全
在大型語言模型的開發(fā)和部署過程中,隱私保護(hù)和數(shù)據(jù)安全是不可或缺的考慮因素。Gemma 2模型在訓(xùn)練階段采用了多種數(shù)據(jù)過濾技術(shù),以減少不希望或不安全的表達(dá)的風(fēng)險(xiǎn)。特別是,它們過濾掉了某些個人信息或其他敏感數(shù)據(jù),以防止這些數(shù)據(jù)在模型訓(xùn)練過程中被不當(dāng)使用。此外,為了減少模型輸出中的敏感信息,Gemma 2還實(shí)施了嚴(yán)格的輸出監(jiān)控機(jī)制,確保不會泄露用戶的私人信息。
2. 安全政策與訓(xùn)練時(shí)的緩解措施
Gemma 2的開發(fā)團(tuán)隊(duì)采取了多項(xiàng)措施來確保模型的安全性,包括在模型的訓(xùn)練和微調(diào)階段采用安全策略和緩解措施。這些措施旨在防止模型生成有害內(nèi)容,例如兒童性虐待和剝削內(nèi)容、揭露可能導(dǎo)致傷害的個人身份信息、仇恨言論和騷擾以及危險(xiǎn)或惡意內(nèi)容。通過這些綜合性的安全策略,Gemma 2能夠在多種使用場景中提供更為安全的應(yīng)用保障。
3. 對模型潛在風(fēng)險(xiǎn)的評估與管理
對于Gemma 2模型的潛在風(fēng)險(xiǎn),開發(fā)團(tuán)隊(duì)進(jìn)行了全面的評估和管理。這包括使用外部基準(zhǔn)評估模型的安全性能,以及運(yùn)行保證評估來理解模型可能造成的傷害。例如,Gemma 2在多個安全基準(zhǔn)上的表現(xiàn)優(yōu)于先前的模型,特別是在兒童安全內(nèi)容上的違規(guī)率顯著降低。此外,團(tuán)隊(duì)還評估了模型在生物、放射性和核風(fēng)險(xiǎn)方面的知識水平,確保模型不會被用于不當(dāng)用途。
通過這些綜合性的措施,Gemma 2不僅在功能性能上有所提升,同時(shí)也在安全性、隱私保護(hù)和責(zé)任性方面設(shè)立了新的標(biāo)準(zhǔn),確保技術(shù)的積極影響最大化,同時(shí)降低潛在的負(fù)面影響。
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企
