蘋果智能背后模型公布:3B模型優(yōu)于Gemma-7B,服務(wù)器模型媲美GPT-3.5-Turbo
在剛剛結(jié)束的全球開發(fā)者大會上,蘋果宣布了 Apple intelligence, 這是一款深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的全新個性化智能系統(tǒng)。
Apple Intelligence 由多種高度智能的生成模型組成,這些模型專為用戶的日常任務(wù)設(shè)計。在蘋果剛剛更新的博客中,他們詳細介紹了其中兩款模型:
- 一個擁有約 30 億參數(shù)的設(shè)備端語言模型;
- 一個更大的基于服務(wù)器的語言模型,該模型通過私有云計算在蘋果服務(wù)器上運行。
這兩個基礎(chǔ)模型是蘋果生成模型家族的一部分,蘋果表示,他們會在不久的將來分享更多關(guān)于這一模型家族的信息。
在這篇博客中,蘋果用大量篇幅介紹了他們是如何開發(fā)高性能、快速且節(jié)能的模型;如何進行這些模型的訓(xùn)練;如何為特定用戶需求微調(diào)適配器;以及如何評估模型在提供幫助和避免意外傷害方面的表現(xiàn)。
蘋果基礎(chǔ)模型的建模概覽
預(yù)訓(xùn)練
基礎(chǔ)模型是在 AXLearn 框架上訓(xùn)練而成的,這是蘋果在 2023 年發(fā)布的一個開源項目。該框架建立在 JAX 和 XLA 之上,使得用戶能夠在各種硬件和云平臺上高效且可擴展地訓(xùn)練模型,包括 TPU 以及云端和本地的 GPU。此外,蘋果使用數(shù)據(jù)并行、張量并行、序列并行和 FSDP 等技術(shù),沿著多個維度(如數(shù)據(jù)、模型和序列長度)擴展訓(xùn)練。
蘋果在訓(xùn)練其基礎(chǔ)模型時,使用了經(jīng)過授權(quán)的數(shù)據(jù),這些數(shù)據(jù)包括為了增強某些特定功能而特別選擇的數(shù)據(jù),以及由蘋果的網(wǎng)頁爬蟲 AppleBot 從公開的網(wǎng)絡(luò)上收集的數(shù)據(jù)。網(wǎng)頁內(nèi)容的發(fā)布者可以通過設(shè)置數(shù)據(jù)使用控制,選擇不讓他們的網(wǎng)頁內(nèi)容被用來訓(xùn)練 Apple Intelligence。
蘋果在訓(xùn)練其基礎(chǔ)模型時,從不使用用戶的私人數(shù)據(jù)。為了保護隱私,他們會使用過濾器去除公開在互聯(lián)網(wǎng)上的個人可識別信息,比如信用卡號碼。此外,他們還會過濾掉粗俗語言和其他低質(zhì)量的內(nèi)容,以防這些內(nèi)容進入訓(xùn)練數(shù)據(jù)集。除了這些過濾措施之外,Apple 還會進行數(shù)據(jù)提取和去重,并使用基于模型的分類器來識別并選擇高質(zhì)量的文檔用于訓(xùn)練。
后訓(xùn)練
蘋果發(fā)現(xiàn)數(shù)據(jù)質(zhì)量對模型至關(guān)重要,因此在訓(xùn)練流程中采用了混合數(shù)據(jù)策略,即人工標注數(shù)據(jù)和合成數(shù)據(jù),并進行全面的數(shù)據(jù)管理和過濾程序。蘋果在后訓(xùn)練階段開發(fā)了兩種新算法:(1) 帶有「teacher committee」的拒絕采樣微調(diào)算法,(2) 使用帶有鏡像下降策略優(yōu)化以及留一優(yōu)勢估計器的從人類反饋中進行強化學習(RLHF)算法。這兩種算法顯著提高了模型的指令跟隨質(zhì)量。
優(yōu)化
除了保證生成模型本身的高性能,Apple 還采用了多種創(chuàng)新技術(shù),在設(shè)備端和私有云上對模型進行優(yōu)化,以提升速度和效率。特別是,他們對模型在生成第一個 token(單個字符或詞語的基本單位)和后續(xù) token 的推理過程都進行了大量優(yōu)化,以確保模型的快速響應(yīng)和高效運行。
蘋果在設(shè)備端模型和服務(wù)器模型中都采用了分組查詢注意力機制,以提高效率。為了減少內(nèi)存需求和推理成本,他們使用了共享的輸入和輸出詞匯嵌入表,這些表在映射時沒有重復(fù)。設(shè)備端模型的詞匯量為 49,000,而服務(wù)器模型的詞匯量為 100,000。
對于設(shè)備端推理,蘋果使用了低位 palletization,這是一個關(guān)鍵的優(yōu)化技術(shù),能夠滿足必要的內(nèi)存、功耗和性能要求。為了保持模型質(zhì)量,蘋果還開發(fā)了一個新的框架,使用 LoRA 適配器,結(jié)合了混合的 2 位和 4 位配置策略 —— 平均每個權(quán)重 3.5 位 —— 以實現(xiàn)與未壓縮模型相同的準確率。
此外,蘋果還使用交互式模型延遲和功耗分析工具 Talaria,以及激活量化和嵌入量化,并開發(fā)了一種在神經(jīng)引擎上實現(xiàn)高效鍵值 (KV) 緩存更新的方法。
通過這一系列優(yōu)化,在 iPhone 15 Pro 上, 當模型接收到一個提示詞時,從接收到這個提示詞到生成第一個 token 所需的時間約為 0.6 毫秒,這個延遲時間非常短,表明模型在生成響應(yīng)時非??焖偕伤俾蕿槊棵?30 個 token。
模型適配
蘋果將基礎(chǔ)模型針對用戶的日?;顒舆M行了微調(diào),并且可以動態(tài)地專門針對當前的任務(wù)。
研究團隊利用適配器(可以插入預(yù)訓(xùn)練模型各個層的小型神經(jīng)網(wǎng)絡(luò)模塊)來針對特定任務(wù)微調(diào)模型。具體來說,研究團隊調(diào)整了注意力矩陣、注意力投影矩陣和逐點(point-wise)前饋網(wǎng)絡(luò)中的全連接層。
通過僅微調(diào)適配器層,預(yù)訓(xùn)練基礎(chǔ)模型的原始參數(shù)保持不變,保留模型的一般知識,同時定制適配器層以支持特定任務(wù)。
圖 2:適配器是覆蓋在公共基礎(chǔ)模型上的模型權(quán)重的小型集合。它們可以動態(tài)加載和交換 —— 使基礎(chǔ)模型能夠動態(tài)地專門處理當前的任務(wù)。Apple Intelligence 包括一組廣泛的適配器,每個適配器都針對特定功能進行了微調(diào)。這是擴展其基礎(chǔ)模型功能的有效方法。
研究團隊使用 16 bit 表征適配器參數(shù)的值,對于約 30 億參數(shù)的設(shè)備模型,16 適配器的參數(shù)通常需要 10 兆字節(jié)。適配器模型可以動態(tài)加載、臨時緩存在內(nèi)存中以及交換。這使基礎(chǔ)模型能夠動態(tài)地專門處理當前的任務(wù),同時有效地管理內(nèi)存并保證操作系統(tǒng)的響應(yīng)能力。
為了促進適配器的訓(xùn)練,蘋果創(chuàng)建了一個高效的基礎(chǔ)設(shè)施,以在基本模型或訓(xùn)練數(shù)據(jù)更新時快速重新訓(xùn)練、測試和部署適配器。
性能評估
蘋果在對模型進行基準測試時,專注于人類評估,因為人類評估的結(jié)果與產(chǎn)品的用戶體驗高度相關(guān)。
為了評估特定于產(chǎn)品的摘要功能,研究團隊使用了針對每個用例仔細采樣的一組 750 個響應(yīng)。評估數(shù)據(jù)集強調(diào)產(chǎn)品功能在生產(chǎn)中可能面臨的各種輸入,并包括不同內(nèi)容類型和長度的單個文檔和堆疊文檔的分層混合。實驗結(jié)果發(fā)現(xiàn)帶有適配器的模型能夠比類似模型生成更好的摘要。
作為負責任開發(fā)的一部分,蘋果識別并評估了摘要固有的特定風險。例如,摘要有時會刪除重要的細微差別或其他細節(jié)。然而,研究團隊發(fā)現(xiàn)摘要適配器沒有放大超過 99% 的目標對抗樣本中的敏感內(nèi)容。
圖 3:摘要用例的「好」和「差」響應(yīng)占比。
除了評估基礎(chǔ)模型和適配器支持的特定功能之外,研究團隊還評估了設(shè)備上模型和基于服務(wù)器的模型的一般功能。具體來說,研究團隊采用一組全面的現(xiàn)實世界 prompt 來測試模型功能,涵蓋了頭腦風暴、分類、封閉式問答、編碼、提取、數(shù)學推理、開放式問答、重寫、安全、總結(jié)和寫作等任務(wù)。
研究團隊將模型與開源模型(Phi-3、Gemma、Mistral、DBRX)和規(guī)模相當?shù)纳虡I(yè)模型(GPT-3.5-Turbo、GPT-4-Turbo)進行比較。結(jié)果發(fā)現(xiàn),與大多數(shù)同類競爭模型相比,蘋果的模型更受人類評估者青睞。例如,蘋果的設(shè)備上模型具有約 3B 參數(shù),其性能優(yōu)于較大的模型,包括 Phi-3-mini、Mistral-7B 和 Gemma-7B;服務(wù)器模型與 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比毫不遜色,同時效率很高。
圖 4:蘋果基礎(chǔ)模型與可比較模型的評估中首選響應(yīng)比例。
研究團隊還使用一組不同的對抗性 prompt 來測試模型在有害內(nèi)容、敏感主題和事實方面的性能,測量了人類評估者評估的模型違規(guī)率,數(shù)字越低越好。面對對抗性 prompt,設(shè)備上模型和服務(wù)器模型都很強大,其違規(guī)率低于開源和商業(yè)模型。
圖 5:有害內(nèi)容、敏感主題和事實性的違規(guī)響應(yīng)比例(越低越好)。當面對對抗性 prompt 時,蘋果的模型非常穩(wěn)健。
考慮到大型語言模型的廣泛功能,蘋果正在積極與內(nèi)部和外部團隊進行手動和自動紅隊合作,以進一步評估模型的安全性。
圖 6:在安全 prompt 方面,蘋果基礎(chǔ)模型與同類模型的并行評估中首選響應(yīng)的比例。人類評估者發(fā)現(xiàn)蘋果基礎(chǔ)模型的響應(yīng)更安全、更有幫助。
為了進一步評估模型,研究團隊使用指令跟蹤評估 (IFEval) 基準來將其指令跟蹤能力與同等大小的模型進行比較。結(jié)果表明,設(shè)備上模型和服務(wù)器模型都比同等規(guī)模的開源模型和商業(yè)模型更好地遵循詳細指令。
圖 7:蘋果基礎(chǔ)模型和類似規(guī)模模型的指令跟蹤能力(使用 IFEval 基準)。
蘋果還評估了模型的寫作能力,涉及各種寫作指令。
圖 8:寫作能力(越高越好)。
最后,我們看一下蘋果對于 Apple Intelligence 背后技術(shù)的介紹視頻。