揭秘!47頁文檔拆解蘋果智能,從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化
在 2024 年全球開發(fā)者大會上,蘋果重磅推出了 Apple Intelligence,這是一個全新的個性化智能系統(tǒng), 可以提供實用的智能服務(wù),覆蓋 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。
庫克曾經(jīng)表示,Apple Intelligence 是蘋果創(chuàng)新的新篇章,將改變用戶使用產(chǎn)品的方式。他強調(diào),蘋果獨特的方法結(jié)合了生成式人工智能和用戶的個人信息,能提供真正有用的智能服務(wù)。此外,Apple Intelligence 能夠以完全私密和安全的方式訪問信息,幫助用戶完成對他們最重要的事情。這是蘋果獨有的 AI 體驗。
如今,距離 Apple Intelligence 官宣一個多月過去了,這項技術(shù)終于落地智能設(shè)備,相關(guān)技術(shù)文檔也終于放出。
在剛剛過去的一天,擁有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用戶可以下載 iOS 18.1 開發(fā)測試版,并可以體驗 Apple Intelligence 的功能了。
隨著這篇長達 47 頁技術(shù)報告的出爐,我們可以更加深入的了解 Apple Intelligence 背后的秘密武器。
- 報告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
報告詳細介紹了其中兩款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一個約 30 億參數(shù)的語言模型,以及一個更大的基于服務(wù)器的語言模型 AFM-server,可以高效、準確和負責地執(zhí)行專門的任務(wù)(圖 1)。
這兩個基礎(chǔ)模型作為蘋果更大的生成模型系列的一部分存在。
架構(gòu)及訓(xùn)練
AFM 基礎(chǔ)模型是基于 Transformer 架構(gòu)構(gòu)建的密集解碼器模型,采用如下設(shè)計:
- 共享輸入 / 輸出嵌入矩陣,以減少用于參數(shù)的內(nèi)存使用。
- 使用 RMSNorm 進行預(yù)歸一化以提高訓(xùn)練穩(wěn)定性。
- 查詢 / 鍵歸一化以提高訓(xùn)練穩(wěn)定性。
- 具有 8 個鍵值頭的分組查詢注意力(GQA),以減少 KV 緩存內(nèi)存占用。
- SwiGLU 激活,以提高效率。
- RoPE 位置嵌入,基頻(base frequency)設(shè)置為 500k,以支持長上下文。
AFM 預(yù)訓(xùn)練過程在開發(fā)高性能語言模型,以支持一系列 Apple Intelligence 功能方面發(fā)揮著關(guān)鍵作用。研究團隊注重效率和數(shù)據(jù)質(zhì)量,以獲得高質(zhì)量的端到端用戶體驗。
在后訓(xùn)練方面,研究團隊發(fā)現(xiàn)改進通用后訓(xùn)練可以提升 Apple Intelligence 所有功能的性能,因為模型在遵循指令、推理和寫作方面會具有更強的能力。
為了確保這些模型功能符合蘋果對保護用戶隱私的承諾,以及蘋果的 Responsible AI 原則,后訓(xùn)練工作包括一系列數(shù)據(jù)收集和生成、指令調(diào)整和對齊創(chuàng)新。后訓(xùn)練過程包含兩個階段:監(jiān)督微調(diào)(SFT)和來自人類反饋的強化學(xué)習(xí)(RLHF)。研究團隊提出了兩種新的后訓(xùn)練算法:(1)帶有 teacher committee(iTeC)的拒絕采樣微調(diào)算法,以及(2)一種用于強化學(xué)習(xí)迭代的 RLHF 算法,帶有鏡像下降策略優(yōu)化(mirror descent policy optimization)和留一法優(yōu)勢估計器(leave-one-out advantage estimator)(MDLOO),使得模型質(zhì)量顯著提高。
Apple Intelligence特性
基礎(chǔ)模型是為 Apple Intelligence 專門設(shè)計的,這是一個支持 iPhone、iPad 和 Mac 的個人智能系統(tǒng)。
蘋果發(fā)現(xiàn),針對特定任務(wù)的微調(diào),他們可以將小模型的性能提升到一流水平,除此以外,他們還開發(fā)了一種基于運行時可交換適配器(runtime-swappable adapters)的架構(gòu),使單一基礎(chǔ)模型能夠?qū)iT用于數(shù)十個此類任務(wù)。圖 2 顯示了高級概述。
適配器架構(gòu)
蘋果使用 LoRA 適配器來針對特定任務(wù)進行模型微調(diào)。對于每項任務(wù),研究者會調(diào)整 AFM 自注意力層中的所有線性投影矩陣以及逐點前饋網(wǎng)絡(luò)中的全連接層。僅通過微調(diào)適配器,基礎(chǔ)預(yù)訓(xùn)練模型的原始參數(shù)保持不變,可以保留模型的一般知識,同時定制適配器以支持特定任務(wù)。
量化
為了將 AFM 納入內(nèi)存預(yù)算有限的邊緣設(shè)備并降低推理成本,需要考慮量化技術(shù)。先前的研究發(fā)現(xiàn),與原始的 32/16 位浮點相比,經(jīng)過 4 位量化的模型損失會很小。
為了在模型容量和推理性能之間實現(xiàn)最佳平衡,蘋果開發(fā)了最先進的量化方法和利用準確率 - 恢復(fù)適配器(accuracy-recovery adapters)的框架。使得模型在每個權(quán)重平均小于 4 位的情況下,還能實現(xiàn)近乎無損的量化,并提供靈活的量化方案選擇。
方法
經(jīng)過后訓(xùn)練,模型被壓縮和量化,得到平均低于 4 位的權(quán)重。量化模型通常表現(xiàn)出中等程度的質(zhì)量損失。因此,蘋果不會將量化后的模型直接用于功能開發(fā),而是附加一組參數(shù)高效的 LoRA 適配器以進行質(zhì)量恢復(fù)。
值得注意的是,訓(xùn)練準確率 - 恢復(fù)適配器具有樣本效率,可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。在適配器的預(yù)訓(xùn)練階段,只需要大約 100 億個 token(約占基礎(chǔ)模型訓(xùn)練的 0.15%)即可完全恢復(fù)量化模型的能力。
由于應(yīng)用程序適配器將從這些準確率 - 恢復(fù)適配器微調(diào)而來,因此它們不會產(chǎn)生任何額外的內(nèi)存使用或推理成本。關(guān)于適配器大小,蘋果發(fā)現(xiàn)適配器秩為 16 時提供了模型容量和推理性能之間的最佳權(quán)衡。
但是,為了靈活性,蘋果提供了一套具有不同秩 {8、16、32} 的準確率 - 恢復(fù)適配器供應(yīng)用程序團隊選擇。
混合精度量化
AFM 中的每個 transformer 塊和每個層都存在殘差連接。因此,所有層都具有同等重要性的可能性不大。根據(jù)這一直覺,蘋果通過推動某些層使用 2 位量化(默認為 4 位)來進一步減少內(nèi)存使用量。平均而言,AFM-on-device 可以壓縮到每個權(quán)重僅約 3.5 位 (bpw),而不會造成顯著的質(zhì)量損失。
評估
研究團隊使用常見的開源評估工具和基準來評估 AFM 預(yù)訓(xùn)練模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的結(jié)果。
這些基準測試表明,AFM 預(yù)訓(xùn)練模型具有強大的語言和推理能力,為后訓(xùn)練和特征微調(diào)提供了堅實的基礎(chǔ)。
AFM 與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT3.5 和 GPT-4)的比較結(jié)果如下圖3所示。與其他模型相比,AFM 模型更受人類評估人員的青睞。特別是,AFM-on-device 與 Phi-3-mini 相比,盡管模型規(guī)模小了 25%,但仍獲得了 47.7% 的勝率,甚至優(yōu)于開源強基線 Gemma-7B 和 Mistral-7B。
為了衡量模型生成響應(yīng)遵循提示中指令的能力,研究團隊在 IFEval 基準上評估了 AFM-on-device 和 AFM-server,結(jié)果如下圖 4 所示:
如圖 5 所示,AFM-server 實現(xiàn)了最佳的整體準確率,優(yōu)于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。
蘋果將 AFM 與一些最出色的模型以及規(guī)模較小的開源模型進行了比較。如圖 6 所示,與 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以實現(xiàn)相當或更好的性能。AFM-server 的性能明顯優(yōu)于 DBRX-Instruct 和 GPT3.5,并且與 GPT4 相當。
圖 7 比較了經(jīng)過后訓(xùn)練的 AFM 在數(shù)學(xué)基準上的表現(xiàn)。結(jié)果發(fā)現(xiàn),AFM-on-device 的性能明顯優(yōu)于 Mistral-7B 和 Gemma-7B,即使規(guī)模不到它們的一半。
下圖為人類評分員評估 AFM-on-device 適配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任務(wù)上的質(zhì)量。圖 8 顯示 AFM-on-device-adapter 總體上優(yōu)于其他模型。
負責任的AI
Apple Intelligence 的開發(fā)和設(shè)計都注重保護用戶隱私。
圖 9 總結(jié)了人類評分員在不同模型上給出的違規(guī)率,越低越好。AFM-on-device 和 AFM-server 都對對抗性提示具有魯棒性,其違規(guī)率明顯低于開源和商業(yè)模型。
圖 10 表明,與其他模型相比,AFM 模型更受人類評分員的青睞。