Phi-4-multimodal:圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)
Phi-4-Multimodal 是一種參數(shù)高效的多模態(tài)模型,通過 LoRA 適配器和模式特定路由器實(shí)現(xiàn)文本、視覺和語音/音頻的無縫集成。訓(xùn)練過程包括多階段優(yōu)化,確保在不同模式和任務(wù)上的性能,數(shù)據(jù)來源多樣,覆蓋高質(zhì)量合成數(shù)據(jù)。它的設(shè)計(jì)體現(xiàn)了小型語言模型在多模態(tài)任務(wù)上的潛力。
模型架構(gòu)
模型架構(gòu)
Phi-4-Multimodal 的基礎(chǔ)是Phi-4-Mini語言模型,這是一個(gè) 3.8 億參數(shù)的模型,設(shè)計(jì)為高效處理文本任務(wù)。架構(gòu)包括:
- Transformer層和維度:32 層Transformer,隱藏狀態(tài)大小為 3072。
- 效率技術(shù):使用分組查詢注意力(GQA),通過 24 個(gè)查詢頭和 8 個(gè)鍵/值頭減少 KV 緩存大小至標(biāo)準(zhǔn)模型的三分之一,提升計(jì)算效率。
- 分詞器:使用 o200k 基礎(chǔ) tiktoken,分詞表大小為 200,064,支持多語言和多模態(tài)輸入。
為了擴(kuò)展到多模態(tài)功能,模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式:
- 視覺模式:
a.圖像編碼器:使用 SigLIP-400M,結(jié)合 LLM2CLIP 在圖像-文本對上微調(diào),分辨率為 448x448。SigLIP-400M 是一個(gè)視覺-語言模型,專門為圖像理解優(yōu)化。
b.項(xiàng)目器:一個(gè) 2 層 MLP,將視覺特征映射到文本嵌入維度 3072,確保視覺輸入與語言模型的嵌入空間兼容。
c.LoRA 適配器(LoRA_V):添加到語言解碼器的所有線性層,參數(shù)約 3.7 億,用于監(jiān)督微調(diào)階段。LoRA 是一種參數(shù)高效的微調(diào)技術(shù),通過低秩更新適配模型。
d.動(dòng)態(tài)多裁剪策略:在訓(xùn)練中處理不同圖像大小,裁剪數(shù)量計(jì)算為 ?H/C? × ?W/C?,預(yù)訓(xùn)練最多 16 個(gè)裁剪,監(jiān)督微調(diào)最多 36 個(gè),必要時(shí)調(diào)整大小。
- 語音/音頻模式:
a.輸入特征:80 維 log-Mel 濾波器組特征,幀率為 10ms,標(biāo)記率為 80ms(每分鐘 750 個(gè)標(biāo)記),適合高效音頻處理。
b.音頻編碼器:包括 3 個(gè)卷積層和 24 個(gè)符合塊,注意維度為 1024,前饋維度為 1536,16 個(gè)注意頭,子采樣率為 8。符合塊結(jié)合了自注意力機(jī)制和卷積,適合捕獲音頻的時(shí)序和頻率特征。
c.項(xiàng)目器:一個(gè) 2 層 MLP,將 1024 維語音特征映射到 3072 維文本嵌入,確保音頻輸入與語言模型的嵌入空間兼容。
d.LoRA 適配器(LoRA_A):應(yīng)用于所有注意和 MLP 層,秩為 320,參數(shù)約 4.6 億,通過低秩更新適配音頻處理。
- 多模態(tài)集成:模型采用 LoRA 適配器的混合設(shè)計(jì),通過模式特定路由器選擇適當(dāng)?shù)倪m配器,處理文本、視覺和語音/音頻輸入,無干擾地支持多模態(tài)推理。這是一種參數(shù)高效的方法,保持基礎(chǔ)語言模型的完整性,同時(shí)添加新功能。
總參數(shù)量為 5.6 億,相比 Phi-4-Mini 的 3.8 億,增加了約 1.8 億參數(shù),主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標(biāo)記,受益于 GQA 和其他效率技術(shù),適合處理長序列輸入。
訓(xùn)練方法
Phi-4-Multimodal 的訓(xùn)練過程分多個(gè)階段,針對不同模式和任務(wù)優(yōu)化,確保模型在多模態(tài)任務(wù)上的性能。訓(xùn)練步驟如下:
- 基礎(chǔ)語言模型預(yù)訓(xùn)練:
a.在 5 萬億個(gè)高質(zhì)量標(biāo)記上預(yù)訓(xùn)練,包括網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù)。數(shù)據(jù)來源經(jīng)過精心挑選,確保覆蓋多種語言和任務(wù),如功能調(diào)用、總結(jié)和指令跟隨。
- 視覺訓(xùn)練:
a.階段 1:項(xiàng)目器對齊- 使用標(biāo)題數(shù)據(jù)訓(xùn)練項(xiàng)目器,確保視覺特征與語言模型嵌入空間的對齊。
b.階段 2:聯(lián)合視覺訓(xùn)練- 在完整數(shù)據(jù)集上訓(xùn)練項(xiàng)目器和編碼器,針對 OCR 和密集理解任務(wù),數(shù)據(jù)集包括圖像-文本對、OCR PDF 和現(xiàn)實(shí)圖像。
c.階段 3:生成視覺-語言訓(xùn)練- 在解碼器上訓(xùn)練 LoRA,使用單幀 SFT 數(shù)據(jù),開發(fā)生成能力,數(shù)據(jù)集包括公共和內(nèi)部多模態(tài)數(shù)據(jù)集,如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。
d.階段 4:多幀訓(xùn)練- 視覺編碼器凍結(jié),在多幀 SFT 數(shù)據(jù)上訓(xùn)練,上下文長度為 64k,適合處理多幀場景。
- 語音/音頻訓(xùn)練:
a.預(yù)訓(xùn)練:使用 200 萬小時(shí)匿名語音-文本對,覆蓋 8 種語言(中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語),訓(xùn)練音頻編碼器和項(xiàng)目器,解碼器凍結(jié),初始化為自動(dòng)編碼解碼(AED)ASR 模型。
b.后訓(xùn)練:使用 1 億個(gè)精選 SFT 樣本更新項(xiàng)目器和 LoRA_A,50,000 步。最大音頻長度為總結(jié)的 30 分鐘(22,500 個(gè)標(biāo)記),其他任務(wù)的 30 秒(375 個(gè)標(biāo)記),包括 ASR(40,000 小時(shí),2,800 萬 SFT 示例)、AST(30,000 小時(shí),2,800 萬 SFT 示例,7 種語言到/從英語,CoT)、SQA/SQQA(2,600 萬 SFT 示例,合成 QA 對,TTS 生成查詢)、總結(jié)(100 萬 SFT 示例,英語,多說話者,GPT-4 查詢)和音頻理解(1,700 萬 SFT 示例,公共音頻/音樂,GPT-4 Q&A)。
- 視覺-語音聯(lián)合訓(xùn)練:
a.在視覺和語音單獨(dú)訓(xùn)練后,凍結(jié)語言基礎(chǔ)、音頻編碼器和項(xiàng)目器,微調(diào)視覺適配器 LoRA_V、編碼器和項(xiàng)目器,使用視覺-語音 SFT 數(shù)據(jù)加上語言/視覺后訓(xùn)練數(shù)據(jù),確保多模態(tài)協(xié)同工作。
- 推理訓(xùn)練:
a.階段 1:預(yù)訓(xùn)練- 在 600 億推理鏈?zhǔn)剿季S CoT 標(biāo)記上預(yù)訓(xùn)練,從前沿 LLM 中提取,通過拒絕采樣過濾錯(cuò)誤輸出,確保數(shù)據(jù)質(zhì)量。
b.階段 2:微調(diào)- 在 20 萬個(gè)高質(zhì)量 CoT 樣本上微調(diào),覆蓋不同領(lǐng)域,如數(shù)學(xué)、編碼和邏輯推理。
c.階段 3:直接偏好優(yōu)化(DPO)訓(xùn)練- 在 30 萬個(gè)偏好樣本上應(yīng)用,將錯(cuò)誤輸出標(biāo)記為“非首選”,糾正輸出為“首選”,通過人類反饋進(jìn)一步對齊模型。
訓(xùn)練數(shù)據(jù)細(xì)節(jié)
Phi-4-Multimodal 是一種由 Microsoft 開發(fā)的先進(jìn)多模態(tài)大模型,能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓(xùn)練數(shù)據(jù)細(xì)節(jié)涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個(gè)主要類別,數(shù)據(jù)來源包括網(wǎng)絡(luò)、合成和真實(shí)數(shù)據(jù),數(shù)據(jù)量龐大且經(jīng)過精心優(yōu)化。
語言訓(xùn)練數(shù)據(jù)
語言訓(xùn)練是 Phi-4-Multimodal 的基礎(chǔ),基于 Phi-4-Mini 語言模型的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù):
- 預(yù)訓(xùn)練數(shù)據(jù):
a.數(shù)據(jù)來源:高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù),特別強(qiáng)調(diào)數(shù)學(xué)和編碼數(shù)據(jù)集以提升復(fù)雜推理能力。
b.數(shù)據(jù)量:5 萬億個(gè)標(biāo)記(tokens)。
c.描述:合成數(shù)據(jù)通過精心策劃,確保覆蓋高價(jià)值的任務(wù),如數(shù)學(xué)競賽問題和編碼任務(wù),顯著提升模型在這些領(lǐng)域的表現(xiàn)。
- 后訓(xùn)練數(shù)據(jù):
a.功能調(diào)用、總結(jié)和代碼完成:使用額外數(shù)據(jù)進(jìn)行后訓(xùn)練,具體數(shù)量未公開,但涉及多種任務(wù)。
b.推理訓(xùn)練:使用 600 億個(gè)推理鏈?zhǔn)剿季S(CoT)標(biāo)記,從前沿大型語言模型(LLM)中提取,通過拒絕采樣過濾錯(cuò)誤輸出,確保數(shù)據(jù)質(zhì)量。
c.微調(diào):在 20 萬個(gè)高質(zhì)量 CoT 樣本上微調(diào),覆蓋數(shù)學(xué)、編碼和邏輯推理等不同領(lǐng)域。
d.直接偏好優(yōu)化(DPO):在 30 萬個(gè)偏好樣本上應(yīng)用,將錯(cuò)誤輸出標(biāo)記為“非首選”,糾正輸出為“首選”,通過人類反饋進(jìn)一步對齊模型。
視覺-語言訓(xùn)練數(shù)據(jù)
視覺-語言訓(xùn)練擴(kuò)展了模型處理圖像和相關(guān)文本的能力,分為預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)兩個(gè)階段:
- 預(yù)訓(xùn)練數(shù)據(jù):
a.數(shù)據(jù)類型:包括圖像-文本對、圖像接地?cái)?shù)據(jù)、OCR PDF、現(xiàn)實(shí)圖像和圖表理解數(shù)據(jù)。
b.數(shù)據(jù)量:文本部分約 0.5 萬億標(biāo)記,具體圖像數(shù)量未公開。
c.描述:數(shù)據(jù)覆蓋廣泛,包括公共和內(nèi)部多模態(tài)數(shù)據(jù)集,最高圖像分辨率達(dá) 1344x1344,適合 OCR 和密集理解任務(wù)。
- 監(jiān)督微調(diào)(SFT)數(shù)據(jù):
a.數(shù)據(jù)類型:通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數(shù)據(jù)集。
b.數(shù)據(jù)量:文本部分約 0.3 萬億標(biāo)記。
c.描述:數(shù)據(jù)來源包括公共和內(nèi)部數(shù)據(jù)集,確保生成能力和多模態(tài)任務(wù)性能。
視覺-語音訓(xùn)練數(shù)據(jù)
視覺-語音訓(xùn)練數(shù)據(jù)是合成生成的,基于視覺-語言 SFT 數(shù)據(jù):
- 數(shù)據(jù)創(chuàng)建方法:復(fù)用視覺-語言 SFT 數(shù)據(jù),通過文本轉(zhuǎn)語音(TTS)引擎生成語音查詢,基于詞錯(cuò)誤率(WER)過濾質(zhì)量。
- 數(shù)據(jù)量:具體數(shù)量未公開,但依賴于視覺-語言 SFT 數(shù)據(jù)規(guī)模(約 0.3 萬億標(biāo)記文本部分)。
語音/音頻訓(xùn)練數(shù)據(jù)
語音/音頻訓(xùn)練數(shù)據(jù)分為預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段,數(shù)據(jù)量巨大,覆蓋多種任務(wù):
- 預(yù)訓(xùn)練數(shù)據(jù):
a.數(shù)據(jù)來源:200 萬小時(shí)匿名語音-文本對,覆蓋 8 種語言:中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。
b.描述:用于訓(xùn)練音頻編碼器和項(xiàng)目器,確保語音特征與語言模型嵌入空間對齊,初始化為自動(dòng)編碼解碼(AED)ASR 模型。
- 后訓(xùn)練數(shù)據(jù):
a.SFT 示例:1.7 百萬(公共音頻/音樂,GPT-4 Q&A)。
b.SFT 示例:100,000(英語,多說話者,GPT-4 查詢)。
c.SFT 示例:2.6 百萬(合成 QA 對,TTS 生成查詢)。
d.數(shù)據(jù)量:30,000 小時(shí)。
e.SFT 示例:2.8 百萬(7 種語言到/從英語,包含 CoT)。
f.數(shù)據(jù)量:40,000 小時(shí)。
g.SFT 示例:2.8 百萬。
h.自動(dòng)語音識(shí)別(ASR):
i.自動(dòng)語音翻譯(AST):
j.語音問答(SQA/SQQA):
k.總結(jié)(SSUM):
m.音頻理解(AU):
訓(xùn)練數(shù)據(jù)匯總表:
一個(gè)意想不到的細(xì)節(jié)是,語音預(yù)訓(xùn)練數(shù)據(jù)高達(dá) 200 萬小時(shí),相當(dāng)于連續(xù)錄音 228 年。
性能
參考文獻(xiàn):
- Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs,https://arxiv.org/pdf/2503.01743