自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="majbv"><p id="majbv"></p></sub><kbd id="majbv"></kbd>

<big id="majbv"></big>

<u id="majbv"><font id="majbv"><meter id="majbv"></meter></font></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

作者：余俊暉 2025-03-10 02:00:00

Phi-4-Multimodal 是一種參數(shù)高效的多模態(tài)模型，通過 LoRA 適配器和模式特定路由器實(shí)現(xiàn)文本、視覺和語音/音頻的無縫集成。訓(xùn)練過程包括多階段優(yōu)化，確保在不同模式和任務(wù)上的性能，數(shù)據(jù)來源多樣，覆蓋高質(zhì)量合成數(shù)據(jù)。它的設(shè)計(jì)體現(xiàn)了小型語言模型在多模態(tài)任務(wù)上的潛力。

Phi-4-Multimodal 是一種參數(shù)高效的多模態(tài)模型，通過 LoRA 適配器和模式特定路由器實(shí)現(xiàn)文本、視覺和語音/音頻的無縫集成。訓(xùn)練過程包括多階段優(yōu)化，確保在不同模式和任務(wù)上的性能，數(shù)據(jù)來源多樣，覆蓋高質(zhì)量合成數(shù)據(jù)。它的設(shè)計(jì)體現(xiàn)了小型語言模型在多模態(tài)任務(wù)上的潛力。

模型架構(gòu)

模型架構(gòu)

Phi-4-Multimodal 的基礎(chǔ)是Phi-4-Mini語言模型，這是一個(gè) 3.8 億參數(shù)的模型，設(shè)計(jì)為高效處理文本任務(wù)。架構(gòu)包括：

Transformer層和維度：32 層Transformer，隱藏狀態(tài)大小為 3072。
效率技術(shù)：使用分組查詢注意力（GQA），通過 24 個(gè)查詢頭和 8 個(gè)鍵/值頭減少 KV 緩存大小至標(biāo)準(zhǔn)模型的三分之一，提升計(jì)算效率。
分詞器：使用 o200k 基礎(chǔ) tiktoken，分詞表大小為 200,064，支持多語言和多模態(tài)輸入。

為了擴(kuò)展到多模態(tài)功能，模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式：

視覺模式：

a.圖像編碼器：使用 SigLIP-400M，結(jié)合 LLM2CLIP 在圖像-文本對上微調(diào)，分辨率為 448x448。SigLIP-400M 是一個(gè)視覺-語言模型，專門為圖像理解優(yōu)化。

b.項(xiàng)目器：一個(gè) 2 層 MLP，將視覺特征映射到文本嵌入維度 3072，確保視覺輸入與語言模型的嵌入空間兼容。

c.LoRA 適配器（LoRA_V）：添加到語言解碼器的所有線性層，參數(shù)約 3.7 億，用于監(jiān)督微調(diào)階段。LoRA 是一種參數(shù)高效的微調(diào)技術(shù)，通過低秩更新適配模型。

d.動(dòng)態(tài)多裁剪策略：在訓(xùn)練中處理不同圖像大小，裁剪數(shù)量計(jì)算為 ?H/C? × ?W/C?，預(yù)訓(xùn)練最多 16 個(gè)裁剪，監(jiān)督微調(diào)最多 36 個(gè)，必要時(shí)調(diào)整大小。

語音/音頻模式：

a.輸入特征：80 維 log-Mel 濾波器組特征，幀率為 10ms，標(biāo)記率為 80ms（每分鐘 750 個(gè)標(biāo)記），適合高效音頻處理。

b.音頻編碼器：包括 3 個(gè)卷積層和 24 個(gè)符合塊，注意維度為 1024，前饋維度為 1536，16 個(gè)注意頭，子采樣率為 8。符合塊結(jié)合了自注意力機(jī)制和卷積，適合捕獲音頻的時(shí)序和頻率特征。

c.項(xiàng)目器：一個(gè) 2 層 MLP，將 1024 維語音特征映射到 3072 維文本嵌入，確保音頻輸入與語言模型的嵌入空間兼容。

d.LoRA 適配器（LoRA_A）：應(yīng)用于所有注意和 MLP 層，秩為 320，參數(shù)約 4.6 億，通過低秩更新適配音頻處理。

多模態(tài)集成：模型采用 LoRA 適配器的混合設(shè)計(jì)，通過模式特定路由器選擇適當(dāng)?shù)倪m配器，處理文本、視覺和語音/音頻輸入，無干擾地支持多模態(tài)推理。這是一種參數(shù)高效的方法，保持基礎(chǔ)語言模型的完整性，同時(shí)添加新功能。

總參數(shù)量為 5.6 億，相比 Phi-4-Mini 的 3.8 億，增加了約 1.8 億參數(shù)，主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標(biāo)記，受益于 GQA 和其他效率技術(shù)，適合處理長序列輸入。

訓(xùn)練方法

Phi-4-Multimodal 的訓(xùn)練過程分多個(gè)階段，針對不同模式和任務(wù)優(yōu)化，確保模型在多模態(tài)任務(wù)上的性能。訓(xùn)練步驟如下：

基礎(chǔ)語言模型預(yù)訓(xùn)練：

a.在 5 萬億個(gè)高質(zhì)量標(biāo)記上預(yù)訓(xùn)練，包括網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù)。數(shù)據(jù)來源經(jīng)過精心挑選，確保覆蓋多種語言和任務(wù)，如功能調(diào)用、總結(jié)和指令跟隨。

視覺訓(xùn)練：

a.階段 1：項(xiàng)目器對齊- 使用標(biāo)題數(shù)據(jù)訓(xùn)練項(xiàng)目器，確保視覺特征與語言模型嵌入空間的對齊。

b.階段 2：聯(lián)合視覺訓(xùn)練- 在完整數(shù)據(jù)集上訓(xùn)練項(xiàng)目器和編碼器，針對 OCR 和密集理解任務(wù)，數(shù)據(jù)集包括圖像-文本對、OCR PDF 和現(xiàn)實(shí)圖像。

c.階段 3：生成視覺-語言訓(xùn)練- 在解碼器上訓(xùn)練 LoRA，使用單幀 SFT 數(shù)據(jù)，開發(fā)生成能力，數(shù)據(jù)集包括公共和內(nèi)部多模態(tài)數(shù)據(jù)集，如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。

d.階段 4：多幀訓(xùn)練- 視覺編碼器凍結(jié)，在多幀 SFT 數(shù)據(jù)上訓(xùn)練，上下文長度為 64k，適合處理多幀場景。

語音/音頻訓(xùn)練：

a.預(yù)訓(xùn)練：使用 200 萬小時(shí)匿名語音-文本對，覆蓋 8 種語言（中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語），訓(xùn)練音頻編碼器和項(xiàng)目器，解碼器凍結(jié)，初始化為自動(dòng)編碼解碼（AED）ASR 模型。

b.后訓(xùn)練：使用 1 億個(gè)精選 SFT 樣本更新項(xiàng)目器和 LoRA_A，50,000 步。最大音頻長度為總結(jié)的 30 分鐘（22,500 個(gè)標(biāo)記），其他任務(wù)的 30 秒（375 個(gè)標(biāo)記），包括 ASR（40,000 小時(shí)，2,800 萬 SFT 示例）、AST（30,000 小時(shí)，2,800 萬 SFT 示例，7 種語言到/從英語，CoT）、SQA/SQQA（2,600 萬 SFT 示例，合成 QA 對，TTS 生成查詢）、總結(jié)（100 萬 SFT 示例，英語，多說話者，GPT-4 查詢）和音頻理解（1,700 萬 SFT 示例，公共音頻/音樂，GPT-4 Q&A）。

視覺-語音聯(lián)合訓(xùn)練：

a.在視覺和語音單獨(dú)訓(xùn)練后，凍結(jié)語言基礎(chǔ)、音頻編碼器和項(xiàng)目器，微調(diào)視覺適配器 LoRA_V、編碼器和項(xiàng)目器，使用視覺-語音 SFT 數(shù)據(jù)加上語言/視覺后訓(xùn)練數(shù)據(jù)，確保多模態(tài)協(xié)同工作。

推理訓(xùn)練：

a.階段 1：預(yù)訓(xùn)練- 在 600 億推理鏈?zhǔn)剿季S CoT 標(biāo)記上預(yù)訓(xùn)練，從前沿 LLM 中提取，通過拒絕采樣過濾錯(cuò)誤輸出，確保數(shù)據(jù)質(zhì)量。

b.階段 2：微調(diào)- 在 20 萬個(gè)高質(zhì)量 CoT 樣本上微調(diào)，覆蓋不同領(lǐng)域，如數(shù)學(xué)、編碼和邏輯推理。

c.階段 3：直接偏好優(yōu)化（DPO）訓(xùn)練- 在 30 萬個(gè)偏好樣本上應(yīng)用，將錯(cuò)誤輸出標(biāo)記為“非首選”，糾正輸出為“首選”，通過人類反饋進(jìn)一步對齊模型。

訓(xùn)練數(shù)據(jù)細(xì)節(jié)

Phi-4-Multimodal 是一種由 Microsoft 開發(fā)的先進(jìn)多模態(tài)大模型，能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓(xùn)練數(shù)據(jù)細(xì)節(jié)涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個(gè)主要類別，數(shù)據(jù)來源包括網(wǎng)絡(luò)、合成和真實(shí)數(shù)據(jù)，數(shù)據(jù)量龐大且經(jīng)過精心優(yōu)化。

語言訓(xùn)練數(shù)據(jù)

語言訓(xùn)練是 Phi-4-Multimodal 的基礎(chǔ)，基于 Phi-4-Mini 語言模型的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)：

預(yù)訓(xùn)練數(shù)據(jù)：

a.數(shù)據(jù)來源：高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù)，特別強(qiáng)調(diào)數(shù)學(xué)和編碼數(shù)據(jù)集以提升復(fù)雜推理能力。

b.數(shù)據(jù)量：5 萬億個(gè)標(biāo)記（tokens）。

c.描述：合成數(shù)據(jù)通過精心策劃，確保覆蓋高價(jià)值的任務(wù)，如數(shù)學(xué)競賽問題和編碼任務(wù)，顯著提升模型在這些領(lǐng)域的表現(xiàn)。

后訓(xùn)練數(shù)據(jù)：

a.功能調(diào)用、總結(jié)和代碼完成：使用額外數(shù)據(jù)進(jìn)行后訓(xùn)練，具體數(shù)量未公開，但涉及多種任務(wù)。

b.推理訓(xùn)練：使用 600 億個(gè)推理鏈?zhǔn)剿季S（CoT）標(biāo)記，從前沿大型語言模型（LLM）中提取，通過拒絕采樣過濾錯(cuò)誤輸出，確保數(shù)據(jù)質(zhì)量。

c.微調(diào)：在 20 萬個(gè)高質(zhì)量 CoT 樣本上微調(diào)，覆蓋數(shù)學(xué)、編碼和邏輯推理等不同領(lǐng)域。

d.直接偏好優(yōu)化（DPO）：在 30 萬個(gè)偏好樣本上應(yīng)用，將錯(cuò)誤輸出標(biāo)記為“非首選”，糾正輸出為“首選”，通過人類反饋進(jìn)一步對齊模型。

視覺-語言訓(xùn)練數(shù)據(jù)

視覺-語言訓(xùn)練擴(kuò)展了模型處理圖像和相關(guān)文本的能力，分為預(yù)訓(xùn)練和監(jiān)督微調(diào)（SFT）兩個(gè)階段：

預(yù)訓(xùn)練數(shù)據(jù)：

a.數(shù)據(jù)類型：包括圖像-文本對、圖像接地?cái)?shù)據(jù)、OCR PDF、現(xiàn)實(shí)圖像和圖表理解數(shù)據(jù)。

b.數(shù)據(jù)量：文本部分約 0.5 萬億標(biāo)記，具體圖像數(shù)量未公開。

c.描述：數(shù)據(jù)覆蓋廣泛，包括公共和內(nèi)部多模態(tài)數(shù)據(jù)集，最高圖像分辨率達(dá) 1344x1344，適合 OCR 和密集理解任務(wù)。

監(jiān)督微調(diào)（SFT）數(shù)據(jù)：

a.數(shù)據(jù)類型：通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數(shù)據(jù)集。

b.數(shù)據(jù)量：文本部分約 0.3 萬億標(biāo)記。

c.描述：數(shù)據(jù)來源包括公共和內(nèi)部數(shù)據(jù)集，確保生成能力和多模態(tài)任務(wù)性能。

視覺-語音訓(xùn)練數(shù)據(jù)

視覺-語音訓(xùn)練數(shù)據(jù)是合成生成的，基于視覺-語言 SFT 數(shù)據(jù)：

數(shù)據(jù)創(chuàng)建方法：復(fù)用視覺-語言 SFT 數(shù)據(jù)，通過文本轉(zhuǎn)語音（TTS）引擎生成語音查詢，基于詞錯(cuò)誤率（WER）過濾質(zhì)量。
數(shù)據(jù)量：具體數(shù)量未公開，但依賴于視覺-語言 SFT 數(shù)據(jù)規(guī)模（約 0.3 萬億標(biāo)記文本部分）。

語音/音頻訓(xùn)練數(shù)據(jù)

語音/音頻訓(xùn)練數(shù)據(jù)分為預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段，數(shù)據(jù)量巨大，覆蓋多種任務(wù)：

預(yù)訓(xùn)練數(shù)據(jù)：

a.數(shù)據(jù)來源：200 萬小時(shí)匿名語音-文本對，覆蓋 8 種語言：中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。

b.描述：用于訓(xùn)練音頻編碼器和項(xiàng)目器，確保語音特征與語言模型嵌入空間對齊，初始化為自動(dòng)編碼解碼（AED）ASR 模型。

后訓(xùn)練數(shù)據(jù)：

a.SFT 示例：1.7 百萬（公共音頻/音樂，GPT-4 Q&A）。

b.SFT 示例：100,000（英語，多說話者，GPT-4 查詢）。

c.SFT 示例：2.6 百萬（合成 QA 對，TTS 生成查詢）。

d.數(shù)據(jù)量：30,000 小時(shí)。

e.SFT 示例：2.8 百萬（7 種語言到/從英語，包含 CoT）。

f.數(shù)據(jù)量：40,000 小時(shí)。

g.SFT 示例：2.8 百萬。

h.自動(dòng)語音識(shí)別（ASR）：

i.自動(dòng)語音翻譯（AST）：

j.語音問答（SQA/SQQA）：

k.總結(jié)（SSUM）：

m.音頻理解（AU）：

訓(xùn)練數(shù)據(jù)匯總表：

一個(gè)意想不到的細(xì)節(jié)是，語音預(yù)訓(xùn)練數(shù)據(jù)高達(dá) 200 萬小時(shí)，相當(dāng)于連續(xù)錄音 228 年。

性能

參考文獻(xiàn)：

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs，https://arxiv.org/pdf/2503.01743

責(zé)任編輯：武曉燕來源：大模型自然語言處理

音頻大模型架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="mkk0p"><track id="mkk0p"></track></legend>

<sub id="mkk0p"></sub>