微軟Phi-4家族新增兩位成員,5.6B多模態(tài)單任務(wù)超GPT-4o,3.8B小模型媲美千問(wèn)7B
動(dòng)輒百億、千億參數(shù)的大模型正在一路狂奔,但「小而美」的模型也在閃閃發(fā)光。
2024 年底,微軟正式發(fā)布了 Phi-4—— 在同類(lèi)產(chǎn)品中表現(xiàn)卓越的小型語(yǔ)言模型(SLM)。僅用了 40% 合成數(shù)據(jù),140 億參數(shù)的 Phi-4 就在數(shù)學(xué)性能上擊敗了 GPT-4o。
剛剛,微軟又隆重介紹了 Phi-4 模型家族的兩位新成員:Phi-4-multimodal (多模態(tài)模型)和 Phi-4-mini(語(yǔ)言模型)。Phi-4-multimodal 改進(jìn)了語(yǔ)音識(shí)別、翻譯、摘要、音頻理解和圖像分析,而 Phi-4-mini 專(zhuān)為速度和效率而設(shè)計(jì),兩者都可供智能手機(jī)、PC 和汽車(chē)上的開(kāi)發(fā)人員使用。
項(xiàng)目地址:https://huggingface.co/microsoft/phi-4
在技術(shù)報(bào)告中,微軟對(duì)這兩個(gè)模型進(jìn)行了更加詳細(xì)的介紹。
- Phi-4-Multimodal 是一個(gè)多模態(tài)模型,它將文本、視覺(jué)和語(yǔ)音 / 音頻輸入模態(tài)整合到一個(gè)模型中。它采用新穎的模態(tài)擴(kuò)展方法,利用 LoRA 適配器和特定模態(tài)路由器,實(shí)現(xiàn)了多種推理模式的無(wú)干擾結(jié)合。例如,盡管語(yǔ)音 / 音頻模態(tài)的 LoRA 組件只有 46 億參數(shù),但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(視覺(jué) + 語(yǔ)言)、(視覺(jué) + 語(yǔ)音)和(語(yǔ)音 / 音頻)輸入的場(chǎng)景,在各種任務(wù)中的表現(xiàn)均優(yōu)于此前的大型視覺(jué) - 語(yǔ)言模型和語(yǔ)音 - 語(yǔ)言模型。
- Phi-4-Mini 是一個(gè)擁有 38 億參數(shù)的語(yǔ)言模型,在高質(zhì)量的網(wǎng)絡(luò)和合成數(shù)據(jù)上進(jìn)行了訓(xùn)練,其性能明顯優(yōu)于近期類(lèi)似規(guī)模的開(kāi)源模型,并在需要復(fù)雜推理的數(shù)學(xué)和編碼任務(wù)上與兩倍于其規(guī)模的模型不相上下。這一成就得益于精心設(shè)計(jì)的合成數(shù)據(jù)配方,該配方強(qiáng)調(diào)高質(zhì)量的數(shù)學(xué)和編碼數(shù)據(jù)集。與上一代產(chǎn)品 Phi-3.5-Mini 相比,Phi-4-Mini 的詞匯量擴(kuò)大到了 20 萬(wàn)個(gè),從而能更好地支持多語(yǔ)言應(yīng)用,同時(shí)還采用了分組查詢(xún)功能,從而能更高效地生成長(zhǎng)序列。
Phi-4-Multimodal 是這家公司的首個(gè)多模態(tài)語(yǔ)言模型,微軟表示:「Phi-4-multimodal 標(biāo)志著我們?nèi)斯ぶ悄馨l(fā)展的一個(gè)新里程碑。
此外,微軟還進(jìn)一步訓(xùn)練了 Phi-4-Mini 以增強(qiáng)其推理能力。結(jié)果顯示,它與 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等規(guī)模更大的先進(jìn)推理系統(tǒng)相媲美。
接下來(lái),讓我們看看技術(shù)細(xì)節(jié)。
模型架構(gòu)
兩個(gè)模型都使用 tokenizer o200k base tiktoken ,詞匯量為 200,064 個(gè),旨在更高效地支持多語(yǔ)言和多模態(tài)輸入和輸出。所有模型都基于僅解碼器的 Transformer,并支持基于 LongRoPE 的 128K 上下文長(zhǎng)度。
語(yǔ)言模型架構(gòu)
Phi-4-mini 由 32 層 Transformer 組成,專(zhuān)為速度和效率而設(shè)計(jì),Phi-4-Mini 還有一些特殊的「省內(nèi)存」技巧:
首先是分組查詢(xún)注意力機(jī)制(GQA),模型在處理長(zhǎng)序列時(shí)能夠快速地聚焦于關(guān)鍵信息片段。這優(yōu)化了長(zhǎng)上下文生成時(shí)的 KV 緩存。具體來(lái)說(shuō),模型使用 24 個(gè)查詢(xún)頭和 8 個(gè) K/V 頭,將 KV 緩存消耗減少到標(biāo)準(zhǔn)大小的三分之一。
其次是輸入 / 輸出嵌入綁定技術(shù),實(shí)現(xiàn)了資源的優(yōu)化利用,同時(shí)與 Phi-3.5 相比提供了更廣泛的 20 萬(wàn)詞匯覆蓋。
此外,在 RoPE 配置中,使用了分?jǐn)?shù) RoPE 維度,確保 25% 的注意力頭維度與位置無(wú)關(guān)。這種設(shè)計(jì)能讓模型更平滑地處理較長(zhǎng)的上下文。
Phi-4-Mini 峰值學(xué)習(xí)率的計(jì)算公式為:
LR*(D) = BD^(-0.32),
其中 B 是超參數(shù),D 是訓(xùn)練 token 的總數(shù),通過(guò)調(diào)整 D = 12.5B、25B、37.5B 和 50B 來(lái)擬合 B 值。
多模態(tài)模型架構(gòu)
Phi-4-Multimodal 采用了「Mixture of LoRA」技術(shù),通過(guò)整合特定模態(tài)的 LoRAs 來(lái)實(shí)現(xiàn)多模態(tài)功能,同時(shí)完全凍結(jié)基礎(chǔ)語(yǔ)言模型。該技術(shù)優(yōu)于現(xiàn)有方法,并在多模態(tài)基準(zhǔn)上實(shí)現(xiàn)了與完全微調(diào)模型相當(dāng)?shù)男阅?。此外,Phi-4-Multimodal 的設(shè)計(jì)具有高度可擴(kuò)展性,允許無(wú)縫集成新的 LoRA,以支持更多模態(tài),而不會(huì)影響現(xiàn)有模態(tài)。
該模型的訓(xùn)練過(guò)程由多個(gè)階段組成,包括語(yǔ)言訓(xùn)練(包括預(yù)訓(xùn)練和后訓(xùn)練),然后將語(yǔ)言骨干擴(kuò)展到視覺(jué)和語(yǔ)音 / 音頻模態(tài)。
對(duì)于語(yǔ)言模型,研究者使用高質(zhì)量、推理豐富的文本數(shù)據(jù)來(lái)訓(xùn)練 Phi-4-Mini。值得注意的是,他們加入了精心策劃的高質(zhì)量代碼數(shù)據(jù)集,以提高編碼任務(wù)的性能。
語(yǔ)言模型訓(xùn)練完成后,研究者凍結(jié)了語(yǔ)言模型,并實(shí)施「Mixture of LoRA」技術(shù),繼續(xù)多模態(tài)訓(xùn)練階段。
具體來(lái)說(shuō),在訓(xùn)練特定模態(tài)編碼器和投影器的同時(shí),還訓(xùn)練了兩個(gè)額外的 LoRA 模塊,以實(shí)現(xiàn)與視覺(jué)相關(guān)的任務(wù)(如視覺(jué) - 語(yǔ)言和視覺(jué) - 語(yǔ)音)和與語(yǔ)音 / 音頻相關(guān)的任務(wù)(如語(yǔ)音 - 語(yǔ)言)。它們都包含預(yù)訓(xùn)練和后訓(xùn)練階段,分別用于模態(tài)對(duì)齊和指令微調(diào)。
Phi-4-Multimodal 模型架構(gòu)。
性能評(píng)估
Phi-4-multimodal
雖然 Phi-4-multimodal 只有 5.6B 參數(shù),但它將語(yǔ)音、視覺(jué)和文本處理無(wú)縫集成到一個(gè)統(tǒng)一的架構(gòu)中,所有這些模態(tài)都在同一個(gè)表征空間內(nèi)同時(shí)處理。
Phi-4 多模態(tài)能夠同時(shí)處理視覺(jué)和音頻。下表顯示了在圖表 / 表格理解和文檔推理任務(wù)中,當(dāng)視覺(jué)內(nèi)容的輸入查詢(xún)?yōu)楹铣烧Z(yǔ)音時(shí)的模型質(zhì)量。與其他可以將音頻和視覺(jué)信號(hào)作為輸入的現(xiàn)有最先進(jìn)的全方位模型相比,Phi-4 多模態(tài)模型在多個(gè)基準(zhǔn)測(cè)試中取得了更強(qiáng)的性能。
圖 1:所列基準(zhǔn)包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。進(jìn)行對(duì)比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。
Phi-4-multimodal 在語(yǔ)音相關(guān)任務(wù)中表現(xiàn)出了卓越的能力。它在自動(dòng)語(yǔ)音識(shí)別 (ASR) 和語(yǔ)音翻譯 (ST) 方面都優(yōu)于 WhisperV3 和 SeamlessM4T-v2-Large 等專(zhuān)業(yè)模型。該模型以令人印象深刻的 6.14% 的單詞錯(cuò)誤率在 Huggingface OpenASR 排行榜上名列前茅,超過(guò)了 2025 年 2 月之前的最佳表現(xiàn) 6.5%。此外,它是少數(shù)幾個(gè)成功實(shí)現(xiàn)語(yǔ)音摘要并達(dá)到與 GPT-4o 模型相當(dāng)?shù)男阅芩降拈_(kāi)放模型之一。該模型在語(yǔ)音問(wèn)答 (QA) 任務(wù)上與 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因?yàn)槟P统叽巛^小導(dǎo)致保留事實(shí) QA 知識(shí)的能力較弱。
圖 2:Phi-4 多模態(tài)語(yǔ)音基準(zhǔn)。
在下方視頻中,Phi-4-multimodal 分析了語(yǔ)音輸入并幫助規(guī)劃西雅圖之旅:
Phi-4-multimodal 同樣在各種基準(zhǔn)測(cè)試中都表現(xiàn)出了卓越的視覺(jué)能力,最顯著的是在數(shù)學(xué)和科學(xué)推理方面取得了優(yōu)異的表現(xiàn)。盡管規(guī)模較小,但該模型在通用多模態(tài)能力(如文檔和圖表理解、光學(xué)字符識(shí)別 (OCR) 和視覺(jué)科學(xué)推理)方面仍保持著極具競(jìng)爭(zhēng)性的表現(xiàn),與 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相當(dāng)或超過(guò)它們。
Phi-4-multimodal 展示了強(qiáng)大的推理和邏輯能力,適合分析任務(wù)。參數(shù)量更小也使得微調(diào)或定制更容易且更實(shí)惠。下表中展示了 Phi-4-multimodal 的微調(diào)場(chǎng)景示例。
下方視頻展示了 Phi-4-multimodal 的推理能力:
Phi-4-mini:3.8B,小身材大能量
Phi-4-Mini 和 Phi-4-Multimodal 共享同一個(gè)語(yǔ)言模型骨干網(wǎng)絡(luò)。Phi-4-mini 雖然體積小巧,但它承襲了 Phi 系列前作的傳統(tǒng),在推理、數(shù)學(xué)、編程、指令遵循和函數(shù)調(diào)用等任務(wù)上超越了更大的模型。
Phi-4-mini 在各種測(cè)試集中和較小模型的成績(jī)對(duì)比
更重要的是,開(kāi)發(fā)者們可以基于 Phi-4-mini 構(gòu)建出一個(gè)可擴(kuò)展的智能體系統(tǒng),它可以借函數(shù)調(diào)用、指令跟隨、長(zhǎng)上下文處理以及推理能力來(lái)訪(fǎng)問(wèn)外部知識(shí),從而彌補(bǔ)自身參數(shù)量有限的不足。
通過(guò)標(biāo)準(zhǔn)化協(xié)議,Phi-4-mini 的函數(shù)調(diào)用可以與結(jié)構(gòu)化的編程接口無(wú)縫集成。當(dāng)用戶(hù)提出請(qǐng)求時(shí),Phi-4-mini 能夠?qū)Σ樵?xún)進(jìn)行分析,識(shí)別并調(diào)用相關(guān)的函數(shù)以及合適的參數(shù),接收函數(shù)輸出的結(jié)果,并將這些結(jié)果整合到最終的回應(yīng)之中。
在設(shè)置合適的數(shù)據(jù)源、API 和流程之后,Phi-4-mini 可以部署在你家,當(dāng)你的智能家居助手,幫你查看監(jiān)控有沒(méi)有異常。
基于 Phi-4-mini 的家居智能體
通過(guò)標(biāo)準(zhǔn)化協(xié)議,函數(shù)調(diào)用使得模型可以與結(jié)構(gòu)化的編程接口無(wú)縫集成。當(dāng)用戶(hù)提出請(qǐng)求時(shí),Phi-4-mini 可以對(duì)查詢(xún)進(jìn)行分析,識(shí)別并調(diào)用相關(guān)的函數(shù)以及合適的參數(shù),接收函數(shù)輸出的結(jié)果,并將這些結(jié)果整合到最終的回應(yīng)之中。這樣一來(lái),就構(gòu)建了一個(gè)可擴(kuò)展的基于智能體的系統(tǒng),借助定義良好的函數(shù)接口,模型能夠連接到外部工具、應(yīng)用程序接口(API)以及數(shù)據(jù)源,進(jìn)而增強(qiáng)自身的能力。下面的例子就模擬了 Phi-4-mini 控制智能家居的場(chǎng)景。
因?yàn)轶w積較小,Phi-4-mini 和 Phi-4-multimodal 模型可以在計(jì)算資源有限的環(huán)境中使用,尤其是在用 ONNX Runtime 優(yōu)化后。
訓(xùn)練數(shù)據(jù)
Phi-4-mini 性能明顯優(yōu)于近期類(lèi)似規(guī)模的開(kāi)源模型,有一個(gè)重要原因就是高質(zhì)量的訓(xùn)練數(shù)據(jù)。
相比上一代 Phi-3.5-Mini,研究人員選擇了更嚴(yán)格的數(shù)據(jù)過(guò)濾策略,加入了針對(duì)性的數(shù)學(xué)和編程訓(xùn)練數(shù)據(jù)、特殊清洗過(guò)的 Phi-4 合成數(shù)據(jù),還通過(guò)消融實(shí)驗(yàn)重新調(diào)整了數(shù)據(jù)混合比例,增加推理數(shù)據(jù)的比例為模型帶來(lái)了顯著提升。
具體來(lái)說(shuō),研究人員從推理模型生成了大量合成的思維鏈(CoT)數(shù)據(jù),同時(shí)采用基于規(guī)則和基于模型的兩種篩選方法來(lái)剔除錯(cuò)誤的生成結(jié)果,將正確的采樣答案標(biāo)記為首選生成,將錯(cuò)誤的標(biāo)記為非首選,并創(chuàng)建 DPO 數(shù)據(jù)。
不過(guò),這些數(shù)據(jù)僅用于實(shí)驗(yàn)性推理模型,所以正式發(fā)布的 Phi-4-Mini 版本檢查點(diǎn)中沒(méi)有這些 CoT 數(shù)據(jù)。
在后訓(xùn)練階段,與 Phi-3.5-Mini 相比,Phi-4-Mini 使用了更大規(guī)模和更多樣化的函數(shù)調(diào)用和摘要數(shù)據(jù)。研究人員合成了大量的指令跟隨數(shù)據(jù)來(lái)增強(qiáng)模型的指令跟隨能力。
在編程方面,研究人員加入了大量的代碼補(bǔ)全數(shù)據(jù),比如要求模型在現(xiàn)有代碼片段中間生成缺失代碼的任務(wù)。這挑戰(zhàn)了模型對(duì)需求和現(xiàn)有上下文的理解能力,帶來(lái)了顯著的性能提升。
Phi-4-Multimodal 模型的預(yù)訓(xùn)練階段涉及豐富多樣的數(shù)據(jù)集,視覺(jué) - 語(yǔ)言訓(xùn)練數(shù)據(jù)包含 0.5T 圖像 - 文本文檔、OCR 數(shù)據(jù)、圖表理解等;語(yǔ)音相關(guān)的訓(xùn)練數(shù)據(jù)涵蓋真實(shí)和合成數(shù)據(jù),使用內(nèi)部 ASR 模型轉(zhuǎn)錄音頻并計(jì)算原始文本與轉(zhuǎn)錄之間的詞錯(cuò)率(WER)來(lái)衡量合成語(yǔ)音的質(zhì)量。
更多詳情,請(qǐng)?jiān)L問(wèn)原項(xiàng)目地址。