微軟「小而美」系列三連發(fā)!視覺小鋼炮PK GPT-4o,MoE新秀力壓Llama 3.1
就在今天,微軟「小語言模型」系列正式升級,最新的Phi 3.5版本一口氣連發(fā)三款模型——
- 38.2億參數(shù)的Phi-3.5-mini-instruct
- 419億參數(shù)的Phi-3.5-MoE-instruct
- 41.5億參數(shù)的Phi-3.5-vision-instruct
這三個模型都可供開發(fā)人員在Hugging Face上下載、使用和微調(diào),并獲得了微軟的MIT許可證,可以進(jìn)行不受限制的商業(yè)應(yīng)用和修改。
別看規(guī)模不大,但這三個模型在很多第三方基準(zhǔn)測試中都性能表現(xiàn)都相當(dāng)不錯,甚至在某些情況下?lián)魯×似渌I(lǐng)先大模型,包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至在一些競技場上擊敗了OpenAI的GPT-4o。
優(yōu)秀的性能加上寬松的開放許可證,網(wǎng)友在社交網(wǎng)絡(luò)上紛紛試用并點贊Phi 3.5新系列:
接下來,根據(jù)Hugging Face上的發(fā)行說明,簡要介紹一下三款新型號模型的不同特點和用途。
Phi-3.5-mini-Instruct:小而美
模型:https://huggingface.co/microsoft/Phi-3.5-mini-instruct
延續(xù)之前模型小而美的路線,Phi-3.5-mini-Instruct也是一種輕量級AI模型,基于Phi-3使用的數(shù)據(jù)集構(gòu)建,擁有38億個參數(shù),支持128k token上下文長度。
Phi-3.5-mini使用512個H100-80G GPU,在10天內(nèi)對3.4萬億個token進(jìn)行了訓(xùn)練。
Phi-3.5-mini非常適合在內(nèi)存或算力受限的設(shè)備上使用,雖然內(nèi)存有限但推理能力不減,可以完成代碼生成、數(shù)學(xué)問題的解決和邏輯推理等任務(wù)。
默認(rèn)情況下,Phi-3.5-mini使用Flash Attention,這需要某些類型的GPU硬件才能運行。
通過在不同類型的GPU上進(jìn)行測試,發(fā)現(xiàn)在NVIDIA V100或更早一代GPU上即可使用。
多語言
盡管尺寸緊湊,Phi-3.5-mini在多語言和多輪對話任務(wù)中表現(xiàn)出了優(yōu)秀的性能。
Phi-3.5-mini支持阿拉伯語、中文、英語、芬蘭語、法語、德語等23種語言。
下表重點介紹了Phi-3.5-mini在多語言MMLU、MEGA和多語言MMLU-pro數(shù)據(jù)集上的多語言功能。
總體而言,即使只有3.8B參數(shù),Phi-3.5-mini在多語言任務(wù)上與其他更大參數(shù)的模型相比,也具有競爭力。
長上下文
Phi-3.5-mini支持128K上下文長度,因此該模型能夠執(zhí)行多種長上下文任務(wù),包括長文檔/會議摘要、長文檔QA、長文檔信息檢索。
Phi-3.5-mini在衡量「長上下文代碼理解」的RepoQA基準(zhǔn)測試中超越了其他類似大小的模型,比如Llama-3.1-8B-instruct和Mistral-7B-instruct。
Phi-3.5-MoE-instruct:首款MoE
模型:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5-MoE-instruct是微軟Phi模型中的首個MoE模型,將多種不同類型的模型組合成一個模型,匯總的模型內(nèi)部每個類型模型專門從事不同的任務(wù)。
顧名思義,Phi-3.5-MoE采用的是混合專家架構(gòu),在23天內(nèi)使用512個H100-80G GPU,對4.9萬億個token進(jìn)行了訓(xùn)練。
420億個參數(shù)的架構(gòu),支持128k token上下文長度,Phi-3.5-MoE專注于處理高質(zhì)量,推理密集數(shù)據(jù)。
然而,根據(jù)HuggingFace文檔,Phi-3 MoE有16x3.8B參數(shù),只能使用6.6B參數(shù)運行。
Phi-3.5-MoE專為在各種推理任務(wù)而設(shè)計,尤其是在代碼、數(shù)學(xué)和多語言理解方面具有強大的性能。
并且,MoE模型經(jīng)歷了嚴(yán)格的優(yōu)化過程,結(jié)合了監(jiān)督微調(diào)、近端策略優(yōu)化(proximal policy optimization)和直接偏好優(yōu)化(direct preference optimization),確保精確并且安全的指令遵守。
與Phi-3.5-mini一樣,MoE版本也支持多種語言,并且在長上下文表現(xiàn)優(yōu)秀,在特定基準(zhǔn)測試中優(yōu)于較大的模型,包括RepoQA:
專業(yè)學(xué)科
由于Phi-3.5-MoE模型的定位是處理不同種類的專業(yè)任務(wù),那它在專業(yè)學(xué)科領(lǐng)域表現(xiàn)如何?
Phi-3.5-MoE在5個樣本MMLU(大規(guī)模多任務(wù)語言理解)上擊敗了GPT-4o mini,涉及STEM、人文科學(xué)、社會科學(xué)等不同專業(yè)水平的學(xué)科。
因此,MoE模型獨特的組合架構(gòu)使其能夠跨多種語言的情況下,也能處理不同類型復(fù)雜的任務(wù),并且保持高質(zhì)高效。
Phi-3.5-vision-instruct:視覺多模態(tài)
模型:https://huggingface.co/microsoft/Phi-3.5-vision-instruct
前兩個模型都用于文本推理,而Phi-3.5-vision-instruct作為多模態(tài)模型,集成了文本和圖像處理功能。
Phi-3.5-vision在6天內(nèi)使用256個A100-80G GPU,對5000億個token進(jìn)行了訓(xùn)練。
多模態(tài)模型特別適合一般的圖像理解、光學(xué)字符識別、圖表和表格理解以及視頻摘要等任務(wù)。
與Phi-3.5系列中的其他模型一樣,Phi-3.5-vision支持128k token上下文長度,能夠處理復(fù)雜的多幀視覺任務(wù)。
微軟強調(diào),模型是結(jié)合合成和過濾的公開可用數(shù)據(jù)集進(jìn)行訓(xùn)練的,重點關(guān)注高質(zhì)量、推理密集的數(shù)據(jù)。
視覺任務(wù)
Phi-3.5-vision主要用于多幀圖像理解和推理,包括詳細(xì)的圖像比較、多圖像摘要和視頻摘要,這些能力在辦公場景中有廣泛的應(yīng)用。
經(jīng)過測試,大多數(shù)圖像基準(zhǔn)測試性能都得到提升,例如,MMMU性能從40.2提升到43.0,MMBench性能從80.5提升到81.9,文檔理解基準(zhǔn)TextVQA從70.9提升到72.0。
以下是現(xiàn)有多圖像基準(zhǔn)的比較結(jié)果,平均而言,Phi-3.5-vision在相同尺寸上優(yōu)于競爭對手模型,并且在多幀功能和視頻摘要方面能更大的模型一決高下。
BLINK包含14項視覺任務(wù)的基準(zhǔn)測試,人類可以很快解決這些任務(wù),但對于LLM來說仍然很難。
不僅在每一項小分上得分更高,例如藝術(shù)風(fēng)格識別和法醫(yī)學(xué)鑒定都獲得了87.2和92.4的高分;從總分來看,Phi-3.5-vision高于Gemini-1.5-Flash、GPT-4o-mini和Claude-3.5-Sonnet。
Video-MME用于全面評估LLM處理視頻數(shù)據(jù)的能力,涵蓋廣泛的視覺領(lǐng)域任務(wù),并且包括不同時長的視頻處理任務(wù)。
可以看出,視頻處理能力方面,Phi-3.5-vision與領(lǐng)先的幾個模型相比,仍有比較大的進(jìn)步空間,但得分也都基本超過了InternVL模型。