微軟開源Phi-3.5:支持手機(jī)、平板電腦,性能超Llama 3.1
微軟開源了最新Phi-3.5系列模型,共有mini指令微調(diào)、專家混合和視覺微調(diào)三種模型。
Phi-3.5系列的參數(shù)非常小,但性能卻超過了Meta最新開源的Llama 3.1 8B和Mistral 7B等知名開源模型,也是目前開源大模型排行榜中唯一入選前10名的小參數(shù)模型。
所以,微軟開源的Phi-3.5系列是專門面向那些算力、硬件有限的中小企業(yè)和個(gè)人開發(fā)者,同時(shí)可以部署在手機(jī)、平板電腦等移動(dòng)設(shè)備中使用。
Mini開源地址:https://huggingface.co/microsoft/Phi-3.5-mini-instruct
專家混合:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
視覺:https://huggingface.co/microsoft/Phi-3.5-vision-instruct
微軟其他模型開源地址:https://huggingface.co/microsoft
Phi-3.5架構(gòu)簡(jiǎn)單介紹
Phi-3.5是2.0、3.0版本的延伸,使用的是Transformer解碼器,有3072維隱藏層、32個(gè)注意力頭以及32層架構(gòu)。具有4K的默認(rèn)上下文長(zhǎng)度,并通過 LongRope擴(kuò)展至128K,使得模型能夠處理更長(zhǎng)的文本序列,支持中文、英文、法文等。
此外,還使用了組查詢注意力機(jī)制,每個(gè)注意力頭的KV緩存中使用4個(gè)查詢共享1個(gè)鍵。為了進(jìn)一步提高訓(xùn)練和推理速度,微軟使用了塊稀疏注意力模塊,能根據(jù)不同的稀疏模式有效地劃分上下文,減少KV緩存的使用量。
Phi-3.5之所以能夠?qū)崿F(xiàn)如此出色的性能,主要原因之一是其使用了超過3.3萬(wàn)億token高質(zhì)量訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是 phi-2 使用的數(shù)據(jù)集的擴(kuò)展版本,由經(jīng)過嚴(yán)格篩選的公開網(wǎng)絡(luò)數(shù)據(jù)以及合成數(shù)據(jù)組成,在模型的預(yù)訓(xùn)練過程中發(fā)揮了巨大作用。
在安全優(yōu)化方面,使用了監(jiān)督微調(diào)、近端策略優(yōu)化和直接偏好優(yōu)化等方法,使Phi-3.5的輸出更符合人類預(yù)期,極大減少非法、錯(cuò)誤的內(nèi)容輸出。
三款模型
Phi-3.5-mini指令微調(diào)模型支持128K上下文,能生成文本/代碼、數(shù)學(xué)推理、解讀長(zhǎng)文檔、總結(jié)會(huì)議摘要等。在MMLU、MGSM、MEGA TyDi QA、MEGA XCOPA等測(cè)試基準(zhǔn)中,整體性能超過Llama-3.1-8B、Mistral-7B。
Phi-3.5視覺模型除了文本生成之外,還支持圖像識(shí)別、光學(xué)字符識(shí)別、圖表/表格解讀、圖像比較、剪輯視頻摘要等。
在Art Style、Counting、Forensic Detection、Jigsaw、Relative Depth、Visual Correspondence等視覺基準(zhǔn)測(cè)試中,其性能超過了InternVL-2-4B/8B、GPT-4o-mini、Claude-3.5-Sonnet、Gemini-1.5-Flash等知名開閉源模型,僅次于GPT-4o。
Phi-3.5專家混合模型共有420億參數(shù),但在推理的過程中只有66億參數(shù)處于激活狀態(tài),其性能大幅度超過了同類開閉源模型,但對(duì)資源的消耗卻非常低。
而專家混合模型可以根據(jù)不同場(chǎng)景的復(fù)雜任務(wù),調(diào)動(dòng)切換不同的專家模塊來處理,進(jìn)一步提升了對(duì)資源的合理分配。
專家混合模型之所以能夠?qū)崿F(xiàn)這種效率和性能的平衡,源于其獨(dú)特的技術(shù)原理。在專家混合模型架構(gòu)中,模型不是由單一的神經(jīng)網(wǎng)絡(luò)構(gòu)成,而是由多個(gè)小型網(wǎng)絡(luò)或?qū)<医M成。
每個(gè)專家負(fù)責(zé)處理其擅長(zhǎng)的特定類型的任務(wù)。當(dāng)模型接收到輸入數(shù)據(jù)時(shí),會(huì)通過 “門控網(wǎng)絡(luò)”來決定哪些專家需要被激活,以及每個(gè)專家應(yīng)該對(duì)最終的輸出貢獻(xiàn)多少。
專家混合模型的另一個(gè)技術(shù)優(yōu)勢(shì)是其可擴(kuò)展性。隨著開發(fā)人員對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練和優(yōu)化,可以輕松地增加更多的專家來提升模型在特定領(lǐng)域的表現(xiàn),或者通過改進(jìn)門控網(wǎng)絡(luò)來優(yōu)化模型的決策過程。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
