微軟發(fā)布Phi-3.5小語言模型,欲推動(dòng)AI創(chuàng)新進(jìn)一步發(fā)展
微軟最新發(fā)布的Phi-3.5系列AI模型,標(biāo)志著小語言模型領(lǐng)域迎來又一波重大進(jìn)展。該家族由三款模型構(gòu)成:Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct,各個(gè)模型均提供特定功能,旨在提高AI技術(shù)在不同任務(wù)下的性能表現(xiàn)。此版本彰顯出微軟致力于推動(dòng)AI技術(shù)發(fā)展,同時(shí)維持良好效率與可及性的探索與嘗試。
Phi-3.5模型家族概述
Phi-3.5-mini-instruct模型包含38億參數(shù),針對(duì)快速推理任務(wù)進(jìn)行了優(yōu)化。該模型在代碼生成以及邏輯/數(shù)學(xué)問題的解決等領(lǐng)域表現(xiàn)相當(dāng)出色。盡管與其他模型比較其規(guī)模相對(duì)較小,但卻在各種性能基準(zhǔn)測(cè)試當(dāng)中擁有可與Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微軟致力于使其成為一套既強(qiáng)大、又高效的模型,這也代表著軟件巨頭致力于打造一款能夠在資源受限環(huán)境下部署的高質(zhì)量AI工具。
家族中的第二位成員Phi-3.5-Moe-instruct是三套模型中體量最大的一位,擁有420億參數(shù)。不過得益于其混合專家架構(gòu),在任何給定操作期間,只有66億參數(shù)處于活動(dòng)狀態(tài)。這樣的設(shè)計(jì)使該模型能夠高效處理跨多種語言的復(fù)雜AI任務(wù)。MoE方法使得模型能夠僅激活與給定任務(wù)關(guān)聯(lián)度最高的“專家”子模型,從而提高性能與資源利用率。該模型在需要多語言能力的任務(wù)當(dāng)中特別有效,甚至優(yōu)于谷歌Gemini 1.5 Flash等由競(jìng)爭(zhēng)對(duì)手打造的更大模型。
第三套模型Phi-3.5-vision-instruct則將該家族的功能擴(kuò)展到了多模態(tài)領(lǐng)域。此模型擁有42億參數(shù),能夠處理文本和圖像,適合光學(xué)字符識(shí)別、圖表分析乃至視頻摘要等任務(wù)。該模型在處理復(fù)雜視覺任務(wù)時(shí)表現(xiàn)出的能力,與業(yè)界體量更大的多模態(tài)模型幾乎不相上下。
更多Phi-3.5高級(jí)功能
Phi-3.5家族最令人印象深刻的功能之一,就是所有模型都可支持高達(dá)12.8萬token的長(zhǎng)上下文窗口。此功能允許模型處理和生成大量數(shù)據(jù),因此適合用于處理長(zhǎng)文檔、復(fù)雜對(duì)話乃至涉及多媒體內(nèi)容的實(shí)際應(yīng)用。在這么長(zhǎng)的輸入序列中保持一致性以及對(duì)上下文的感知能力,已經(jīng)成為眾多現(xiàn)代AI應(yīng)用程序的一項(xiàng)關(guān)鍵需求。
訓(xùn)練這些模型當(dāng)然離不開龐大的算力資源。例如,Phi-3.5-mini-instruct模型就以10天為周期使用到512張H100 GPU在3.4萬億個(gè)token上進(jìn)行了訓(xùn)練。Phi-3.5-MoE模型的訓(xùn)練范圍更廣,在23天之內(nèi)在4.9萬億個(gè)token上進(jìn)行了訓(xùn)練,且同樣使用512張H100 GPU。最后,Phi-3.5-vision-instruct模型在6天之內(nèi)在5000億token上進(jìn)行了訓(xùn)練,且使用到256張A100 GPU。這種立足高質(zhì)量、推理密集型公開數(shù)據(jù)集進(jìn)行了密集訓(xùn)練,也讓Phi-3.5模型家族擁有了令人印象深刻的功能表現(xiàn)。
開源與可及性
為了履行公司的開源承諾,微軟已經(jīng)根據(jù)開源MIT許可證對(duì)外發(fā)布Phi-3.5模型家族。開發(fā)人員可以通過Hugging Face平臺(tái)訪問這些模型,將其下載、修改并集成到自己的項(xiàng)目當(dāng)中,且不受商業(yè)使用的限制。這種開源方法有望激發(fā)出更廣泛的采用和實(shí)驗(yàn),特別是在那些需要高級(jí)AI功能的加持、但卻不具備從頭開始訓(xùn)練模型的必要資源的應(yīng)用領(lǐng)域。
競(jìng)爭(zhēng)格局與影響
微軟為Phi-3.5家族定下的戰(zhàn)略就是開發(fā)出更小、更高效的AI模型,盡可能使其在特定任務(wù)中帶來超越更大模型的表現(xiàn)。這種對(duì)效率的關(guān)注帶來了幾大關(guān)鍵優(yōu)勢(shì),包括減少算力要求、加快推理時(shí)間以及因能耗降低而實(shí)現(xiàn)的環(huán)境友好能力。這些優(yōu)勢(shì)的存在,使得Phi-3.5模型家族特別適合部署在資源相對(duì)有限的邊緣計(jì)算場(chǎng)景以及大規(guī)模云環(huán)境當(dāng)中。
此次發(fā)布中最值得注意的方面之一,則在于微軟宣稱這些模型在特定任務(wù)當(dāng)中可以用過谷歌、Meta甚至是OpenAI等競(jìng)爭(zhēng)對(duì)手發(fā)布的更大體量模型。如果這些說法在后續(xù)實(shí)際應(yīng)用當(dāng)中得到驗(yàn)證,那么很可能預(yù)示著AI格局將發(fā)生轉(zhuǎn)變,即模型效率將變得與原始規(guī)模及參數(shù)數(shù)量同等重要。這種方法挑戰(zhàn)了以往AI開發(fā)領(lǐng)域“越大越好”的固有觀點(diǎn),有望引領(lǐng)AI開發(fā)進(jìn)入一個(gè)專注于可持續(xù)性和可及性的新時(shí)代。
Phi-3.5家族代表著微軟在AI研發(fā)方面邁出的重要一步。通過專注于打造體量更小、效率更高、能夠處理各種任務(wù)的模型,微軟希望就當(dāng)前市場(chǎng)對(duì)于功能強(qiáng)大且資源高效的AI解決方案的旺盛需求交出一份令人滿意的答卷。