微軟發(fā)布強(qiáng)大的新Phi-3.5模型,擊敗谷歌、OpenAI等
微軟并沒(méi)有滿足于與OpenAI的合作取得的AI成功,這家總部位于華盛頓州,被稱為“Redmond”的公司,今天推出了其不斷演進(jìn)的Phi系列語(yǔ)言/多模態(tài)AI中的3個(gè)新模型,展示了其不懈的進(jìn)取心。
這三款新的Phi 3.5模型包括:擁有38.2億參數(shù)的Phi-3.5-mini-instruct,擁有419億參數(shù)的Phi-3.5-MoE-instruct,以及擁有41.5億參數(shù)的Phi-3.5-vision-instruct,分別針對(duì)基礎(chǔ)/快速推理、更強(qiáng)大的推理以及視覺(jué)(圖像和視頻分析)任務(wù)設(shè)計(jì)。
所有這三款模型都可供開(kāi)發(fā)者在Hugging Face上下載、使用,并根據(jù)需要進(jìn)行微調(diào)和自定義,使用的是微軟品牌的MIT許可協(xié)議,允許商業(yè)使用和修改,無(wú)任何限制。
令人驚訝的是,這三款模型在許多第三方基準(zhǔn)測(cè)試中表現(xiàn)出接近最先進(jìn)的性能,甚至在某些情況下超越了其他AI供應(yīng)商的產(chǎn)品,包括Google的Gemini 1.5 Flash、Meta的Llama 3.1,甚至OpenAI的GPT-4o。
Phi-3.5 Mini Instruct:為計(jì)算資源受限的環(huán)境優(yōu)化
Phi-3.5 Mini Instruct模型是一款輕量級(jí)AI模型,擁有38億參數(shù),專為遵循指令設(shè)計(jì),并支持128k token的上下文長(zhǎng)度。
該模型非常適合在內(nèi)存或計(jì)算資源受限的環(huán)境中需要強(qiáng)大推理能力的場(chǎng)景,包括代碼生成、數(shù)學(xué)問(wèn)題求解和基于邏輯的推理任務(wù)。
盡管體積小巧,Phi-3.5 Mini Instruct模型在多語(yǔ)言和多輪對(duì)話任務(wù)中表現(xiàn)出競(jìng)爭(zhēng)力,相較于其前代產(chǎn)品有顯著的改進(jìn)。
它在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)了接近最先進(jìn)的性能,并在“長(zhǎng)上下文代碼理解”的RepoQA基準(zhǔn)測(cè)試中超越了其他類似大小的模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。
Phi-3.5 MoE:微軟的‘專家混合’
Phi-3.5 MoE(專家混合)模型似乎是微軟首次推出的此類模型,它將多種不同類型的模型結(jié)合在一起,每種模型專門針對(duì)不同的任務(wù)。
該模型采用了具有420億活躍參數(shù)的架構(gòu),支持128k token的上下文長(zhǎng)度,為需求苛刻的應(yīng)用提供可擴(kuò)展的AI性能,然而,根據(jù)Hugging Face的文檔,該模型實(shí)際上只使用了66億的活躍參數(shù)。
Phi-3.5 MoE模型專為在各種推理任務(wù)中表現(xiàn)出色而設(shè)計(jì),在代碼、數(shù)學(xué)和多語(yǔ)言理解方面表現(xiàn)出強(qiáng)勁的性能,常常在特定基準(zhǔn)測(cè)試中超越更大規(guī)模的模型。
它在STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、人文學(xué)科和社會(huì)科學(xué)等多個(gè)學(xué)科的5-shot MMLU(Massive Multitask Language Understanding)測(cè)試中,表現(xiàn)優(yōu)異,甚至超越了GPT-4o mini。
MoE模型的獨(dú)特架構(gòu)使其在處理多語(yǔ)言復(fù)雜AI任務(wù)時(shí)保持高效。
Phi-3.5 Vision Instruct:高級(jí)多模態(tài)推理
作為Phi系列的最后一款模型,Phi-3.5 Vision Instruct模型整合了文本和圖像處理功能。
這一多模態(tài)模型特別適合于一般圖像理解、光學(xué)字符識(shí)別、圖表和表格理解以及視頻摘要等任務(wù)。
與Phi-3.5系列中的其他模型一樣,Vision Instruct支持128k token的上下文長(zhǎng)度,使其能夠處理復(fù)雜的多幀視覺(jué)任務(wù)。
微軟強(qiáng)調(diào),該模型是通過(guò)合成數(shù)據(jù)和經(jīng)過(guò)篩選的公開(kāi)數(shù)據(jù)集訓(xùn)練的,重點(diǎn)在于高質(zhì)量和富含推理的數(shù)據(jù)。
新Phi三款模型的訓(xùn)練
Phi-3.5 Mini Instruct模型在使用512個(gè)H100-80G GPU的情況下,經(jīng)過(guò)10天的訓(xùn)練,處理了3.4萬(wàn)億個(gè)tokens,而Vision Instruct模型則使用256個(gè)A100-80G GPU,經(jīng)過(guò)6天的訓(xùn)練,處理了5000億個(gè)tokens。
采用專家混合架構(gòu)的Phi-3.5 MoE模型,使用512個(gè)H100-80G GPU,在23天內(nèi)處理了4.9萬(wàn)億個(gè)tokens。
MIT許可下的開(kāi)源
所有三款Phi-3.5模型均在MIT許可協(xié)議下發(fā)布,體現(xiàn)了微軟對(duì)支持開(kāi)源社區(qū)的承諾。
此許可允許開(kāi)發(fā)者自由使用、修改、合并、發(fā)布、分發(fā)、再許可或出售軟件的副本。
該許可還包括免責(zé)聲明,即軟件是“按原樣”提供的,不附帶任何形式的保證。微軟及其他版權(quán)持有人不對(duì)因使用該軟件而引發(fā)的任何索賠、損害或其他責(zé)任承擔(dān)責(zé)任。
微軟發(fā)布的Phi-3.5系列代表了多語(yǔ)言和多模態(tài)AI開(kāi)發(fā)的一個(gè)重要進(jìn)展。
通過(guò)以開(kāi)源許可的形式提供這些模型,微軟使開(kāi)發(fā)者能夠?qū)⒆钕冗M(jìn)的AI能力集成到他們的應(yīng)用中,從而推動(dòng)商業(yè)和研究領(lǐng)域的創(chuàng)新。