微軟3.8B模型媲美GPT-3.5!小到用iPhone就能跑起來(lái),網(wǎng)友:Good data is all you need! 原創(chuàng)
撰文、整理 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
這周,“小模型”之戰(zhàn)打得可謂精彩非凡,讓人目不暇接。前腳,小扎剛在采訪中自豪地宣布Llama3 80億模型幾乎與此前Llama2 700億模型的性能差不多!
緊接著,微軟祭出的“Phi-3-Mini”以3.8B的小體積,跑出Mixtral 8x7B和GPT-3.5等大模型才有的成績(jī),似乎在用實(shí)力證明,在小模型這件事上,微軟才是真正的領(lǐng)先者。讓人直呼離譜!
下圖能看到Phi-3-Mini并非夸張!通過(guò)學(xué)術(shù)基準(zhǔn)和內(nèi)部測(cè)試來(lái)看,Phi-3-Mini在MMLU上達(dá)到了69(高于Mixtral 8x7B的68.4),在MT-bench上達(dá)到了8.38(高于GPT的8.35 )。
圖片
這下Phi-3-Mini是一個(gè)名副其實(shí)的小體積,大性能的模型了。研究人員直接用iPhone進(jìn)行了測(cè)試。
結(jié)果:Phi-3-Mini可以在手機(jī)上完全離線地本地運(yùn)行,該模型的小體積使其可以量化到4位,占用僅約1.8GB的內(nèi)存(比微信小得多)。Phi-3-Mini在iPhone 14上使用A16 Bionic芯片進(jìn)行了原生部署,完全離線運(yùn)行,每秒可以生成超過(guò)12個(gè)token。
今早,Phi-3-Mini已經(jīng)進(jìn)行開(kāi)源,感興趣的朋友可以移步地址:
??https://huggingface.co/microsoft/Phi-3-mini-4k-instruct??
Phi-3-Mini好到不像真的。X上知名科技博主說(shuō),看完P(guān)hi-3-Mini,她毫不懷疑今年年底有超越GPT-4的7B模型會(huì)誕生!
圖片
1.Phi-3-Mini的獨(dú)門心法:更好的數(shù)據(jù)集
模型到底是怎么做到“又小又好的”?Phi-3-Mini的技術(shù)報(bào)告中寫(xiě)著“創(chuàng)新完全在于我們的訓(xùn)練數(shù)據(jù)集”。
Phi-3-Mini模型的訓(xùn)練重點(diǎn)放在了數(shù)據(jù)的質(zhì)量上,而不是單純的數(shù)據(jù)量或規(guī)模。他們使用了用于Phi-2的訓(xùn)練數(shù)據(jù)集的擴(kuò)展版本,由經(jīng)過(guò)嚴(yán)格過(guò)濾的網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù)組成,數(shù)據(jù)集共3.3萬(wàn)億tokens。
這種方法偏離了傳統(tǒng)的僅僅依賴于數(shù)據(jù)量來(lái)提升模型性能的scaling laws。這意味著在訓(xùn)練過(guò)程中,更加關(guān)注于使用高質(zhì)量、精心篩選和優(yōu)化的數(shù)據(jù),提高模型的性能和效率。
Phi-3-Mini的預(yù)訓(xùn)練分“兩步走”。
第一階段:主要使用網(wǎng)絡(luò)數(shù)據(jù),目的是教授模型通用知識(shí)和語(yǔ)言理解能力。這些數(shù)據(jù)是從開(kāi)放的互聯(lián)網(wǎng)源中獲取的,并且是根據(jù)“教育水平”進(jìn)行重度過(guò)濾的,以確保數(shù)據(jù)的相關(guān)性和準(zhǔn)確性。
第二階段:在該階段中,預(yù)訓(xùn)練過(guò)程進(jìn)一步合并了更加嚴(yán)格過(guò)濾的網(wǎng)絡(luò)數(shù)據(jù)(這些數(shù)據(jù)是第一階段中使用的子集)和一些合成數(shù)據(jù)。合成數(shù)據(jù)是通過(guò)使用大型語(yǔ)言模型(LLM)生成的,目的是教授模型邏輯推理和各種專業(yè)技能。
當(dāng)然小模型也有弱點(diǎn)。Phi-3-Mini由于其體積太小,在某些任務(wù)上受到根本性的限制。例如,它缺乏存儲(chǔ)大量“事實(shí)知識(shí)”的能力,導(dǎo)致在TriviaQA等任務(wù)上的表現(xiàn)較差。
不過(guò)Phi-3-Mini也有對(duì)策,相信朋友們也猜到了,那就是:RAG!——通過(guò)為模型增加搜索引擎,可以解決這樣的弱點(diǎn),所以雖然AI能離線運(yùn)行在你的手機(jī)上,還是有網(wǎng)的時(shí)候更香!
2.更大的模型的探索:7B到14B的提升不夠顯著
微軟還推出了Phi-3-Mini模型的兩個(gè)擴(kuò)展版本:Phi-3-Small和Phi-3-Medium模型,它們都比Phi-3-Mini有顯著的更強(qiáng)能力。
Phi-3-Small擁有70億參數(shù),使用tiktoken分詞器以改善多語(yǔ)言分詞。它擁有100,352的詞匯量和8K的默認(rèn)上下文長(zhǎng)度。
Phi-3-Medium,擁有140億參數(shù),使用與Phi-3-Mini相同的分詞器和架構(gòu),但訓(xùn)練了更多的tokens。
性能表現(xiàn)上,更大的體積當(dāng)然提升了性能。在MMLU(Massive Multitask Language Understanding)基準(zhǔn)測(cè)試中,Phi-3-Small和Phi-3-Medium相較于Phi-3-Mini(得分68.8%)表現(xiàn)出顯著的性能提升。
具體來(lái)說(shuō),Phi-3-Small在MMLU上得分為75.3%,而Phi-3-Medium得分為78.2%。
不過(guò),研究人員發(fā)現(xiàn):在從3.8B參數(shù)擴(kuò)展到7B和14B參數(shù)時(shí),某些基準(zhǔn)測(cè)試的提升幅度有所不同,從7B到14B的提升可能沒(méi)有從3.8B到7B的提升顯著。
這個(gè)結(jié)論啟發(fā)了研究人員,訓(xùn)練數(shù)據(jù)混合可能需要進(jìn)一步的優(yōu)化,以達(dá)到14B參數(shù)模型的“數(shù)據(jù)最優(yōu)范圍”。
3.Good data is all you need
合成數(shù)據(jù)并不是一個(gè)新概念。隨著新的AI模型和GenAI模型的出現(xiàn),“合成數(shù)據(jù)”這個(gè)術(shù)語(yǔ)獲得了新的含義。
合成數(shù)據(jù)最常見(jiàn)的兩個(gè)用途是性能測(cè)試和可擴(kuò)展性場(chǎng)景。此外,許多科學(xué)場(chǎng)景和其他應(yīng)用依賴于合成數(shù)據(jù)來(lái)探索新的可能性和運(yùn)行模擬,因?yàn)楹铣蓴?shù)據(jù)可以代表超越現(xiàn)實(shí)世界數(shù)據(jù)可能代表的假設(shè)情況。
此前,人們啟用合成數(shù)據(jù)是因?yàn)殚_(kāi)發(fā)人員沒(méi)有足夠的數(shù)據(jù)來(lái)訓(xùn)練他們的模型,現(xiàn)在,經(jīng)過(guò)嚴(yán)格過(guò)濾的合成數(shù)據(jù)似乎能提升數(shù)據(jù)集質(zhì)量,改變模型在數(shù)據(jù)中“大浪淘沙”的境地。
合成數(shù)據(jù)的典型好處有以下幾條:
- 優(yōu)化隱私和安全:通過(guò)使用合成數(shù)據(jù)而不是真實(shí)數(shù)據(jù),組織可以在仍然訓(xùn)練有效的AI模型的同時(shí)保護(hù)敏感的用戶信息。
- 改善數(shù)據(jù)多樣性:合成數(shù)據(jù)可以增加有限的真實(shí)數(shù)據(jù),創(chuàng)建更全面和具有代表性的培訓(xùn)集,引入更多樣化的數(shù)據(jù)進(jìn)入AI訓(xùn)練。
- 減少偏見(jiàn):合成數(shù)據(jù)提供了引入可控偏見(jiàn)的可能性,這些偏見(jiàn)可以識(shí)別模型中的無(wú)意偏見(jiàn),并通過(guò)分析算法進(jìn)一步減少。
- 提高可用資源的有效利用:生成合成數(shù)據(jù)比收集、處理和存儲(chǔ)大量真實(shí)數(shù)據(jù)更具資源效率。
當(dāng)然,這些好處都必須基于嚴(yán)格過(guò)濾的基礎(chǔ)之上,否則可能帶來(lái)多種風(fēng)險(xiǎn)。
4.寫(xiě)在最后
模型的“瘦身”潮流呼應(yīng)著大家對(duì)AI能力應(yīng)用、落地的期待。人們不再滿足于如此強(qiáng)大的AI能力,卻止步于聊天機(jī)器人單一的對(duì)話窗口中。而手機(jī)作為日常使用頻率最高的端側(cè)電子設(shè)備,無(wú)疑是接入AI能力的絕佳入口。
如今微軟、蘋果都在緊鑼密鼓地研究能在端側(cè)運(yùn)行的小模型,國(guó)內(nèi)的手機(jī)廠商也紛紛將AI作為“全村最后的希望”。
周鴻祎說(shuō),不做AI能力的手機(jī)廠商會(huì)淪為諾基亞,這句話正在成為一個(gè)普遍的共識(shí)。AI手機(jī)能做的不止是通過(guò)語(yǔ)音交互設(shè)置一個(gè)鬧鐘,也遠(yuǎn)不止于消除照片中闖入的行人。
一個(gè)超越GPT-4性能的小模型設(shè)想無(wú)疑讓人興奮:高性能AI模型更小一點(diǎn),我們距離將智能助理裝入口袋就更近一點(diǎn)。
參考鏈接:
1.https://analyticsindiamag.com/microsoft-introduces-phi-3-llm-that-runs-on-the-phone/
2.??https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html??
本文轉(zhuǎn)載自 ??51CTO技術(shù)棧??,作者:伊風(fēng)
