微軟小模型擊敗大模型:27億參數(shù),手機(jī)就能跑
上個(gè)月,微軟 CEO 納德拉在 Ignite 大會(huì)上宣布自研小尺寸模型 Phi-2 將完全開(kāi)源,在常識(shí)推理、語(yǔ)言理解和邏輯推理方面的性能顯著改進(jìn)。
今天,微軟公布了 Phi-2 模型的更多細(xì)節(jié)以及全新的提示技術(shù) promptbase。這個(gè)僅 27 億參數(shù)的模型在大多數(shù)常識(shí)推理、語(yǔ)言理解、數(shù)學(xué)和編碼任務(wù)上超越了 Llama2 7B、Llama2 13B、Mistral 7B,與 Llama2 70B 的差距也在縮?。ㄉ踔粮茫?。
同時(shí),小尺寸的 Phi-2 可以在筆記本電腦、手機(jī)等移動(dòng)設(shè)備上運(yùn)行。納德拉表示,微軟非常高興將一流的小語(yǔ)言模型(SLM)和 SOTA 提示技術(shù)向研發(fā)人員分享。
今年 6 月,微軟在一篇題為《Textbooks Are All You Need》的論文中,用規(guī)模僅為 7B token 的「教科書(shū)質(zhì)量」數(shù)據(jù)訓(xùn)練了一個(gè) 1.3B 參數(shù)的模型 ——phi-1。盡管在數(shù)據(jù)集和模型大小方面比競(jìng)品模型小幾個(gè)數(shù)量級(jí),但 phi-1 在 HumanEval 的 pass@1 上達(dá)到了 50.6% 的準(zhǔn)確率,在 MBPP 上達(dá)到了 55.5%。phi-1 證明高質(zhì)量的「小數(shù)據(jù)」能夠讓模型具備良好的性能。
隨后的 9 月,微軟又發(fā)表了論文《Textbooks Are All You Need II: phi-1.5 technical report》,對(duì)高質(zhì)量「小數(shù)據(jù)」的潛力做了進(jìn)一步研究。文中提出了 Phi-1.5,參數(shù) 13 億,適用于 QA 問(wèn)答、代碼等場(chǎng)景。
如今 27 億參數(shù)的 Phi-2,再次用「小身板」給出了卓越的推理和語(yǔ)言理解能力,展示了 130 億參數(shù)以下基礎(chǔ)語(yǔ)言模型中的 SOTA 性能。得益于在模型縮放和訓(xùn)練數(shù)據(jù)管理方面的創(chuàng)新, Phi-2 在復(fù)雜的基準(zhǔn)測(cè)試中媲美甚至超越了 25 倍于自身尺寸的模型。
微軟表示,Phi-2 將成為研究人員的理想模型,可以進(jìn)行可解釋性探索、安全性改進(jìn)或各種任務(wù)的微調(diào)實(shí)驗(yàn)。微軟已經(jīng)在 Azure AI Studio 模型目錄中提供了 Phi-2,以促進(jìn)語(yǔ)言模型的研發(fā)。
Phi-2 關(guān)鍵亮點(diǎn)
語(yǔ)言模型規(guī)模增加到千億參數(shù),的確釋放了很多新能力,并重新定義了自然語(yǔ)言處理的格局。但仍存在一個(gè)問(wèn)題:是否可以通過(guò)訓(xùn)練策略選擇(比如數(shù)據(jù)選擇)在較小規(guī)模的模型上同樣實(shí)現(xiàn)這些新能力?
微軟給出的答案是 Phi 系列模型,通過(guò)訓(xùn)練小語(yǔ)言模型實(shí)現(xiàn)與大模型類(lèi)似的性能。Phi-2 主要在以下兩個(gè)方面打破了傳統(tǒng)語(yǔ)言模型的縮放規(guī)則。
首先,訓(xùn)練數(shù)據(jù)的質(zhì)量在模型性能中起著至關(guān)重要的作用。微軟通過(guò)重點(diǎn)關(guān)注「教科書(shū)質(zhì)量」數(shù)據(jù)將這一認(rèn)知發(fā)揮到了極致,他們的訓(xùn)練數(shù)據(jù)中包含了專(zhuān)門(mén)創(chuàng)建的綜合數(shù)據(jù)集,教給模型常識(shí)性知識(shí)和推理,比如科學(xué)、日?;顒?dòng)、心理等。此外通過(guò)精心挑選的 web 數(shù)據(jù)進(jìn)一步擴(kuò)充自己的訓(xùn)練語(yǔ)料庫(kù),其中這些 web 數(shù)據(jù)根據(jù)教育價(jià)值和內(nèi)容質(zhì)量進(jìn)行過(guò)濾。
其次,微軟使用創(chuàng)新技術(shù)進(jìn)行擴(kuò)展,從 13 億參數(shù)的 Phi-1.5 開(kāi)始,將知識(shí)逐漸嵌入到了 27 億參數(shù)的 Phi-2 中。這種規(guī)模化知識(shí)遷移加速了訓(xùn)練收斂,并顯著提升了 Phi-2 的基準(zhǔn)測(cè)試分?jǐn)?shù)。
下圖 2 為 Phi-2 與 Phi-1.5 之間的比較,除了 BBH(3-shot CoT)和 MMLU(5-shot)之外,所有其他任務(wù)都利用 0-shot 進(jìn)行評(píng)估。
訓(xùn)練細(xì)節(jié)
Phi-2 是一個(gè)基于 Transformer 的模型,旨在預(yù)測(cè)下一個(gè)單詞,在用于 NLP 與編碼的合成數(shù)據(jù)集和 Web 數(shù)據(jù)集上進(jìn)行訓(xùn)練,在 96 個(gè) A100 GPU 上花費(fèi)了 14 天。
Phi-2 是一個(gè)基礎(chǔ)模型,沒(méi)有通過(guò)人類(lèi)反饋強(qiáng)化學(xué)習(xí) (RLHF) 進(jìn)行對(duì)齊,也沒(méi)有進(jìn)行指令微調(diào)。盡管如此,與經(jīng)過(guò)調(diào)整的現(xiàn)有開(kāi)源模型相比,Phi-2 在毒性和偏見(jiàn)方面仍然表現(xiàn)得更好,如下圖 3 所示。
實(shí)驗(yàn)評(píng)估
首先,該研究在學(xué)術(shù)基準(zhǔn)上對(duì) Phi-2 與常見(jiàn)語(yǔ)言模型進(jìn)行了實(shí)驗(yàn)比較,涵蓋多個(gè)類(lèi)別,包括:
- Big Bench Hard (BBH) (3 shot with CoT)
- 常識(shí)推理(PIQA、WinoGrande、ARC easy and challenge、SIQA)、
- 語(yǔ)言理解(HellaSwag、OpenBookQA、MMLU(5-shot)、SQuADv2(2-shot)、BoolQ)
- 數(shù)學(xué)(GSM8k(8 shot))
- 編碼(HumanEval、MBPP(3-shot))
Phi-2 僅有 27 億個(gè)參數(shù),卻在各種聚合基準(zhǔn)上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型。值得一提的是,與大 25 倍的 Llama2-70B 模型相比,Phi-2 在多步驟推理任務(wù)(即編碼和數(shù)學(xué))方面實(shí)現(xiàn)了更好的性能。
此外,盡管模型較小,但 Phi-2 的性能可與最近谷歌發(fā)布的 Gemini Nano 2 相媲美。
由于許多公共基準(zhǔn)可能會(huì)泄漏到訓(xùn)練數(shù)據(jù)中,研究團(tuán)隊(duì)認(rèn)為測(cè)試語(yǔ)言模型性能的最佳方法是在具體用例上對(duì)其進(jìn)行測(cè)試。因此,該研究使用多個(gè)微軟內(nèi)部專(zhuān)有數(shù)據(jù)集和任務(wù)對(duì) Phi-2 進(jìn)行了評(píng)估,并再次將其與 Mistral 和 Llama-2 進(jìn)行比較,平均而言,Phi-2 優(yōu)于 Mistral-7B,Mistral-7B 優(yōu)于 Llama2 模型(7B、13B、70B)。
此外,研究團(tuán)隊(duì)還針對(duì)研究社區(qū)常用的 prompt 進(jìn)行了廣泛的測(cè)試。Phi-2 的表現(xiàn)與預(yù)期一致。例如,對(duì)于一個(gè)用于測(cè)試模型解決物理問(wèn)題的能力的 prompt(最近用于評(píng)估 Gemini Ultra 模型),Phi-2 給出了以下結(jié)果:






