自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="9t6dj"><p id="9t6dj"><form id="9t6dj"></form></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟小模型擊敗大模型：27億參數(shù)，手機(jī)就能跑

作者：機(jī)器之心 2023-12-13 12:55:39

人工智能新聞

今天，微軟公布了 Phi-2 模型的更多細(xì)節(jié)以及全新的提示技術(shù) promptbase。這個(gè)僅 27 億參數(shù)的模型在大多數(shù)常識(shí)推理、語(yǔ)言理解、數(shù)學(xué)和編碼任務(wù)上超越了 Llama2 7B、Llama2 13B、Mistral 7B，與 Llama2 70B 的差距也在縮?。ㄉ踔粮茫?/div>

上個(gè)月，微軟 CEO 納德拉在 Ignite 大會(huì)上宣布自研小尺寸模型 Phi-2 將完全開(kāi)源，在常識(shí)推理、語(yǔ)言理解和邏輯推理方面的性能顯著改進(jìn)。

今天，微軟公布了 Phi-2 模型的更多細(xì)節(jié)以及全新的提示技術(shù) promptbase。這個(gè)僅 27 億參數(shù)的模型在大多數(shù)常識(shí)推理、語(yǔ)言理解、數(shù)學(xué)和編碼任務(wù)上超越了 Llama2 7B、Llama2 13B、Mistral 7B，與 Llama2 70B 的差距也在縮?。ㄉ踔粮茫?。

同時(shí)，小尺寸的 Phi-2 可以在筆記本電腦、手機(jī)等移動(dòng)設(shè)備上運(yùn)行。納德拉表示，微軟非常高興將一流的小語(yǔ)言模型（SLM）和 SOTA 提示技術(shù)向研發(fā)人員分享。

今年 6 月，微軟在一篇題為《Textbooks Are All You Need》的論文中，用規(guī)模僅為 7B token 的「教科書(shū)質(zhì)量」數(shù)據(jù)訓(xùn)練了一個(gè) 1.3B 參數(shù)的模型 ——phi-1。盡管在數(shù)據(jù)集和模型大小方面比競(jìng)品模型小幾個(gè)數(shù)量級(jí)，但 phi-1 在 HumanEval 的 pass@1 上達(dá)到了 50.6% 的準(zhǔn)確率，在 MBPP 上達(dá)到了 55.5%。phi-1 證明高質(zhì)量的「小數(shù)據(jù)」能夠讓模型具備良好的性能。

隨后的 9 月，微軟又發(fā)表了論文《Textbooks Are All You Need II: phi-1.5 technical report》，對(duì)高質(zhì)量「小數(shù)據(jù)」的潛力做了進(jìn)一步研究。文中提出了 Phi-1.5，參數(shù) 13 億，適用于 QA 問(wèn)答、代碼等場(chǎng)景。

如今 27 億參數(shù)的 Phi-2，再次用「小身板」給出了卓越的推理和語(yǔ)言理解能力，展示了 130 億參數(shù)以下基礎(chǔ)語(yǔ)言模型中的 SOTA 性能。得益于在模型縮放和訓(xùn)練數(shù)據(jù)管理方面的創(chuàng)新， Phi-2 在復(fù)雜的基準(zhǔn)測(cè)試中媲美甚至超越了 25 倍于自身尺寸的模型。

微軟表示，Phi-2 將成為研究人員的理想模型，可以進(jìn)行可解釋性探索、安全性改進(jìn)或各種任務(wù)的微調(diào)實(shí)驗(yàn)。微軟已經(jīng)在 Azure AI Studio 模型目錄中提供了 Phi-2，以促進(jìn)語(yǔ)言模型的研發(fā)。

Phi-2 關(guān)鍵亮點(diǎn)

語(yǔ)言模型規(guī)模增加到千億參數(shù)，的確釋放了很多新能力，并重新定義了自然語(yǔ)言處理的格局。但仍存在一個(gè)問(wèn)題：是否可以通過(guò)訓(xùn)練策略選擇（比如數(shù)據(jù)選擇）在較小規(guī)模的模型上同樣實(shí)現(xiàn)這些新能力？

微軟給出的答案是 Phi 系列模型，通過(guò)訓(xùn)練小語(yǔ)言模型實(shí)現(xiàn)與大模型類(lèi)似的性能。Phi-2 主要在以下兩個(gè)方面打破了傳統(tǒng)語(yǔ)言模型的縮放規(guī)則。

首先，訓(xùn)練數(shù)據(jù)的質(zhì)量在模型性能中起著至關(guān)重要的作用。微軟通過(guò)重點(diǎn)關(guān)注「教科書(shū)質(zhì)量」數(shù)據(jù)將這一認(rèn)知發(fā)揮到了極致，他們的訓(xùn)練數(shù)據(jù)中包含了專(zhuān)門(mén)創(chuàng)建的綜合數(shù)據(jù)集，教給模型常識(shí)性知識(shí)和推理，比如科學(xué)、日?；顒?dòng)、心理等。此外通過(guò)精心挑選的 web 數(shù)據(jù)進(jìn)一步擴(kuò)充自己的訓(xùn)練語(yǔ)料庫(kù)，其中這些 web 數(shù)據(jù)根據(jù)教育價(jià)值和內(nèi)容質(zhì)量進(jìn)行過(guò)濾。

其次，微軟使用創(chuàng)新技術(shù)進(jìn)行擴(kuò)展，從 13 億參數(shù)的 Phi-1.5 開(kāi)始，將知識(shí)逐漸嵌入到了 27 億參數(shù)的 Phi-2 中。這種規(guī)模化知識(shí)遷移加速了訓(xùn)練收斂，并顯著提升了 Phi-2 的基準(zhǔn)測(cè)試分?jǐn)?shù)。

下圖 2 為 Phi-2 與 Phi-1.5 之間的比較，除了 BBH（3-shot CoT）和 MMLU（5-shot）之外，所有其他任務(wù)都利用 0-shot 進(jìn)行評(píng)估。

訓(xùn)練細(xì)節(jié)

Phi-2 是一個(gè)基于 Transformer 的模型，旨在預(yù)測(cè)下一個(gè)單詞，在用于 NLP 與編碼的合成數(shù)據(jù)集和 Web 數(shù)據(jù)集上進(jìn)行訓(xùn)練，在 96 個(gè) A100 GPU 上花費(fèi)了 14 天。

Phi-2 是一個(gè)基礎(chǔ)模型，沒(méi)有通過(guò)人類(lèi)反饋強(qiáng)化學(xué)習(xí) (RLHF) 進(jìn)行對(duì)齊，也沒(méi)有進(jìn)行指令微調(diào)。盡管如此，與經(jīng)過(guò)調(diào)整的現(xiàn)有開(kāi)源模型相比，Phi-2 在毒性和偏見(jiàn)方面仍然表現(xiàn)得更好，如下圖 3 所示。

實(shí)驗(yàn)評(píng)估

首先，該研究在學(xué)術(shù)基準(zhǔn)上對(duì) Phi-2 與常見(jiàn)語(yǔ)言模型進(jìn)行了實(shí)驗(yàn)比較，涵蓋多個(gè)類(lèi)別，包括：

Big Bench Hard (BBH) (3 shot with CoT)
常識(shí)推理（PIQA、WinoGrande、ARC easy and challenge、SIQA）、
語(yǔ)言理解（HellaSwag、OpenBookQA、MMLU（5-shot）、SQuADv2（2-shot）、BoolQ）
數(shù)學(xué)（GSM8k（8 shot））
編碼（HumanEval、MBPP（3-shot））

Phi-2 僅有 27 億個(gè)參數(shù)，卻在各種聚合基準(zhǔn)上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型。值得一提的是，與大 25 倍的 Llama2-70B 模型相比，Phi-2 在多步驟推理任務(wù)（即編碼和數(shù)學(xué)）方面實(shí)現(xiàn)了更好的性能。

此外，盡管模型較小，但 Phi-2 的性能可與最近谷歌發(fā)布的 Gemini Nano 2 相媲美。

由于許多公共基準(zhǔn)可能會(huì)泄漏到訓(xùn)練數(shù)據(jù)中，研究團(tuán)隊(duì)認(rèn)為測(cè)試語(yǔ)言模型性能的最佳方法是在具體用例上對(duì)其進(jìn)行測(cè)試。因此，該研究使用多個(gè)微軟內(nèi)部專(zhuān)有數(shù)據(jù)集和任務(wù)對(duì) Phi-2 進(jìn)行了評(píng)估，并再次將其與 Mistral 和 Llama-2 進(jìn)行比較，平均而言，Phi-2 優(yōu)于 Mistral-7B，Mistral-7B 優(yōu)于 Llama2 模型（7B、13B、70B）。

此外，研究團(tuán)隊(duì)還針對(duì)研究社區(qū)常用的 prompt 進(jìn)行了廣泛的測(cè)試。Phi-2 的表現(xiàn)與預(yù)期一致。例如，對(duì)于一個(gè)用于測(cè)試模型解決物理問(wèn)題的能力的 prompt（最近用于評(píng)估 Gemini Ultra 模型），Phi-2 給出了以下結(jié)果：

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="yl9bw"></sub>

<style id="yl9bw"></style>

<blockquote id="yl9bw"><i id="yl9bw"></i></blockquote>

<sub id="yl9bw"></sub>