自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o!合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐

人工智能 新聞
微軟下一代14B小模型Phi-4出世了!僅用了40%合成數(shù)據(jù),在數(shù)學(xué)性能上擊敗了GPT-4o,最新36頁(yè)技術(shù)報(bào)告出爐。

140億參數(shù),40%合成數(shù)據(jù),年度SLM之王誕生!

最近,微軟下一代小模型Phi-4正式亮相。在GPQA和MATH基準(zhǔn)上,其數(shù)學(xué)性能直接碾壓GPT-4o、Gemini Pro 1.5。

而且,Phi-4粉碎了其他小模型,與Llama-3.3-70B-Instruct的性能不相上下。

圖片

甚至,在2024 ACM數(shù)學(xué)競(jìng)賽問(wèn)題上,Phi-4取得了91.8%準(zhǔn)確率。

Phi系列前負(fù)責(zé)人Sebastien Bubeck看到這個(gè)結(jié)果后,感到非常驚訝。

圖片

下面這個(gè)例子,展示了Phi-4在數(shù)學(xué)推理方面的能力,不僅神速還準(zhǔn)確。

圖片

深挖背后,Phi-4繼承了Phi系列前幾代的傳統(tǒng),同樣是在教科書(shū)級(jí)別的「合成數(shù)據(jù)」上完成了訓(xùn)練。

圖片

合成數(shù)據(jù)比例高達(dá)40%

除了合成數(shù)據(jù),它共實(shí)現(xiàn)了三大核心技術(shù)突破,包括精選的原生數(shù)據(jù),以及領(lǐng)先的后訓(xùn)練技術(shù),如DPO中的關(guān)鍵token搜索(Pivotal Tokens Search)。

Phi-4的成功,從側(cè)面推翻了Ilya、Alexander Wang多位大佬宣稱(chēng)的「數(shù)據(jù)墻」的觀點(diǎn)。

圖片

目前,新模型在微軟Azure AI Foundry上提供,下周將在HuggingFace上線。

數(shù)學(xué)擊敗GPT-4o,36頁(yè)技術(shù)報(bào)告出爐

Phi-4與大多數(shù)語(yǔ)言模型不同,那些模型的預(yù)訓(xùn)練主要基于諸如網(wǎng)絡(luò)內(nèi)容或代碼這類(lèi)自然產(chǎn)生的數(shù)據(jù)來(lái)源,而Phi-4則有策略地在整個(gè)訓(xùn)練過(guò)程中融入了合成數(shù)據(jù)。

雖然Phi系列先前的模型表現(xiàn)主要來(lái)源于蒸餾了教師模型(特別是GPT-4)的能力,但Phi-4在STEM領(lǐng)域的問(wèn)答能力上顯著超越了其教師模型,證明了數(shù)據(jù)生成和后訓(xùn)練技術(shù)比模型蒸餾更能帶來(lái)能力上的提升。

圖片

論文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分核心技術(shù)構(gòu)成:

- 預(yù)訓(xùn)練和中訓(xùn)練的合成數(shù)據(jù)

- 高質(zhì)量有機(jī)數(shù)據(jù)的篩選和過(guò)濾

- 后訓(xùn)練

得益于這些創(chuàng)新,Phi-4在推理相關(guān)任務(wù)上的性能與更大的模型相當(dāng),甚至超越它們。

例如,在許多廣泛使用的推理相關(guān)基準(zhǔn)測(cè)試中,其性能達(dá)到或超過(guò)了Llama-3.1-405B。

通過(guò)表1可以發(fā)現(xiàn),Phi-4在GPQA(研究生水平的STEM問(wèn)答)和MATH(數(shù)學(xué)競(jìng)賽)基準(zhǔn)測(cè)試中均顯著超過(guò)了其教師模型GPT-4o。

圖片

表1 Phi-4在經(jīng)典基準(zhǔn)測(cè)試上的表現(xiàn)

為了驗(yàn)證Phi-4是否存在過(guò)擬合和數(shù)據(jù)污染問(wèn)題,研究者在2024年11月的AMC-10和AMC-12數(shù)學(xué)競(jìng)賽上測(cè)試了該模型。

這兩場(chǎng)競(jìng)賽中的數(shù)據(jù)均未曾在訓(xùn)練時(shí)被收集過(guò),所以其競(jìng)賽表現(xiàn)可以有效地作為檢驗(yàn)?zāi)P头夯阅艿闹笜?biāo)。

從下圖中可以看出,Phi-4雖然僅僅只有14B,但是其平均得分甚至大幅超過(guò)了其教師模型GPT-4o。

圖片

Phi-4在數(shù)學(xué)競(jìng)賽問(wèn)題上優(yōu)于許多更大的模型,包括Gemini Pro 1.5

合成數(shù)據(jù)的優(yōu)勢(shì)

合成數(shù)據(jù)構(gòu)成了Phi-4訓(xùn)練數(shù)據(jù)的大部分,其通過(guò)多種技術(shù)生成,包括多智能體提示(multi-agent prompting)、自修訂工作流(self-revision workflows)和指令反轉(zhuǎn)(instruction reversal)。

這些技術(shù)方法能夠構(gòu)建促使模型具備更強(qiáng)推理和問(wèn)題解決能力的數(shù)據(jù)集,解決了傳統(tǒng)無(wú)監(jiān)督數(shù)據(jù)集中的一些弱點(diǎn)。

合成數(shù)據(jù)不是有機(jī)數(shù)據(jù)的廉價(jià)替代品,而是相對(duì)于有機(jī)數(shù)據(jù)具有幾個(gè)直接優(yōu)勢(shì)。

數(shù)據(jù)結(jié)構(gòu)化和支持漸進(jìn)式學(xué)習(xí)

在有機(jī)數(shù)據(jù)集中,token之間的關(guān)系往往復(fù)雜且間接??赡苄枰S多推理步驟才能將當(dāng)前token與下一個(gè)token聯(lián)系起來(lái),這使得模型難以從預(yù)測(cè)下一個(gè)token的目標(biāo)任務(wù)中有效學(xué)習(xí)。

相比之下,由于從語(yǔ)言模型生成的每個(gè)token都是根據(jù)前面的token預(yù)測(cè)而來(lái)的,而這樣結(jié)構(gòu)化的token也可以讓模型的訓(xùn)練變得更加高效。

將訓(xùn)練與推理上下文對(duì)齊

合成數(shù)據(jù)可以規(guī)避掉模型從有機(jī)數(shù)據(jù)集中學(xué)習(xí)到一些并不適合后續(xù)訓(xùn)練的數(shù)據(jù)特性。

比如說(shuō),網(wǎng)絡(luò)論壇往往有著自身特定的交流風(fēng)格、用語(yǔ)習(xí)慣等,而人們與大模型對(duì)話時(shí),其語(yǔ)言風(fēng)格、交互邏輯又是另外一種情況。

此時(shí)如果直接采用網(wǎng)絡(luò)論壇的數(shù)據(jù)進(jìn)行訓(xùn)練,假設(shè)有一些內(nèi)容的風(fēng)格比較獨(dú)特,模型就會(huì)認(rèn)為在對(duì)話中該內(nèi)容出現(xiàn)的幾率會(huì)很低。因此在后續(xù)對(duì)話中模型進(jìn)行推理時(shí),便不能將對(duì)話內(nèi)容精準(zhǔn)匹配到對(duì)應(yīng)的論壇內(nèi)容上去。

而合成數(shù)據(jù)會(huì)將網(wǎng)絡(luò)論壇中的內(nèi)容改寫(xiě)成與LLM交互時(shí)的語(yǔ)言風(fēng)格,使得其在LLM聊天推理的上下文中更容易匹配。

合成數(shù)據(jù)在Phi-4的后訓(xùn)練中也發(fā)揮著關(guān)鍵作用,其中采用了諸如拒絕采樣和直接偏好優(yōu)化(DPO)的新方法來(lái)優(yōu)化模型的輸出。

合成數(shù)據(jù)的來(lái)源

預(yù)訓(xùn)練和訓(xùn)練中數(shù)據(jù)

為此,研究團(tuán)隊(duì)創(chuàng)建了50種廣泛的合成數(shù)據(jù)集類(lèi)型,每個(gè)數(shù)據(jù)集都依賴(lài)于不同的種子和不同的多階段提示程序,涵蓋了各種主題、技能和交互性質(zhì),累計(jì)約4000億個(gè)無(wú)權(quán)重的token。

通過(guò)以下方法,他們確保了合成數(shù)據(jù)并不被一些低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)所污染,從而成為高質(zhì)量訓(xùn)練數(shù)據(jù)集。

種子數(shù)據(jù)集的構(gòu)建

1. 網(wǎng)頁(yè)和代碼種子:從網(wǎng)頁(yè)、書(shū)籍和代碼庫(kù)中提取摘錄和代碼片段,重點(diǎn)關(guān)注具有高復(fù)雜性、推理深度和教育價(jià)值的內(nèi)容。為確保質(zhì)量,團(tuán)隊(duì)采用兩階段篩選流程:首先,識(shí)別需要關(guān)注的重點(diǎn)高價(jià)值頁(yè)面,其次,將選定的頁(yè)面分割成段落,并對(duì)每個(gè)段落的客觀和推理內(nèi)容進(jìn)行評(píng)分。

2. 問(wèn)題數(shù)據(jù)集:從網(wǎng)站、論壇和問(wèn)答平臺(tái)上收集了大量問(wèn)題。然后使用投票技術(shù)對(duì)這些問(wèn)題進(jìn)行篩選以平衡難度。具體來(lái)說(shuō),團(tuán)隊(duì)為每個(gè)問(wèn)題生成多個(gè)獨(dú)立的答案,并應(yīng)用多數(shù)投票來(lái)評(píng)估答案的一致性。然后丟棄所有答案都一致(表明問(wèn)題太簡(jiǎn)單)或答案完全不一致(表明問(wèn)題太難或模糊)的問(wèn)題。

3. 從多種來(lái)源創(chuàng)建問(wèn)答對(duì):利用語(yǔ)言模型從書(shū)籍、科學(xué)論文和代碼等有機(jī)來(lái)源中提取問(wèn)答對(duì)。這種方法不僅僅依賴(lài)于在文本中識(shí)別顯式的問(wèn)答對(duì)。相反,它涉及一個(gè)旨在檢測(cè)文本中的推理鏈或邏輯進(jìn)程的pipeline。語(yǔ)言模型識(shí)別推理或問(wèn)題解決過(guò)程中的關(guān)鍵步驟,并將它們重新表述為問(wèn)題和相應(yīng)的答案。實(shí)驗(yàn)表明,如果操作得當(dāng),在生成內(nèi)容上進(jìn)行訓(xùn)練(在學(xué)術(shù)和內(nèi)部基準(zhǔn)上的改進(jìn)方面)可以比在原始內(nèi)容上進(jìn)行訓(xùn)練更加有效。

重寫(xiě)和增強(qiáng):種子通過(guò)多步驟提示工作流程轉(zhuǎn)化為合成數(shù)據(jù)。這包括將給定段落中的大部分有用內(nèi)容重寫(xiě)為練習(xí)、討論或結(jié)構(gòu)化推理任務(wù)。

自我修訂:初始響應(yīng)會(huì)通過(guò)一個(gè)反饋回路進(jìn)行迭代式優(yōu)化,在該回路中,模型會(huì)依據(jù)側(cè)重于推理和事實(shí)準(zhǔn)確性的評(píng)判標(biāo)準(zhǔn)進(jìn)行自我評(píng)判,并隨后改進(jìn)自身的輸出內(nèi)容。

指令反轉(zhuǎn)用于代碼和其他任務(wù):為了提高模型從指令生成輸出的能力,團(tuán)隊(duì)采用了指令反轉(zhuǎn)技術(shù)。例如,他們從代碼數(shù)據(jù)語(yǔ)料庫(kù)中選取現(xiàn)有的代碼片段,并利用它們生成包含問(wèn)題描述或任務(wù)提示的相應(yīng)指令。只有原始代碼和根據(jù)生成指令而重新生成的代碼之間相似度高的指令才會(huì)被保留,以確保指令與輸出內(nèi)容相匹配。

后訓(xùn)練數(shù)據(jù)

在后訓(xùn)練階段中,數(shù)據(jù)集主要由兩部分組成:

- 監(jiān)督微調(diào)(SFT)數(shù)據(jù)集:使用從公開(kāi)數(shù)據(jù)集和合成數(shù)據(jù)中精心篩選的用戶(hù)提示,再生成多個(gè)模型響應(yīng),并使用基于LLM的評(píng)估過(guò)程選擇最佳響應(yīng)。

- 直接偏好優(yōu)化(DPO):基于拒絕采樣和LLM評(píng)估生成DPO對(duì),其中部分基于創(chuàng)建關(guān)鍵詞token對(duì)的方法。

研究者利用生成的SFT數(shù)據(jù)和DPO數(shù)據(jù)對(duì),來(lái)緩解模型的幻覺(jué)問(wèn)題。

如下圖6結(jié)果顯示,這種方法大大減少了SimpleQA中的幻覺(jué)現(xiàn)象。

圖片

預(yù)訓(xùn)練

Phi-4同樣基于Transformer架構(gòu)構(gòu)建,具有14B參數(shù)和默認(rèn)的上下文長(zhǎng)度4096。在訓(xùn)練中期,擴(kuò)展到16K上下文。

由于預(yù)訓(xùn)練模型不擅長(zhǎng)遵循指令,因此使用需要答案采用特定格式(例如簡(jiǎn)單評(píng)估)的零樣本評(píng)估不是很有參考價(jià)值。

因此,團(tuán)隊(duì)采用了內(nèi)部實(shí)現(xiàn)的基準(zhǔn)測(cè)試進(jìn)行預(yù)訓(xùn)練評(píng)估,該基準(zhǔn)測(cè)試對(duì)各種任務(wù)使用混合的對(duì)數(shù)似然與少量樣本提示。

具體來(lái)說(shuō),他們對(duì) MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用對(duì)數(shù)似然評(píng)估,而對(duì)TriviaQA(TQA)、MBPP、MATH和GSM8k分別使用 1、3、4和8個(gè)少樣本的示例,以幫助模型遵循答案格式。

圖片

表2 phi-4較phi-3-medium在預(yù)訓(xùn)練后基準(zhǔn)測(cè)試評(píng)估的提升值

在長(zhǎng)上下文基準(zhǔn)HELMET測(cè)試中,Phi-4在召回率、最大上下文等指標(biāo)上,幾乎取得了領(lǐng)先的優(yōu)勢(shì)。

圖片

后訓(xùn)練

如前所述,在后訓(xùn)練階段過(guò)程中,最重要的一個(gè)技術(shù)是關(guān)鍵token搜索(PTS),那么這究竟是什么呢?

關(guān)鍵token搜索(Pivotal Token Search)

當(dāng)模型對(duì)一個(gè)提示逐token生成回應(yīng)時(shí),每個(gè)token都對(duì)應(yīng)著模型回答的一個(gè)前綴。

對(duì)于每個(gè)這樣的前綴,可以考慮兩個(gè)關(guān)鍵token:一是在改前綴下,模型回答正確的條件概率;另一個(gè)是該token帶來(lái)的概率增量,即生成這個(gè)token前后正確率的差值。

其實(shí),在AI模型生成答案時(shí),往往只有少數(shù)幾個(gè)關(guān)鍵token決定了整個(gè)答案的正確與否。

在研究中,團(tuán)隊(duì)觀察到一個(gè)有趣的現(xiàn)象是:當(dāng)模型在解答數(shù)學(xué)問(wèn)題時(shí),僅僅生成了negative關(guān)鍵token,就讓原本可能失敗的解答轉(zhuǎn)向了成功。

而隨后,它生成了(a token又可能讓正確率急劇下降。

圖片

現(xiàn)在,將這個(gè)方法與DPO訓(xùn)練方法結(jié)合思考后,發(fā)現(xiàn)了幾個(gè)值得注意的問(wèn)題。

如上圖3所示,實(shí)驗(yàn)中有許多token概率遠(yuǎn)低于關(guān)鍵token「negative」的0.31,這些token會(huì)在訓(xùn)練中產(chǎn)生噪聲,稀釋來(lái)自關(guān)鍵token的有效信號(hào)。

更糟糕的是,像(a這樣導(dǎo)致解題不穩(wěn)定的token,反而會(huì)因其低概率(0.12)收到強(qiáng)烈的正向?qū)W習(xí)信號(hào)。

此外,直覺(jué)表明,當(dāng)兩個(gè)文本內(nèi)容出現(xiàn)實(shí)質(zhì)性偏差時(shí),比較它們各自下一個(gè)token概率(DPO的做法)可能失去意義。

總之,更有意義的信號(hào),應(yīng)該來(lái)自于文本開(kāi)始偏離時(shí)的首批token。

為了緩解之前的問(wèn)題,微軟團(tuán)隊(duì)提出了一種創(chuàng)新的方法——關(guān)鍵token搜索(PTS)。

這個(gè)方法專(zhuān)門(mén)針對(duì)單個(gè)關(guān)鍵token生成偏好數(shù)據(jù),在使用DPO優(yōu)化效果精準(zhǔn)作用于特定token。

PTS的核心任務(wù)是,在完整的token序列(T_full = t1, t2, ...)中找出那些關(guān)鍵token。

具體來(lái)說(shuō),它需要找出那些能顯著影響成功率的token的位置,即p(success | t1, ..., ti)。

PTS會(huì)將發(fā)現(xiàn)的關(guān)鍵token轉(zhuǎn)化為訓(xùn)練數(shù)據(jù),先將Q + t1, ..., ti-1作為查詢(xún)基準(zhǔn),再選擇能提高/降低成功率的單個(gè)token分別作為「接受」和「拒絕」的樣本。

雖然PTS使用的二分查找算法不能保證找出所有的關(guān)鍵token,但它具有兩個(gè)重要特性。

- 找到的一定是關(guān)鍵token

- 如果成功概率再解題過(guò)程中接近單調(diào)變化,則能找出所有關(guān)鍵token

下圖5所示,是使用PTS生成的偏好數(shù)據(jù)的示例。

圖片

在數(shù)學(xué)問(wèn)答示例中,研究發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,關(guān)鍵token往往不是明顯的錯(cuò)誤,而是引導(dǎo)模型走向不同解題路徑的選擇點(diǎn)。

比如,方法A——分別乘以分母;方法B——直接交叉相乘。

雖然這兩種方法在數(shù)學(xué)上都是正確的,但對(duì)于模型來(lái)說(shuō),往往后者更加穩(wěn)健。

通過(guò)PTS生成的訓(xùn)練數(shù)據(jù),可以幫助Phi-4在這些關(guān)鍵決策點(diǎn)上做出更優(yōu)的選擇。

以小博大,Phi-4贏麻了

基于以上技術(shù)的創(chuàng)新,Phi-4才能在各項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出驚艷的一面。

上表1中,相較于同級(jí)別的Qwen-2.5-14B-Instruct模型,在12個(gè)基準(zhǔn)測(cè)試中,Phi-4在九項(xiàng)測(cè)試中贏得優(yōu)勢(shì)。

而且,研究人員認(rèn)為Phi-4在SimpleQA上的表現(xiàn)實(shí)際上比Qwen更好。

事實(shí)上,他們的基礎(chǔ)模型在SimpleQA上獲得了比Qwen-2.5-14B-Instruct更高的基準(zhǔn)分?jǐn)?shù),只不過(guò)團(tuán)隊(duì)在后訓(xùn)練中有意修改了模型的行為,以?xún)?yōu)化用戶(hù)體驗(yàn)而不是追求更高的基準(zhǔn)分?jǐn)?shù)。

圖片

此外,Phi-4在STEM問(wèn)答任務(wù)上展現(xiàn)出卓越的實(shí)力。

比如,在GPQA(研究生水平的STEM問(wèn)題)和MATH(數(shù)學(xué)競(jìng)賽)上,它甚至超過(guò)了其教師模型GPT-4。

在HumanEval和HumanEval+衡量的編碼能力方面,它也比任何其他開(kāi)源模型(包括更大的Llama模型)得分更高。

而Phi-4表現(xiàn)欠佳的領(lǐng)域,分別在SimpleQA、DROP和IFEval上。

至于前兩個(gè),研究人員認(rèn)為simple-evals報(bào)告的數(shù)字過(guò)于簡(jiǎn)化,并不能準(zhǔn)確反映模型在基準(zhǔn)問(wèn)題上的表現(xiàn)。

然而,IFEval揭示了Phi-4的一個(gè)真實(shí)的弱點(diǎn)——在嚴(yán)格遵循指令方面存在困難。

在未來(lái)下一步研究中,研究人員相信通過(guò)有針對(duì)性的合成數(shù)據(jù),讓Phi系列模型的指令跟隨性能得到顯著改善。

接下來(lái),還真有點(diǎn)期待,下一個(gè)Phi系列小模型的發(fā)布了。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-13 13:04:13

模型Phi-4AI

2025-02-28 09:32:00

2025-02-27 13:45:00

2024-09-24 11:13:14

2024-05-30 12:50:05

2024-12-26 07:10:00

2025-02-27 09:51:04

2024-05-21 12:23:17

2024-11-28 15:51:19

GPT-4o微軟

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2025-01-21 10:10:56

2024-10-17 14:05:34

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-06-05 08:29:35

2024-10-17 13:30:00

2024-05-16 12:38:05

GPT-4o圖像方式

2025-01-02 13:00:00

2024-07-24 13:18:17

2024-12-13 14:03:44

模型訓(xùn)練AI

2025-04-08 02:26:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)