LLaMA-2-7B數(shù)學(xué)能力上限已達97.7%?Xwin-Math利用合成數(shù)據(jù)解鎖潛力
合成數(shù)據(jù)持續(xù)解鎖大模型的數(shù)學(xué)推理潛力!
數(shù)學(xué)問題解決能力一直被視為衡量語言模型智能水平的重要指標。通常只有規(guī)模極大的模型或經(jīng)過大量數(shù)學(xué)相關(guān)預(yù)訓(xùn)練的模型才能有機會在數(shù)學(xué)問題上表現(xiàn)出色。
近日,一項由 Swin-Transformer 團隊打造,來自西安交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和微軟亞洲研究院的學(xué)者共同完成的研究工作 Xwin 顛覆了這一認知,揭示了通用預(yù)訓(xùn)練下 7B(即 70 億參數(shù))規(guī)模的語言模型(LLaMA-2-7B)在數(shù)學(xué)問題解決方面已經(jīng)展現(xiàn)出較強的潛力,并可使用基于合成數(shù)據(jù)的有監(jiān)督微調(diào)方法促使模型愈發(fā)穩(wěn)定地將數(shù)學(xué)能力激發(fā)出來。
這項研究發(fā)布在 arXiv 上,題為《Common 7B Language Models Already Possess Strong Math Capabilities》。
- 論文鏈接:https://arxiv.org/pdf/2403.04706.pdf
- 代碼鏈接:https://github.com/Xwin-LM/Xwin-LM
研究團隊首先僅使用 7.5K 數(shù)據(jù),對 LLaMA-2-7B 模型指令微調(diào),進而測評模型在 GSM8K 和 MATH 的表現(xiàn)。實驗結(jié)果表明,當對每一個測試集中的問題從 256 個生成的答案中選擇最佳答案時,測試準確率可分別高達 97.7% 和 72.0%,這一結(jié)果說明即使是通用預(yù)訓(xùn)練下 7B 量級的小模型,也具備生成優(yōu)質(zhì)回答的巨大潛力,這一發(fā)現(xiàn)挑戰(zhàn)了以往的觀點,即強大的數(shù)學(xué)推理潛力并非僅限于大規(guī)模和數(shù)學(xué)相關(guān)預(yù)訓(xùn)練模型。
然而研究也指出,盡管已具備強大的數(shù)學(xué)推理潛力,但當前語言模型的主要問題是難以一致地激發(fā)其內(nèi)在的數(shù)學(xué)能力。例如,在前面的實驗中如果只考慮每個問題的一次生成的答案,那么在 GSM8K 和 MATH 基準測試上的準確率會分別降至 49.5% 和 7.9%。這體現(xiàn)出模型數(shù)學(xué)能力的不穩(wěn)定性問題。為了解決這一問題,研究團隊采用了擴大有監(jiān)督微調(diào)(SFT)數(shù)據(jù)集的方法,并發(fā)現(xiàn)隨著 SFT 數(shù)據(jù)的增多,模型生成正確答案的可靠性被顯著提升。
研究中還提到,通過使用合成數(shù)據(jù),可以有效地擴大 SFT 數(shù)據(jù)集,而且這種方法幾乎與真實數(shù)據(jù)一樣有效。研究團隊利用 GPT-4 Turbo API 生成了合成的數(shù)學(xué)問題與解題過程,并通過簡單的驗證提示詞來確保問題的質(zhì)量。通過這種方法,團隊成功地將 SFT 數(shù)據(jù)集從 7.5K 擴展到約一百萬樣本,實現(xiàn)了近乎完美的縮放定律(Scaling Law)。最終獲得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分別達到了 82.6% 和 40.6% 的準確率,大幅超越此前的 SOTA 模型,甚至可超越一些 70B 量級模型,實現(xiàn)越級提升。而 Xwin-Math-70B 模型在 MATH 評測集上的結(jié)果可達 52.8%,顯著超越了 GPT-4 的早期版本。這是基于 LLaMA 系列基礎(chǔ)模型的研究第一次在 MATH 上超越 GPT-4。
研究人員還定義了 Pass@N 和 PassRatio@N 評測指標,意圖分別測評模型的 N 次輸出中,是否能夠輸出正確答案(表示模型潛在的數(shù)學(xué)能力),以及正確答案的所占比例(表示模型數(shù)學(xué)能力的穩(wěn)定性)。當 SFT 數(shù)據(jù)量較小時,模型的 Pass@256 已經(jīng)很高,進一步擴大 SFT 數(shù)據(jù)規(guī)模后,模型的 Pass@256 提升極小,而 PassRatio@256 則獲得顯著增長。這表明基于合成數(shù)據(jù)的有監(jiān)督微調(diào)是提升模型數(shù)學(xué)能力穩(wěn)定性的有效方式。
此外,研究還提供了對不同推理復(fù)雜性和錯誤類型下擴展行為的洞察。例如,隨著 SFT 數(shù)據(jù)集規(guī)模的增加,模型在解決數(shù)學(xué)問題時的準確率遵循與推理步驟數(shù)量相關(guān)的冪律關(guān)系。通過增加訓(xùn)練樣本中長推理步驟的比例,可以顯著提高模型解決難題的準確率。同時,研究還發(fā)現(xiàn),計算錯誤比推理錯誤更容易被緩解。
在表現(xiàn)模型數(shù)學(xué)推理泛化能力的匈牙利高中數(shù)學(xué)考試中,Xwin-Math 也拿到了 65% 的分數(shù),僅次于 GPT-4。這表明研究中合成數(shù)據(jù)的方式并沒有顯著地過擬合到評測集中,展現(xiàn)出良好的泛化能力。
這項研究不僅展示了合成數(shù)據(jù)在擴展 SFT 數(shù)據(jù)方面的有效性,而且為大型語言模型在數(shù)學(xué)推理能力方面的研究提供了新的視角。研究團隊表示,他們的工作為未來在這一領(lǐng)域的探索和進步奠定了基礎(chǔ),并期待能夠推動人工智能在數(shù)學(xué)問題解決方面取得更大的突破。隨著人工智能技術(shù)的不斷進步,我們有理由期待 AI 在數(shù)學(xué)領(lǐng)域的表現(xiàn)將更加出色,為人類解決復(fù)雜數(shù)學(xué)問題提供更多幫助。