自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLaMA-2-7B數(shù)學(xué)能力上限已達97.7%?Xwin-Math利用合成數(shù)據(jù)解鎖潛力

人工智能
近日,一項由 Swin-Transformer 團隊打造,來自西安交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和微軟亞洲研究院的學(xué)者共同完成的研究工作 Xwin 顛覆了這一認知,揭示了通用預(yù)訓(xùn)練下 7B(即 70 億參數(shù))規(guī)模的語言模型(LLaMA-2-7B)在數(shù)學(xué)問題解決方面已經(jīng)展現(xiàn)出較強的潛力。

合成數(shù)據(jù)持續(xù)解鎖大模型的數(shù)學(xué)推理潛力!

數(shù)學(xué)問題解決能力一直被視為衡量語言模型智能水平的重要指標。通常只有規(guī)模極大的模型或經(jīng)過大量數(shù)學(xué)相關(guān)預(yù)訓(xùn)練的模型才能有機會在數(shù)學(xué)問題上表現(xiàn)出色。

近日,一項由 Swin-Transformer 團隊打造,來自西安交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和微軟亞洲研究院的學(xué)者共同完成的研究工作 Xwin 顛覆了這一認知,揭示了通用預(yù)訓(xùn)練下 7B(即 70 億參數(shù))規(guī)模的語言模型(LLaMA-2-7B)在數(shù)學(xué)問題解決方面已經(jīng)展現(xiàn)出較強的潛力,并可使用基于合成數(shù)據(jù)的有監(jiān)督微調(diào)方法促使模型愈發(fā)穩(wěn)定地將數(shù)學(xué)能力激發(fā)出來。

這項研究發(fā)布在 arXiv 上,題為《Common 7B Language Models Already Possess Strong Math Capabilities》。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2403.04706.pdf
  • 代碼鏈接:https://github.com/Xwin-LM/Xwin-LM

研究團隊首先僅使用 7.5K 數(shù)據(jù),對 LLaMA-2-7B 模型指令微調(diào),進而測評模型在 GSM8K 和 MATH 的表現(xiàn)。實驗結(jié)果表明,當對每一個測試集中的問題從 256 個生成的答案中選擇最佳答案時,測試準確率可分別高達 97.7% 和 72.0%,這一結(jié)果說明即使是通用預(yù)訓(xùn)練下 7B 量級的小模型,也具備生成優(yōu)質(zhì)回答的巨大潛力,這一發(fā)現(xiàn)挑戰(zhàn)了以往的觀點,即強大的數(shù)學(xué)推理潛力并非僅限于大規(guī)模和數(shù)學(xué)相關(guān)預(yù)訓(xùn)練模型。

圖片

然而研究也指出,盡管已具備強大的數(shù)學(xué)推理潛力,但當前語言模型的主要問題是難以一致地激發(fā)其內(nèi)在的數(shù)學(xué)能力。例如,在前面的實驗中如果只考慮每個問題的一次生成的答案,那么在 GSM8K 和 MATH 基準測試上的準確率會分別降至 49.5% 和 7.9%。這體現(xiàn)出模型數(shù)學(xué)能力的不穩(wěn)定性問題。為了解決這一問題,研究團隊采用了擴大有監(jiān)督微調(diào)(SFT)數(shù)據(jù)集的方法,并發(fā)現(xiàn)隨著 SFT 數(shù)據(jù)的增多,模型生成正確答案的可靠性被顯著提升。

研究中還提到,通過使用合成數(shù)據(jù),可以有效地擴大 SFT 數(shù)據(jù)集,而且這種方法幾乎與真實數(shù)據(jù)一樣有效。研究團隊利用 GPT-4 Turbo API 生成了合成的數(shù)學(xué)問題與解題過程,并通過簡單的驗證提示詞來確保問題的質(zhì)量。通過這種方法,團隊成功地將 SFT 數(shù)據(jù)集從 7.5K 擴展到約一百萬樣本,實現(xiàn)了近乎完美的縮放定律(Scaling Law)。最終獲得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分別達到了 82.6% 和 40.6% 的準確率,大幅超越此前的 SOTA 模型,甚至可超越一些 70B 量級模型,實現(xiàn)越級提升。而 Xwin-Math-70B 模型在 MATH 評測集上的結(jié)果可達 52.8%,顯著超越了 GPT-4 的早期版本。這是基于 LLaMA 系列基礎(chǔ)模型的研究第一次在 MATH 上超越 GPT-4。

圖片

研究人員還定義了 Pass@N 和 PassRatio@N 評測指標,意圖分別測評模型的 N 次輸出中,是否能夠輸出正確答案(表示模型潛在的數(shù)學(xué)能力),以及正確答案的所占比例(表示模型數(shù)學(xué)能力的穩(wěn)定性)。當 SFT 數(shù)據(jù)量較小時,模型的 Pass@256 已經(jīng)很高,進一步擴大 SFT 數(shù)據(jù)規(guī)模后,模型的 Pass@256 提升極小,而 PassRatio@256 則獲得顯著增長。這表明基于合成數(shù)據(jù)的有監(jiān)督微調(diào)是提升模型數(shù)學(xué)能力穩(wěn)定性的有效方式。

圖片

此外,研究還提供了對不同推理復(fù)雜性和錯誤類型下擴展行為的洞察。例如,隨著 SFT 數(shù)據(jù)集規(guī)模的增加,模型在解決數(shù)學(xué)問題時的準確率遵循與推理步驟數(shù)量相關(guān)的冪律關(guān)系。通過增加訓(xùn)練樣本中長推理步驟的比例,可以顯著提高模型解決難題的準確率。同時,研究還發(fā)現(xiàn),計算錯誤比推理錯誤更容易被緩解。

圖片

圖片

在表現(xiàn)模型數(shù)學(xué)推理泛化能力的匈牙利高中數(shù)學(xué)考試中,Xwin-Math 也拿到了 65% 的分數(shù),僅次于 GPT-4。這表明研究中合成數(shù)據(jù)的方式并沒有顯著地過擬合到評測集中,展現(xiàn)出良好的泛化能力。

圖片

圖片

這項研究不僅展示了合成數(shù)據(jù)在擴展 SFT 數(shù)據(jù)方面的有效性,而且為大型語言模型在數(shù)學(xué)推理能力方面的研究提供了新的視角。研究團隊表示,他們的工作為未來在這一領(lǐng)域的探索和進步奠定了基礎(chǔ),并期待能夠推動人工智能在數(shù)學(xué)問題解決方面取得更大的突破。隨著人工智能技術(shù)的不斷進步,我們有理由期待 AI 在數(shù)學(xué)領(lǐng)域的表現(xiàn)將更加出色,為人類解決復(fù)雜數(shù)學(xué)問題提供更多幫助。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2023-10-13 19:58:33

Mistral7B模型

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2023-11-27 14:00:00

訓(xùn)練模型

2024-09-07 09:31:20

中鋁智能數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2024-07-02 12:41:27

2015-09-25 11:39:41

大數(shù)據(jù)物聯(lián)網(wǎng)

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)

2024-01-22 08:50:00

AI訓(xùn)練

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2024-10-15 15:30:00

大模型數(shù)據(jù)

2024-09-21 11:03:56

2019-10-23 19:33:24

數(shù)據(jù)科學(xué)保護數(shù)據(jù)匿名化

2024-07-24 12:32:41

2022-11-08 07:40:55

2024-07-29 13:38:06

2023-08-15 10:12:11

TypeScript標準庫
點贊
收藏

51CTO技術(shù)棧公眾號