自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="uerge"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

北大千問(wèn)團(tuán)隊(duì)推出數(shù)學(xué)專用版CriticGPT，“找茬”讓大模型進(jìn)步更快

作者：量子位 2024-07-08 08:39:00

人工智能新聞

在無(wú)需訓(xùn)練的設(shè)置下，驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

批評(píng)不僅能讓人進(jìn)步，也能讓大模型的能力提升。

OpenAI就用這個(gè)思路造了個(gè)“找茬模型”CriticGPT。非常巧合的是，就在CriticGPT放出的前幾天，北大聯(lián)合千問(wèn)等團(tuán)隊(duì)以類似的思路設(shè)計(jì)出了“數(shù)學(xué)專用版”CriticGPT。

在無(wú)需訓(xùn)練的設(shè)置下，驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

在GSM8K數(shù)據(jù)集上，它可以讓模型的準(zhǔn)確率從86.6%提升到88.2%。

CriticGPT的核心思路是在代碼中故意設(shè)置bug并進(jìn)行詳細(xì)標(biāo)注，然后用得到的數(shù)據(jù)訓(xùn)練出會(huì)debug的模型。

北大團(tuán)隊(duì)發(fā)現(xiàn)，這種方法不僅在代碼當(dāng)中有用，也能幫助語(yǔ)言模型解決數(shù)學(xué)問(wèn)題。

于是團(tuán)隊(duì)利用相似的思路，把代碼換成數(shù)學(xué)問(wèn)題，推出了“數(shù)學(xué)版CriticGPT”——Math-Minos。

用GPT4逐步提出修正意見(jiàn)

在數(shù)學(xué)推理領(lǐng)域，驗(yàn)證解決方案的正確性，是確保推理質(zhì)量的關(guān)鍵步驟。

然而，現(xiàn)有的數(shù)學(xué)驗(yàn)證器大多依賴于二元分類標(biāo)簽進(jìn)行訓(xùn)練，這種方式在提供正確或錯(cuò)誤原因的解釋上存在明顯不足，無(wú)法給驗(yàn)證器提供足夠充分的監(jiān)督信號(hào)來(lái)訓(xùn)練。

Math-Minos則克服了這一局限，提供了更深入的解釋，極大地豐富了驗(yàn)證器的訓(xùn)練信息。

它引入了逐步的自然語(yǔ)言反饋作為理由標(biāo)簽，不僅指出了解決方案的正誤，還能逐步分析出錯(cuò)誤的原因。

在自然語(yǔ)言反饋的獲取上，研究團(tuán)隊(duì)一開(kāi)始使用GPT-4生成訓(xùn)練數(shù)據(jù)，但通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，即使是GPT-4，在逐步評(píng)價(jià)數(shù)學(xué)推理任務(wù)時(shí)也會(huì)出現(xiàn)一定比例的錯(cuò)誤。

為了一定程度避免這個(gè)問(wèn)題，研究人員通過(guò)在提示中引入步驟級(jí)別的二元分類標(biāo)簽，簡(jiǎn)化了GPT-4的任務(wù)，使得GPT-4能夠更準(zhǔn)確地生成評(píng)估。

首先，通過(guò)監(jiān)督式微調(diào)，使用自然語(yǔ)言反饋?zhàn)鳛橛?xùn)練數(shù)據(jù)，有效提升了模型的評(píng)估能力。

其次，通過(guò)標(biāo)準(zhǔn)的ORM（Outcome Reward Model，輸出獎(jiǎng)勵(lì)模型）和PRM（Process Reward Model，過(guò)程獎(jiǎng)勵(lì)模型）訓(xùn)練，實(shí)現(xiàn)了高效的推理，這種做法有兩個(gè)好處。

一是通過(guò)兩階段訓(xùn)練，可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。

由于監(jiān)督信號(hào)的稀疏性，訓(xùn)練二分類的數(shù)據(jù)往往遠(yuǎn)多于監(jiān)督微調(diào)的數(shù)據(jù)，而研究發(fā)現(xiàn)，僅需要少量的監(jiān)督微調(diào)數(shù)據(jù)，就可以很大程度提升模型的評(píng)估能力。

另一方面，在驗(yàn)證器進(jìn)行驗(yàn)證時(shí)，不需要顯示地生成自然語(yǔ)言反饋，讓推理過(guò)程更高效。

ORM任務(wù)表現(xiàn)明顯提升

總得來(lái)看，研究人員在訓(xùn)練階段添加了30K的自然語(yǔ)言反饋數(shù)據(jù)，為Mistral-7B驗(yàn)證器帶來(lái)了數(shù)學(xué)能力的提升，在Best-of-256的實(shí)驗(yàn)設(shè)置下：

在ORM的設(shè)置下，MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從86.2%提升到87.3%，在MATH數(shù)據(jù)集從35.9%提升到37.4%。

在PRM的設(shè)置下，MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到87.6%，在MATH數(shù)據(jù)集從36.7%提升到37.8%。

在與Self-Consistency結(jié)合的設(shè)置下，MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到88.2%，在MATH數(shù)據(jù)集從37.8%提升到38.6%。

在ORM和PRM任務(wù)設(shè)置中，Math-Minos均展現(xiàn)出了優(yōu)越的性能，特別是在ORM設(shè)置中，其改進(jìn)更為顯著。

另外，研究團(tuán)隊(duì)還對(duì)生成器在步驟級(jí)別產(chǎn)生的錯(cuò)誤進(jìn)行了深入分析，將其歸類為五種類型——無(wú)關(guān)錯(cuò)誤、累積錯(cuò)誤、計(jì)算錯(cuò)誤、邏輯錯(cuò)誤和其他錯(cuò)誤。

分析結(jié)果表明，在多步驟推理中，步驟錯(cuò)誤的可能原因有很多種，而且模型在這些錯(cuò)誤類型中都有可能出錯(cuò)，這進(jìn)一步強(qiáng)調(diào)了引入自然語(yǔ)言反饋來(lái)指導(dǎo)模型學(xué)習(xí)的重要性。

實(shí)驗(yàn)發(fā)現(xiàn)，在兩個(gè)數(shù)據(jù)集上，累積錯(cuò)誤（即一個(gè)步驟的錯(cuò)誤很可能直接導(dǎo)致所有后續(xù)步驟的錯(cuò)誤）在所有錯(cuò)誤類型中占到的比例最高。

不同數(shù)據(jù)集上的錯(cuò)誤分布也有不同的特點(diǎn)，在相對(duì)簡(jiǎn)單的GSM8K上，計(jì)算錯(cuò)誤更多；在更困難的MATH數(shù)據(jù)集上，邏輯錯(cuò)誤更多。

通過(guò)構(gòu)建元評(píng)估集，研究團(tuán)隊(duì)評(píng)估了驗(yàn)證器在沒(méi)有生成器影響下，準(zhǔn)確判斷最終答案的能力。

結(jié)果顯示，Math-Minos在訓(xùn)練過(guò)程中的元評(píng)估一致優(yōu)于傳統(tǒng)的ORM，并且展現(xiàn)出更快的收斂速度和更精準(zhǔn)的判斷能力。

同時(shí)實(shí)驗(yàn)結(jié)果也表明，Math-Minos具有很強(qiáng)的Scale Up的潛力。

總之，Math-Minos的開(kāi)發(fā)不僅提升了數(shù)學(xué)驗(yàn)證器的性能，更為自然語(yǔ)言處理領(lǐng)域提供了一種新的訓(xùn)練范式。

研究團(tuán)隊(duì)希望這項(xiàng)工作能夠啟發(fā)未來(lái)研究，探索自然語(yǔ)言反饋與分類式驗(yàn)證器的潛在整合，推動(dòng)大型語(yǔ)言模型在復(fù)雜推理任務(wù)上的能力。

論文地址：https://arxiv.org/abs/2406.14024
GitHub：https://github.com/KbsdJames/MATH-Minos

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)學(xué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)