自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ynfoe"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

普林斯頓開源34B數(shù)學(xué)大模型：性能媲美谷歌Minerva，參數(shù)少一半！550億token專業(yè)數(shù)據(jù)訓(xùn)練

作者：新智元 2023-11-17 23:05:18

人工智能新聞

在數(shù)學(xué)領(lǐng)域，一個全新的時代即將到來。LLEMMA，一個強(qiáng)大的數(shù)學(xué)專用語言模型，正在帶來革命性的性能、數(shù)據(jù)集和解決方案。它不僅超越了現(xiàn)有開源模型，還為數(shù)學(xué)研究者們提供了開放的共享和合作機(jī)會。讓我們一起探索這個數(shù)學(xué)界的巨大突破。

數(shù)學(xué)，作為科學(xué)的基石，一直以來都是研究和創(chuàng)新的關(guān)鍵領(lǐng)域。

最近，普林斯頓大學(xué)等七家機(jī)構(gòu)聯(lián)合發(fā)布了一個專門用于數(shù)學(xué)的大語言模型LLEMMA，性能媲美谷歌Minerva 62B，并公開了其模型、數(shù)據(jù)集和代碼，為數(shù)學(xué)研究帶來了前所未有的機(jī)會和資源。

論文地址：https://arxiv.org/abs/2310.10631

數(shù)據(jù)集地址：https://huggingface.co/datasets/EleutherAI/proof-pile-2

項目地址：https://github.com/EleutherAI/math-lm

LLEMMA承襲了Code Llama的基礎(chǔ)，在Proof-Pile-2上進(jìn)行了預(yù)訓(xùn)練。

Proof-Pile-2，一個龐大的混合數(shù)據(jù)集，包含著550億token的信息，其中包括科學(xué)論文、富含數(shù)學(xué)內(nèi)容的網(wǎng)頁數(shù)據(jù)以及數(shù)學(xué)代碼。

這個數(shù)據(jù)集的一部分，Algebraic Stack，更是匯集了來自17種語言的11B數(shù)據(jù)集，覆蓋了數(shù)值、符號和數(shù)學(xué)證明。

擁有7億和34億個參數(shù)，在MATH基準(zhǔn)測試中表現(xiàn)卓越，超越了所有已知的開源基礎(chǔ)模型。

在與Google Research開發(fā)的專門用于數(shù)學(xué)的封閉模型相比，參數(shù)量只有Minerva 62B一半的條件下，Llemma 34B獲得了幾乎相同的性能。

Llemma在等參數(shù)基礎(chǔ)上超越了Minerva的問題解決性能，通過應(yīng)用計算工具和進(jìn)行形式定理證明，為數(shù)學(xué)問題的解決提供了無限可能。

它能輕松使用Python解釋器和形式定理證明器，進(jìn)一步展示了其解決數(shù)學(xué)問題的能力。

由于Algebraic Stack中對形式證明數(shù)據(jù)的特別重視，Llemma是第一個展示出少樣本定理證明能力的開放基礎(chǔ)模型。

圖

研究人員還開放共享了LLEMMA的所有訓(xùn)練數(shù)據(jù)和代碼。與以往的數(shù)學(xué)模型不同，LLEMMA是一個開源的、開放共享的模型，為整個科研社區(qū)敞開大門。

研究人員試圖量化模型記憶的效果。令人驚訝的是，他們發(fā)現(xiàn)Llemma對于訓(xùn)練集中出現(xiàn)的問題并沒有變得更加準(zhǔn)確。由于代碼和數(shù)據(jù)是開源的，研究人員鼓勵其他人復(fù)制和擴(kuò)展他們的分析。

訓(xùn)練數(shù)據(jù)和實驗配置

LLEMMA是一個專門用于數(shù)學(xué)的大型語言模型，它在Code Llama的基礎(chǔ)上繼續(xù)在Proof-Pile-2上進(jìn)行預(yù)訓(xùn)練，Proof-Pile-2是一個包含科學(xué)論文、含有數(shù)學(xué)內(nèi)容的網(wǎng)頁數(shù)據(jù)和數(shù)學(xué)代碼的包含了550億token的混合數(shù)據(jù)集。

其中的代碼部分AlgebraicStack包含了17種語言源代碼的11B數(shù)據(jù)集，涵蓋數(shù)值、符號和形式數(shù)學(xué)，并已開源。

LLEMMA的每個模型均從Code Llama初始化。Code Llama模型是從Llama 2初始化的decoder-only的語言模型。

作者使用標(biāo)準(zhǔn)的自回歸語言建模目標(biāo)在Proof-Pile-2上繼續(xù)訓(xùn)練Code Llama模型，對7B模型進(jìn)行了200B token的訓(xùn)練，對34B模型進(jìn)行了50B token的訓(xùn)練。

評估方法和實驗結(jié)果

作者使用Proof-Pile-2對Code Llama進(jìn)行繼續(xù)預(yù)訓(xùn)練，并且在MATH和GSM8k等多個數(shù)學(xué)問題解決任務(wù)上對LLEMMA進(jìn)行few-shot評估。

研究人員發(fā)現(xiàn)LLEMMA在這些任務(wù)上都有顯著的提升，并且能夠適應(yīng)不同的問題類型和難度。

即便是在極高難度的數(shù)學(xué)題中，LLEMMA 34B也能夠展示出與其他開放式基礎(chǔ)模型相比更強(qiáng)大的數(shù)學(xué)能力。

在數(shù)學(xué)基準(zhǔn)測試上，LLEMMA在Proof-Pile-2上的持續(xù)預(yù)訓(xùn)練改善了五個數(shù)學(xué)基準(zhǔn)測試的few-shot性能。

LLEMMA 34B在GSM8k上的改進(jìn)比Code Llama高出20個百分點，在MATH上高出13個百分點。LLEMMA 7B也優(yōu)于相似大小的專有的Minerva模型，這證明了在Proof-Pile-2上進(jìn)行預(yù)訓(xùn)練能有效提高大模型的數(shù)學(xué)解題能力。

在利用計算工具，如Python等解決數(shù)學(xué)問題方面，在MATH+Python和GSM8k+Python任務(wù)上，LLEMMA都比Code Llama更勝一籌。

在使用工具的 MATH 和 GSM8k 數(shù)據(jù)集上，LLEMMA 的性能也高于不使用工具時的性能。

在數(shù)學(xué)證明任務(wù)上，LLEMMA也表現(xiàn)優(yōu)異。

非正式到正式證明的任務(wù)目標(biāo)是在給定一個正式陳述、一個非正式的LATEX陳述和一個非正式的LATEX證明的情況下，生成一個正式證明，然后通過證明助手進(jìn)行驗證。

正式到正式證明則是通過生成一系列證明步驟（策略）來證明一個正式陳述。結(jié)果表明，LLEMMA在Proof-Pile-2上的持續(xù)預(yù)訓(xùn)練改善了這兩個正式定理證明任務(wù)的few-shot性能。

LLEMMA不僅擁有令人矚目的性能、還開放了革命性的數(shù)據(jù)集、展現(xiàn)了驚人的問題解決能力。

開源共享的精神，標(biāo)志著數(shù)學(xué)界進(jìn)入了一個新的時代。數(shù)學(xué)的未來在這里，而我們每一個數(shù)學(xué)愛好者、研究者和教育者都將從中受益。

LLEMMA的出現(xiàn)為我們提供了前所未有的工具，讓數(shù)學(xué)問題的解決變得更加高效和創(chuàng)新。

此外，開放共享的理念也將促進(jìn)全球科研社區(qū)更加深入的合作，共同推動科學(xué)的進(jìn)步。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="jdv5u"><p id="jdv5u"></p></sub>

<sub id="jdv5u"></sub>