自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

PNAS最新研究:81%解題率,神經(jīng)網(wǎng)絡(luò) Codex 推開(kāi)高等數(shù)學(xué)世界大門(mén)

人工智能 新聞
機(jī)器生成的問(wèn)題已經(jīng)能讓學(xué)生無(wú)法辨別,說(shuō)明Codex 在生成新內(nèi)容方面已達(dá)到了人類(lèi)的表現(xiàn)水平。

近日,一項(xiàng)新研究發(fā)布于PNAS,再次刷新了神經(jīng)網(wǎng)絡(luò)的能力。這次神經(jīng)網(wǎng)絡(luò)被用來(lái)解決了高等數(shù)學(xué)題,而且還是麻省理工數(shù)學(xué)課程難度的數(shù)學(xué)題!

在這項(xiàng)新研究中,研究團(tuán)隊(duì)證明了 OpenAI 的 Codex 模型可以進(jìn)行程序合成從而解決大規(guī)模的數(shù)學(xué)問(wèn)題,并通過(guò)小樣本學(xué)習(xí)自動(dòng)解決數(shù)據(jù)集中 81%的數(shù)學(xué)課程問(wèn)題,并且 Codex 在這些任務(wù)的表現(xiàn)上達(dá)到了人類(lèi)水平。

圖片

原文鏈接:https://www.pnas.org/doi/10.1073/pnas.2123433119

這項(xiàng)研究的出現(xiàn),顛覆了人們普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)無(wú)法解決高等數(shù)學(xué)問(wèn)題的共識(shí)。研究團(tuán)隊(duì)指出,Codex 之所以能做到實(shí)現(xiàn)這樣的能力,正是因?yàn)閳F(tuán)隊(duì)進(jìn)行了一大創(chuàng)新,過(guò)去那些不成功的研究只使用了基于文本的預(yù)訓(xùn)練,而此次現(xiàn)身的 Codex 神經(jīng)網(wǎng)絡(luò)不僅要基于文本進(jìn)行預(yù)訓(xùn)練,并且還對(duì)代碼進(jìn)行了微調(diào)。

研究的問(wèn)題數(shù)據(jù)集選用來(lái)自 MIT 的六門(mén)數(shù)學(xué)課程和哥倫比亞大學(xué)的一門(mén)數(shù)學(xué)課程,從七門(mén)課程中隨機(jī)抽取 25 個(gè)問(wèn)題:MIT的單變量微積分、多變量微積分、微分方程、概率與統(tǒng)計(jì)概論、線(xiàn)性代數(shù)和 計(jì)算機(jī)科學(xué)數(shù)學(xué)和哥倫比亞大學(xué)的 COMS3251 計(jì)算線(xiàn)性代數(shù)。

同時(shí),研究團(tuán)隊(duì)使用了一個(gè)用于評(píng)估數(shù)學(xué)推理的最新高級(jí)數(shù)學(xué)問(wèn)題基準(zhǔn) MATH,用 MATH 來(lái)檢測(cè)OpenAI Codex 的能力,MATH 從6大數(shù)學(xué)板塊:初級(jí)代數(shù),代數(shù),計(jì)數(shù)和概率,中級(jí)代數(shù),數(shù)論,和初級(jí)微積分中各抽取15個(gè)問(wèn)題。

圖片

圖注:研究中使用的課程問(wèn)題數(shù)據(jù)集和MATH基準(zhǔn)測(cè)試

研究顯示,Codex 解決了問(wèn)題數(shù)據(jù)集和 MATH 數(shù)據(jù)集中的 265 個(gè)問(wèn)題,其中有 213 個(gè)是自動(dòng)解決的。

創(chuàng)新何所在

在 Transformer 發(fā)布后,基于 Transformer 的語(yǔ)言模型在各種自然語(yǔ)言處理 (NLP) 任務(wù),包括在零樣本和少樣本語(yǔ)言任務(wù)中取得了巨大成功。但是因?yàn)?Transformer 僅在文本上進(jìn)行了預(yù)訓(xùn)練,所以這些模型基本上不能解決數(shù)學(xué)問(wèn)題,GPT-3就是一個(gè)典型例子。

后來(lái),通過(guò)小樣本學(xué)習(xí)(few-shot learning)和思維鏈 (Chain-of-thought, CoT) 提示,GPT-3 的數(shù)學(xué)推理能力得到了提高;然而,在沒(méi)有代碼的情況下,即便有小樣本學(xué)習(xí)和 CoT 提示, GPT-3 在大學(xué)水平數(shù)學(xué)問(wèn)題和 MATH 基準(zhǔn)測(cè)試中仍然無(wú)能為力。

過(guò)去關(guān)于解數(shù)學(xué)題的研究,可能在相對(duì)簡(jiǎn)單的數(shù)學(xué)水平上有一定成績(jī)。舉個(gè)例子,基于協(xié)同訓(xùn)練輸出來(lái)驗(yàn)證或預(yù)測(cè)表達(dá)式樹(shù)的技術(shù),比如MAWPS 和 Math23k,能夠以超過(guò) 81% 的準(zhǔn)確率解決小學(xué)級(jí)別的數(shù)學(xué)問(wèn)題,但是其不能解決高中、奧林匹克數(shù)學(xué)或大學(xué)難度的課程。協(xié)同訓(xùn)練與圖神經(jīng)網(wǎng)絡(luò) (GNN) 相結(jié)合以預(yù)測(cè)算術(shù)表達(dá)式樹(shù),能夠以高達(dá) 95% 的準(zhǔn)確率解決機(jī)器學(xué)習(xí)中的大學(xué)水平問(wèn)題。但是這項(xiàng)工作也僅限于數(shù)字答案,并且產(chǎn)生了過(guò)擬合,不能推廣到其他課程。

而這項(xiàng)工作的最大創(chuàng)新點(diǎn)之一就是,不僅對(duì)Codex 這種Transformer 模型進(jìn)行了文本上的預(yù)訓(xùn)練,還在代碼上進(jìn)行了微調(diào),使得其可以生成大規(guī)模解決數(shù)學(xué)問(wèn)題的程序。

圖片

研究團(tuán)隊(duì)從數(shù)據(jù)集中隨機(jī)選擇不需要輸入圖像或證明的問(wèn)題樣本來(lái)進(jìn)行測(cè)試。其中,僅對(duì)文本進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型 (GPT-3 text-davinci-002) 僅自動(dòng)解決了課程問(wèn)題中的18%和 MATH基準(zhǔn)測(cè)試問(wèn)題中的25.5%。

相比之下,使用零樣本學(xué)習(xí)和對(duì)文本進(jìn)行預(yù)訓(xùn)練并在代碼上進(jìn)行微調(diào)的神經(jīng)網(wǎng)絡(luò)(OpenAI Codex code-davinci-002)合成的程序可以自動(dòng)解決課程問(wèn)題中的 71%和 MATH 基準(zhǔn)測(cè)試問(wèn)題中的72.2%。

而使用相同的神經(jīng)網(wǎng)絡(luò) Codex 再加上少樣本學(xué)習(xí),便可自動(dòng)解決課程中81%的問(wèn)題和 MATH 基準(zhǔn)測(cè)試中81.1%的問(wèn)題。而其余模型無(wú)法自動(dòng)解決的19%的課程問(wèn)題和18.9%的MATH基準(zhǔn)問(wèn)題,最后通過(guò)手動(dòng)提示解決。

小樣本學(xué)習(xí)方式的補(bǔ)充,則是這項(xiàng)研究的第二大創(chuàng)新點(diǎn)。從上圖中可以看出,當(dāng)零樣本學(xué)習(xí)無(wú)法解答問(wèn)題時(shí),便會(huì)使用(問(wèn)題,代碼)對(duì)(pair)執(zhí)行小樣本學(xué)習(xí):

1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有問(wèn)題;

2) 使用嵌入的余弦相似度從其課程中計(jì)算與未解決問(wèn)題最相似的已解決問(wèn)題;

3) 將最相似的問(wèn)題及其相應(yīng)的代碼作為小樣本問(wèn)題的示例。

圖片

圖注:4種方式的自動(dòng)解題率對(duì)比

上圖分別是Codex的零樣本學(xué)習(xí)、小樣本學(xué)習(xí)和GPT-3的零樣本學(xué)習(xí)、小樣本學(xué)習(xí)4種方式的自動(dòng)解題率對(duì)比。圖上可以看出,橙色條狀所代表的小樣本學(xué)習(xí) Codex 在自動(dòng)解題率上的優(yōu)秀表現(xiàn),基本上在每個(gè)數(shù)學(xué)領(lǐng)域上的表現(xiàn)都強(qiáng)于其他3種方式。

這項(xiàng)研究的第三大創(chuàng)新點(diǎn),便是提供了一條解決數(shù)學(xué)問(wèn)題和解釋為何如此解答的管道,下圖展示了MIT 5門(mén)數(shù)學(xué)課程中管道的執(zhí)行流程。

圖片

以 18.01 單變量微積分問(wèn)題為例,給定一個(gè)問(wèn)題和自動(dòng)生成的前綴“使用 SymPy”,Codex 被提示并輸出一個(gè)程序。運(yùn)行程序會(huì)產(chǎn)生正確答案的方程式。然后,程序會(huì)自動(dòng)提示再次輸入 Codex,從而生成生成的代碼解釋。

問(wèn)題解決之后

除了解決數(shù)學(xué)問(wèn)題和解釋答案,Codex 也被用于為每門(mén)課程生成新問(wèn)題。

為了評(píng)估生成的問(wèn)題水平,團(tuán)隊(duì)在參加過(guò)這些課程或者同水平課程的MIT學(xué)生中做了調(diào)查,主要是比較機(jī)器生成的問(wèn)題和人工編寫(xiě)問(wèn)題的質(zhì)量和難度。

在MIT的6門(mén)課程中,每門(mén)選擇5個(gè)人工編寫(xiě)問(wèn)題和5個(gè)模型生成問(wèn)題混合起來(lái)并且隨機(jī)呈現(xiàn)。對(duì)于 60 個(gè)問(wèn)題中的每一個(gè)問(wèn)題,參與調(diào)查的學(xué)生都需要回答 3 個(gè)調(diào)查問(wèn)題:

1)你認(rèn)為這個(gè)問(wèn)題是人工編寫(xiě)的還是機(jī)器生成的?

2)你認(rèn)為這個(gè)問(wèn)題適合還是不適合特定課程?

3 ) 在 1(最簡(jiǎn)單)和 5(最難)之間,你認(rèn)為這個(gè)問(wèn)題的難度級(jí)別是多少?

圖片

在收回的問(wèn)卷中,學(xué)生調(diào)查結(jié)果總結(jié)如下:

  • 機(jī)器生成和人工編寫(xiě)的問(wèn)題難度相似。
  • 人工編寫(xiě)的問(wèn)題比機(jī)器生成的問(wèn)題更適合課程。
  • 人工編寫(xiě)的答案很難被識(shí)別錯(cuò),而機(jī)器生成的問(wèn)題被學(xué)生認(rèn)為既可能是機(jī)器生成的,也可能是人工編寫(xiě)的。

機(jī)器生成的問(wèn)題已經(jīng)能讓學(xué)生無(wú)法辨別,說(shuō)明Codex 在生成新內(nèi)容方面已達(dá)到了人類(lèi)的表現(xiàn)水平。

但是,該模型也有無(wú)法解決的問(wèn)題,比如,如果問(wèn)題以圖像或其他非文本形式出現(xiàn),它就無(wú)法回答;帶有需要證明的解決方案的問(wèn)題,或者計(jì)算上難以解決的問(wèn)題,比如分解非常大的素?cái)?shù),該模型也無(wú)法解決。不過(guò),最后一種問(wèn)題也不應(yīng)出現(xiàn)在任何數(shù)學(xué)課程作業(yè)中,因?yàn)榫退闶钦嫒藢W(xué)生也沒(méi)法回答。

責(zé)任編輯:張燕妮 來(lái)源: AI科技評(píng)論
相關(guān)推薦

2022-11-04 17:02:31

AI模型

2022-05-10 09:19:29

異網(wǎng)漫游5G網(wǎng)絡(luò)

2021-01-18 14:38:53

神經(jīng)網(wǎng)絡(luò)人工智能神經(jīng)元

2017-04-18 10:59:28

軟件測(cè)試認(rèn)證

2022-01-15 23:04:03

人工智能高等數(shù)學(xué)技術(shù)

2022-12-06 09:44:00

算法神經(jīng)網(wǎng)絡(luò)

2017-04-04 20:49:27

深度神經(jīng)人工智能語(yǔ)音合成

2021-01-15 07:55:09

Python腳本語(yǔ)言

2021-12-20 09:00:00

深度學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)安全

2017-11-13 14:38:53

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機(jī)器學(xué)習(xí)

2025-03-11 13:42:19

2020-04-03 16:52:01

基建數(shù)字發(fā)展

2023-07-04 07:17:47

神經(jīng)網(wǎng)絡(luò)大規(guī)模GNN

2017-07-18 11:40:44

深度神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)拓?fù)?/a>

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2025-02-25 14:13:31

2021-11-02 10:05:18

神經(jīng)網(wǎng)絡(luò)AI算法

2018-11-20 09:48:22

AI量子科技
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)