自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

新聞 人工智能 算法
DeepMind 的一項(xiàng)研究登上《Nature》封面,通過引導(dǎo)直覺解決了兩大數(shù)學(xué)難題;之后,OpenAI 教 GPT-3 學(xué)會(huì)了上網(wǎng),能夠使用基于文本的 Web 瀏覽器。

  

前段時(shí)間,DeepMind 的一項(xiàng)研究登上《Nature》封面,通過引導(dǎo)直覺解決了兩大數(shù)學(xué)難題;之后,OpenAI 教 GPT-3 學(xué)會(huì)了上網(wǎng),能夠使用基于文本的 Web 瀏覽器。

就在 2021 年的最后一天, MIT 與哥倫比亞大學(xué)、哈佛大學(xué)、滑鐵盧大學(xué)的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一篇長(zhǎng)達(dá) 114 頁的論文,提出了首個(gè)可以大規(guī)模自動(dòng)解決、評(píng)分和生成大學(xué)水平數(shù)學(xué)問題的模型,可以說是人工智能和高等教育的一個(gè)重要里程碑。其實(shí)在這項(xiàng)研究之前,人們普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)無法解決高等數(shù)學(xué)問題。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

值得一提的是,該研究用到了 OpenAI 的 Codex。

這項(xiàng)研究有多厲害呢?我們以下圖為例,下圖展示了計(jì)算洛倫茨吸引子及其投影,計(jì)算和演示奇異值分解 (SVD) 方法的幾何形狀等。機(jī)器學(xué)習(xí)模型很難解決上述問題,但這項(xiàng)研究表明它們不僅可以解決這些問題,還可以大規(guī)模解決所屬課程以及許多此類課程問題。

該研究表明對(duì)文本進(jìn)行預(yù)訓(xùn)練并在代碼上進(jìn)行微調(diào)的神經(jīng)網(wǎng)絡(luò),可以通過程序合成(program synthesis)解決數(shù)學(xué)問題。具體而言,該研究可將數(shù)學(xué)問題轉(zhuǎn)化為編程任務(wù),自動(dòng)生成程序,然后執(zhí)行,以解決 MIT 數(shù)學(xué)課程問題和來自 MATH 數(shù)據(jù)集的問題。其中,MATH 數(shù)據(jù)集是專門用于評(píng)估數(shù)學(xué)推理的高等數(shù)學(xué)問題最新基準(zhǔn),涵蓋初級(jí)代數(shù)、代數(shù)、計(jì)數(shù)與概率、數(shù)論與微積分。

此外,該研究還探索了一些提示(prompt)生成方法,使 Transformer 能夠?yàn)橄鄳?yīng)主題生成問題解決程序,包括帶有圖象的解決方案。通過量化原始問題和轉(zhuǎn)換后的提示之間的差距,該研究評(píng)估了生成問題的質(zhì)量和難度。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

論文地址:https://arxiv.org/pdf/2112.15594.pdf

方法

數(shù)據(jù)集

該研究首先從 MIT 的以下六門課程中,每門課程隨機(jī)選取了 25 個(gè)問題:

  • 單變量微積分;
  • 多元微積分;
  • 微分方程;
  • 概率與統(tǒng)計(jì)概論;
  • 線性代數(shù);
  • 計(jì)算機(jī)科學(xué)數(shù)學(xué)。

對(duì)于 MATH 數(shù)據(jù)集,該研究從每個(gè)主題中隨機(jī)抽取 5 個(gè)問題,并通過在應(yīng)用線性代數(shù)新課程 COMS3251 上的實(shí)驗(yàn)驗(yàn)證了該方法的結(jié)果不僅僅是過擬合訓(xùn)練數(shù)據(jù)。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

方法流程

如下圖 2 所示,該研究使用 Codex 將課程問題轉(zhuǎn)換為編程任務(wù)并運(yùn)行程序以解決數(shù)學(xué)問題。下圖共包含 A-E 5 個(gè)面板,每個(gè)面板的左側(cè)部分顯示了原始問題和重新表述的提示,其中提示是通過添加上下文、交互、簡(jiǎn)化描述等形成的。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

該研究將從原始課程問題到 Codex 提示的轉(zhuǎn)換分為以下三類:

  • 原生提示:Codex 提示和原始問題相同;
  • 自動(dòng)提示轉(zhuǎn)換:Codex 提示和原始問題不同,由 Codex 自動(dòng)生成;
  • 手動(dòng)提示轉(zhuǎn)換:Codex 提示和原始問題不同,由人工生成。

問題與提示之間的差距

將問題轉(zhuǎn)換為 Codex 提示的關(guān)鍵是:從語義上講,原始問題與產(chǎn)生正確解決方案的提示之間的接近程度。為了度量原始問題和成功提示之間的差距,該研究使用 Sentence-BERT 嵌入之間的余弦相似度,如下圖 3 所示。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

Sentence-BERT 使用 siamese 和 triplet 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)預(yù)訓(xùn)練的 BERT 模型進(jìn)行微調(diào)。其中至關(guān)重要的是,Sentence-BERT 能夠在句子級(jí)別生成語義嵌入,從而可以在長(zhǎng)文本之間進(jìn)行語義相似性比較。

在該研究的實(shí)驗(yàn)中,原始問題和生成正確答案的提示之間的相似度如下圖 4 所示。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

Codex 用于提示生成

在某些課程中,直接使用未轉(zhuǎn)換的原始問題提示 Codex,無法產(chǎn)生正確的解決方案。因此,需要將原始問題轉(zhuǎn)化為 Codex 可以處理的形式,主要分為以下三類:

  • 主題上下文形式:該形式為 Codex 提供了與一般課程和特定問題相關(guān)的主題和子主題,以幫助指導(dǎo) Codex 生成相關(guān)正確的答案。例如,對(duì)于概率中的條件期望問題,提供有關(guān)貝葉斯定理、期望等的上下文信息會(huì)很有幫助。
  • 庫上下文:該形式為 Codex 提供了解決給定問題所需的編程包 / 庫。例如,指導(dǎo) Codex 使用 Python 中的 numpy 包來解決線性代數(shù)問題。
  • 定義上下文:很多時(shí)候,Codex 對(duì)某些術(shù)語的定義缺乏現(xiàn)實(shí)背景。舉例來說,Codex 不理解撲克牌中的 Full House 是什么意思。因此讓 Codex 理解這些術(shù)語并明確定義,可以更好地指導(dǎo)其程序合成。

生成問題以及人類評(píng)估

該研究使用 Codex 為每門課程生成新的問題,通過數(shù)據(jù)集創(chuàng)建有編號(hào)的問題列表來完成,這個(gè)列表在生成隨機(jī)數(shù)量的問題之后會(huì)被截?cái)鄶?,結(jié)果將用于提示 Codex 生成下一個(gè)問題。不斷的重復(fù)這個(gè)過程,就可以為每門課程產(chǎn)生許多新的問題。

該研究對(duì)參加過這些課程或同等課程的、來自 MIT 和哥倫比亞大學(xué)的學(xué)生進(jìn)行了一項(xiàng)長(zhǎng)期調(diào)查。調(diào)查的目的是比較每門課程機(jī)器生成的問題與人工編寫的問題的質(zhì)量和難度。該研究為每門 MIT 的課程隨機(jī)抽取五個(gè)原始問題和五個(gè)生成的問題。在調(diào)查中,學(xué)生被要求閱讀每門課程的十個(gè)問題,這些問題是人工編寫的問題和機(jī)器生成的問題的混合。

對(duì)于 60 個(gè)問題中的每一個(gè),學(xué)生都被問到三個(gè)問題,如圖 5 所示:他們是否認(rèn)為給定的問題是 (i) 人工編寫的或機(jī)器生成的,(ii) 適合或不適合特定課程,以及 (iii) ) 在 1(最簡(jiǎn)單)和 5(最難)之間的范圍內(nèi),問題的難度級(jí)別是多少。要求學(xué)生提供他們對(duì)數(shù)學(xué)問題的評(píng)分,而不是解決這些問題。該調(diào)查以在線和匿名的形式提供。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

調(diào)研結(jié)果

問題求解

研究者共求解了補(bǔ)充資料中展示的 210 個(gè)問題,其中包括 6 門課程各自對(duì)應(yīng)的 25 個(gè)隨機(jī)問題以及 MATH 數(shù)據(jù)集中 6 個(gè)主題(初級(jí)代數(shù)、代數(shù)、數(shù)論、計(jì)數(shù)與概率、中極代數(shù)、微積分)各自對(duì)應(yīng)的 10 個(gè)隨機(jī)問題。

生成新問題

研究者生成了 120 個(gè)新問題,其中包括 6 門課程和 6 個(gè) MATH 主題各自對(duì)應(yīng)的 10 個(gè)新問題。下表 2 展示了每門課程和每個(gè) MATH 主題對(duì)應(yīng)的一個(gè)生成問題。生成一個(gè)問題只需不到 1 秒的時(shí)間,研究者可以生成任意數(shù)量的問題。他們?yōu)?Codex 能夠生成正確答案的 25 個(gè)隨機(jī)選擇的問題創(chuàng)建了提示,切入隨機(jī)問題,并讓 Codex 完成下一個(gè)新問題。

AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

學(xué)生調(diào)研結(jié)果

研究者表示,共有 13 位參與者完成了全部 60 個(gè)問題的問答調(diào)研,平均耗時(shí) 40 分鐘。下圖 6 總結(jié)了學(xué)生調(diào)研中人工編寫(human-written)和機(jī)器生成(machine-generated)問題的比較情況,并得出了以下幾項(xiàng)結(jié)果:

  • 機(jī)器生成的問題要比人工編寫的問題難度高,但在置信區(qū)間內(nèi);
  • 人工編寫的問題要比機(jī)器生成的問題更適合課程;
  • 人工編寫的問題更容易被認(rèn)為人寫的,并且將機(jī)器生成問題看作機(jī)器生成和人工編寫的概率相同。
AI生成高數(shù)題,難出新高度:MIT提出可出題做題、評(píng)分的算法模型

答案定級(jí)

Codex 能夠回答所有隨機(jī)采樣的大學(xué)水平和 MATH 數(shù)據(jù)集數(shù)學(xué)問題,無論它們是原始狀態(tài)還是整理后狀態(tài)。

挑戰(zhàn)

研究者的方法還有一些無法解決的技術(shù)障礙。

1、輸入圖像。Codex 的一個(gè)基礎(chǔ)限制是它只能接收基于文本的輸入。因此,Codex 無法使用圖形或圖表等必要的視覺組件來回答問題。

2、高等數(shù)學(xué)證明。這項(xiàng)研究的另一個(gè)限制是缺乏對(duì)高等數(shù)學(xué)的證明。研究者強(qiáng)調(diào)稱,這是由研究自身的廣度而不是 Codex 的證明能力導(dǎo)致的。事實(shí)上,該研究中提交至 Codex 的大多數(shù)簡(jiǎn)單分析證明都已成功地被執(zhí)行,這令人震驚,因?yàn)樽C明通常不是基于代碼的。

3、程序評(píng)估。該研究的最后一步是執(zhí)行程序,例如使用 Python 解釋器。參加大學(xué)水平課程的學(xué)生也會(huì)編寫代碼來解決他們的部分問題。因此,該研究以與人類學(xué)生相同的方式測(cè)試神經(jīng)網(wǎng)絡(luò)解決問題的能力,讓他們使用必要的工具。還有關(guān)于神經(jīng)程序評(píng)估的工作,演示了使用機(jī)器學(xué)習(xí)來預(yù)測(cè)程序輸出。LSTM 用于成功預(yù)測(cè)某些線性時(shí)間和恒定空間程序的輸出 (18)。這些都增加了內(nèi)存暫存器以允許更大的程序類別 (19)。最近的方法使用因果 GNN (20) 和 transformer (21)。盡管評(píng)估任意代碼是不可判定的,但特殊情況,例如由另一個(gè) transformer 生成的用于解決簡(jiǎn)單數(shù)學(xué)問題的程序,原則上應(yīng)該是可學(xué)習(xí)的。

4、理論復(fù)雜性。計(jì)算復(fù)雜度的結(jié)果表明,該研究無法解決大學(xué)數(shù)學(xué)課程中一般問題的每一個(gè)具體實(shí)例。例如,以下問題具有難以處理的結(jié)果:向量 v 可以表示為來自集合 S 的向量之和嗎?以下一階微分方程的解是什么?但是,我們知道作業(yè)和考試給出的問題可以由人類解決,因此這些復(fù)雜性結(jié)果不適用于該研究的特定實(shí)例解決。

 

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2020-11-25 15:58:59

AI 數(shù)據(jù)人工智能

2023-10-14 13:06:11

AI視頻

2020-08-24 14:25:02

AI 數(shù)據(jù)人工智能

2023-07-11 13:07:53

中國AI麻將

2020-06-09 10:15:21

模型人工智能自然語言

2025-04-15 08:01:12

2011-10-13 10:08:51

iOS 5iOS

2016-11-10 16:28:04

2020-11-17 20:25:22

智能人機(jī)數(shù)智化

2015-09-14 16:12:12

云計(jì)算大數(shù)據(jù)高度

2025-01-23 20:42:44

2020-07-03 18:01:06

邊緣計(jì)算物聯(lián)網(wǎng)技術(shù)

2024-09-25 14:57:52

2025-04-17 14:19:46

2024-04-15 12:07:13

AI虛擬人

2022-06-01 15:14:29

智能工廠智能制造5G
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)