自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

作者：機(jī)器之心編譯 2022-01-05 10:42:12

新聞人工智能算法

DeepMind 的一項(xiàng)研究登上《Nature》封面，通過引導(dǎo)直覺解決了兩大數(shù)學(xué)難題；之后，OpenAI 教 GPT-3 學(xué)會(huì)了上網(wǎng)，能夠使用基于文本的 Web 瀏覽器。

前段時(shí)間，DeepMind 的一項(xiàng)研究登上《Nature》封面，通過引導(dǎo)直覺解決了兩大數(shù)學(xué)難題；之后，OpenAI 教 GPT-3 學(xué)會(huì)了上網(wǎng)，能夠使用基于文本的 Web 瀏覽器。

就在 2021 年的最后一天， MIT 與哥倫比亞大學(xué)、哈佛大學(xué)、滑鐵盧大學(xué)的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一篇長(zhǎng)達(dá) 114 頁的論文，提出了首個(gè)可以大規(guī)模自動(dòng)解決、評(píng)分和生成大學(xué)水平數(shù)學(xué)問題的模型，可以說是人工智能和高等教育的一個(gè)重要里程碑。其實(shí)在這項(xiàng)研究之前，人們普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)無法解決高等數(shù)學(xué)問題。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

值得一提的是，該研究用到了 OpenAI 的 Codex。

這項(xiàng)研究有多厲害呢？我們以下圖為例，下圖展示了計(jì)算洛倫茨吸引子及其投影，計(jì)算和演示奇異值分解 (SVD) 方法的幾何形狀等。機(jī)器學(xué)習(xí)模型很難解決上述問題，但這項(xiàng)研究表明它們不僅可以解決這些問題，還可以大規(guī)模解決所屬課程以及許多此類課程問題。

該研究表明對(duì)文本進(jìn)行預(yù)訓(xùn)練并在代碼上進(jìn)行微調(diào)的神經(jīng)網(wǎng)絡(luò)，可以通過程序合成（program synthesis）解決數(shù)學(xué)問題。具體而言，該研究可將數(shù)學(xué)問題轉(zhuǎn)化為編程任務(wù)，自動(dòng)生成程序，然后執(zhí)行，以解決 MIT 數(shù)學(xué)課程問題和來自 MATH 數(shù)據(jù)集的問題。其中，MATH 數(shù)據(jù)集是專門用于評(píng)估數(shù)學(xué)推理的高等數(shù)學(xué)問題最新基準(zhǔn)，涵蓋初級(jí)代數(shù)、代數(shù)、計(jì)數(shù)與概率、數(shù)論與微積分。

此外，該研究還探索了一些提示（prompt）生成方法，使 Transformer 能夠?yàn)橄鄳?yīng)主題生成問題解決程序，包括帶有圖象的解決方案。通過量化原始問題和轉(zhuǎn)換后的提示之間的差距，該研究評(píng)估了生成問題的質(zhì)量和難度。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

論文地址：https://arxiv.org/pdf/2112.15594.pdf

方法

數(shù)據(jù)集

該研究首先從 MIT 的以下六門課程中，每門課程隨機(jī)選取了 25 個(gè)問題：

單變量微積分；
多元微積分；
微分方程；
概率與統(tǒng)計(jì)概論；
線性代數(shù)；
計(jì)算機(jī)科學(xué)數(shù)學(xué)。

對(duì)于 MATH 數(shù)據(jù)集，該研究從每個(gè)主題中隨機(jī)抽取 5 個(gè)問題，并通過在應(yīng)用線性代數(shù)新課程 COMS3251 上的實(shí)驗(yàn)驗(yàn)證了該方法的結(jié)果不僅僅是過擬合訓(xùn)練數(shù)據(jù)。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

方法流程

如下圖 2 所示，該研究使用 Codex 將課程問題轉(zhuǎn)換為編程任務(wù)并運(yùn)行程序以解決數(shù)學(xué)問題。下圖共包含 A-E 5 個(gè)面板，每個(gè)面板的左側(cè)部分顯示了原始問題和重新表述的提示，其中提示是通過添加上下文、交互、簡(jiǎn)化描述等形成的。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

該研究將從原始課程問題到 Codex 提示的轉(zhuǎn)換分為以下三類：

原生提示：Codex 提示和原始問題相同；
自動(dòng)提示轉(zhuǎn)換：Codex 提示和原始問題不同，由 Codex 自動(dòng)生成；
手動(dòng)提示轉(zhuǎn)換：Codex 提示和原始問題不同，由人工生成。

問題與提示之間的差距

將問題轉(zhuǎn)換為 Codex 提示的關(guān)鍵是：從語義上講，原始問題與產(chǎn)生正確解決方案的提示之間的接近程度。為了度量原始問題和成功提示之間的差距，該研究使用 Sentence-BERT 嵌入之間的余弦相似度，如下圖 3 所示。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

Sentence-BERT 使用 siamese 和 triplet 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)預(yù)訓(xùn)練的 BERT 模型進(jìn)行微調(diào)。其中至關(guān)重要的是，Sentence-BERT 能夠在句子級(jí)別生成語義嵌入，從而可以在長(zhǎng)文本之間進(jìn)行語義相似性比較。

在該研究的實(shí)驗(yàn)中，原始問題和生成正確答案的提示之間的相似度如下圖 4 所示。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

Codex 用于提示生成

在某些課程中，直接使用未轉(zhuǎn)換的原始問題提示 Codex，無法產(chǎn)生正確的解決方案。因此，需要將原始問題轉(zhuǎn)化為 Codex 可以處理的形式，主要分為以下三類：

主題上下文形式：該形式為 Codex 提供了與一般課程和特定問題相關(guān)的主題和子主題，以幫助指導(dǎo) Codex 生成相關(guān)正確的答案。例如，對(duì)于概率中的條件期望問題，提供有關(guān)貝葉斯定理、期望等的上下文信息會(huì)很有幫助。
庫上下文：該形式為 Codex 提供了解決給定問題所需的編程包 / 庫。例如，指導(dǎo) Codex 使用 Python 中的 numpy 包來解決線性代數(shù)問題。
定義上下文：很多時(shí)候，Codex 對(duì)某些術(shù)語的定義缺乏現(xiàn)實(shí)背景。舉例來說，Codex 不理解撲克牌中的 Full House 是什么意思。因此讓 Codex 理解這些術(shù)語并明確定義，可以更好地指導(dǎo)其程序合成。

生成問題以及人類評(píng)估

該研究使用 Codex 為每門課程生成新的問題，通過數(shù)據(jù)集創(chuàng)建有編號(hào)的問題列表來完成，這個(gè)列表在生成隨機(jī)數(shù)量的問題之后會(huì)被截?cái)鄶?，結(jié)果將用于提示 Codex 生成下一個(gè)問題。不斷的重復(fù)這個(gè)過程，就可以為每門課程產(chǎn)生許多新的問題。

該研究對(duì)參加過這些課程或同等課程的、來自 MIT 和哥倫比亞大學(xué)的學(xué)生進(jìn)行了一項(xiàng)長(zhǎng)期調(diào)查。調(diào)查的目的是比較每門課程機(jī)器生成的問題與人工編寫的問題的質(zhì)量和難度。該研究為每門 MIT 的課程隨機(jī)抽取五個(gè)原始問題和五個(gè)生成的問題。在調(diào)查中，學(xué)生被要求閱讀每門課程的十個(gè)問題，這些問題是人工編寫的問題和機(jī)器生成的問題的混合。

對(duì)于 60 個(gè)問題中的每一個(gè)，學(xué)生都被問到三個(gè)問題，如圖 5 所示：他們是否認(rèn)為給定的問題是 (i) 人工編寫的或機(jī)器生成的，(ii) 適合或不適合特定課程，以及 (iii) ) 在 1（最簡(jiǎn)單）和 5（最難）之間的范圍內(nèi)，問題的難度級(jí)別是多少。要求學(xué)生提供他們對(duì)數(shù)學(xué)問題的評(píng)分，而不是解決這些問題。該調(diào)查以在線和匿名的形式提供。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

調(diào)研結(jié)果

問題求解

研究者共求解了補(bǔ)充資料中展示的 210 個(gè)問題，其中包括 6 門課程各自對(duì)應(yīng)的 25 個(gè)隨機(jī)問題以及 MATH 數(shù)據(jù)集中 6 個(gè)主題（初級(jí)代數(shù)、代數(shù)、數(shù)論、計(jì)數(shù)與概率、中極代數(shù)、微積分）各自對(duì)應(yīng)的 10 個(gè)隨機(jī)問題。

生成新問題

研究者生成了 120 個(gè)新問題，其中包括 6 門課程和 6 個(gè) MATH 主題各自對(duì)應(yīng)的 10 個(gè)新問題。下表 2 展示了每門課程和每個(gè) MATH 主題對(duì)應(yīng)的一個(gè)生成問題。生成一個(gè)問題只需不到 1 秒的時(shí)間，研究者可以生成任意數(shù)量的問題。他們?yōu)?Codex 能夠生成正確答案的 25 個(gè)隨機(jī)選擇的問題創(chuàng)建了提示，切入隨機(jī)問題，并讓 Codex 完成下一個(gè)新問題。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

學(xué)生調(diào)研結(jié)果

研究者表示，共有 13 位參與者完成了全部 60 個(gè)問題的問答調(diào)研，平均耗時(shí) 40 分鐘。下圖 6 總結(jié)了學(xué)生調(diào)研中人工編寫（human-written）和機(jī)器生成（machine-generated）問題的比較情況，并得出了以下幾項(xiàng)結(jié)果：

機(jī)器生成的問題要比人工編寫的問題難度高，但在置信區(qū)間內(nèi)；
人工編寫的問題要比機(jī)器生成的問題更適合課程；
人工編寫的問題更容易被認(rèn)為人寫的，并且將機(jī)器生成問題看作機(jī)器生成和人工編寫的概率相同。

AI生成高數(shù)題，難出新高度：MIT提出可出題做題、評(píng)分的算法模型

答案定級(jí)

Codex 能夠回答所有隨機(jī)采樣的大學(xué)水平和 MATH 數(shù)據(jù)集數(shù)學(xué)問題，無論它們是原始狀態(tài)還是整理后狀態(tài)。

挑戰(zhàn)

研究者的方法還有一些無法解決的技術(shù)障礙。

1、輸入圖像。Codex 的一個(gè)基礎(chǔ)限制是它只能接收基于文本的輸入。因此，Codex 無法使用圖形或圖表等必要的視覺組件來回答問題。

2、高等數(shù)學(xué)證明。這項(xiàng)研究的另一個(gè)限制是缺乏對(duì)高等數(shù)學(xué)的證明。研究者強(qiáng)調(diào)稱，這是由研究自身的廣度而不是 Codex 的證明能力導(dǎo)致的。事實(shí)上，該研究中提交至 Codex 的大多數(shù)簡(jiǎn)單分析證明都已成功地被執(zhí)行，這令人震驚，因?yàn)樽C明通常不是基于代碼的。

3、程序評(píng)估。該研究的最后一步是執(zhí)行程序，例如使用 Python 解釋器。參加大學(xué)水平課程的學(xué)生也會(huì)編寫代碼來解決他們的部分問題。因此，該研究以與人類學(xué)生相同的方式測(cè)試神經(jīng)網(wǎng)絡(luò)解決問題的能力，讓他們使用必要的工具。還有關(guān)于神經(jīng)程序評(píng)估的工作，演示了使用機(jī)器學(xué)習(xí)來預(yù)測(cè)程序輸出。LSTM 用于成功預(yù)測(cè)某些線性時(shí)間和恒定空間程序的輸出 (18)。這些都增加了內(nèi)存暫存器以允許更大的程序類別 (19)。最近的方法使用因果 GNN (20) 和 transformer (21)。盡管評(píng)估任意代碼是不可判定的，但特殊情況，例如由另一個(gè) transformer 生成的用于解決簡(jiǎn)單數(shù)學(xué)問題的程序，原則上應(yīng)該是可學(xué)習(xí)的。

4、理論復(fù)雜性。計(jì)算復(fù)雜度的結(jié)果表明，該研究無法解決大學(xué)數(shù)學(xué)課程中一般問題的每一個(gè)具體實(shí)例。例如，以下問題具有難以處理的結(jié)果：向量 v 可以表示為來自集合 S 的向量之和嗎？以下一階微分方程的解是什么？但是，我們知道作業(yè)和考試給出的問題可以由人類解決，因此這些復(fù)雜性結(jié)果不適用于該研究的特定實(shí)例解決。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營