自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華校友用AI破解162個(gè)高數(shù)定理,智能體LeanAgent攻克困擾陶哲軒難題!

人工智能
就在剛剛,清華校友用AI證明了162個(gè)未被人類證明的數(shù)學(xué)定理,解決了AI無法解決陶哲軒對多項(xiàng)式Freiman-Ruzsa猜想的形式化難題!

諾貝爾物理學(xué)獎(jiǎng)和化學(xué)獎(jiǎng)被AI「包圓」后,人們再次確信:基礎(chǔ)科學(xué)研究的范式,已經(jīng)被AI從根本上改變。

果然,就在剛剛,AI成功證明了162個(gè)以前未被證明的數(shù)學(xué)定理,再次印證了這一點(diǎn)。

圖片圖片

到目前為止,LLM仍然是靜態(tài)的,無法在線學(xué)習(xí)新知識(shí),更別提證明高數(shù)定理了。

對此,來自加州理工、斯坦福和威大的研究人員提出了LeanAgent——一個(gè)終身學(xué)習(xí),并能證明定理的AI智能體。

圖片圖片

論文地址:https://arxiv.org/abs/2410.06209

LeanAgent會(huì)根據(jù)數(shù)學(xué)難度優(yōu)化的學(xué)習(xí)軌跡課程,來提高學(xué)習(xí)策略。并且,它還有一個(gè)動(dòng)態(tài)數(shù)據(jù)庫,有效管理不斷擴(kuò)展的數(shù)學(xué)知識(shí)。

值得一提的是,整個(gè)學(xué)習(xí)過程中,它既能自我學(xué)習(xí)新知識(shí),同時(shí)不會(huì)遺忘已具備的能力。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),LeanAgent從來自23個(gè)不同Lean代碼庫中,成功證明162個(gè)此前未被人類證明的數(shù)學(xué)定理。

相較于基于Lean數(shù)據(jù)微調(diào)大模型,LeanAgent性能直接飆升11倍。而且,綜合終身學(xué)習(xí)能力近94%。

其中,有許多是高等數(shù)學(xué)定理,比如具有挑戰(zhàn)性的抽象代數(shù)、代數(shù)拓?fù)洹?/span>

它還展現(xiàn)出了從基本概念到高級主題清晰的學(xué)習(xí)過程。

同時(shí),LeanAgent在穩(wěn)定性、反向遷移方面取得了卓越的成績,并且學(xué)習(xí)新任務(wù)還能提高以往任務(wù)的性能。

陶哲軒的證明,AI依然無解?

交互式定理證明器(ITPs),如Lean,已成為形式化和驗(yàn)證數(shù)學(xué)證明的工具。

然而,使用ITPs構(gòu)建形式化證明不僅復(fù)雜,且非常耗時(shí)。因?yàn)樗枰獦O其詳細(xì)的證明步驟,并需要使用大量數(shù)學(xué)代碼庫。

諸如o1、Claude先進(jìn)的大模型,在非形式化證明中,會(huì)產(chǎn)生幻覺。這愈加凸顯了,LLM在形式化數(shù)學(xué)證明中準(zhǔn)確性、可靠性方面的重要性。

先前的一系列研究,探索了LLM也能夠生成完整的證明步驟。

比如,LeanDojo便是基于開源大模型構(gòu)建的定理證明器。研究人員通過在特定數(shù)據(jù)集上,訓(xùn)練微調(diào)大模型而來。

圖片圖片

項(xiàng)目地址:https://leandojo.org/

然而,形式化定理證明數(shù)據(jù)非常稀缺,進(jìn)而阻礙了這一方法的泛化能力。

再比如,ReProver專門針對Lean定理證明代碼庫mathlib4微調(diào)的大模型。盡管這個(gè)數(shù)據(jù)庫包含了超10萬個(gè)形式化數(shù)學(xué)定理、定義,但它們分布僅覆蓋的是本科數(shù)學(xué)。

因此,ReProver在更具挑戰(zhàn)性問題——陶哲軒對多項(xiàng)式Freiman-Ruzsa(PFR)猜想的形式化,表現(xiàn)就會(huì)很差。

圖片圖片

https://terrytao.wordpress.com/2023/11/13/on-a-conjecture-of-marton/

并且,數(shù)學(xué)研究動(dòng)態(tài)性,更是加劇了無法泛化的問題。

數(shù)學(xué)家們通常同時(shí),或者交替在多個(gè)領(lǐng)域、項(xiàng)目中進(jìn)行形式化。

比如,陶哲軒并行開啟多個(gè)項(xiàng)目,包括PFR猜想、實(shí)數(shù)對稱平均、經(jīng)典牛頓不等式、漸近分析的形式化。

Patrick Massot專注于形式化Scholze凝聚態(tài)數(shù)學(xué),以及完美空間(Perfectoid Spaces)項(xiàng)目。

圖片圖片

這些例子突出了當(dāng)前AI定理證明方法一個(gè)關(guān)鍵不足:

缺乏一個(gè)能夠隨時(shí)間在不同數(shù)學(xué)領(lǐng)域自適應(yīng)、改進(jìn)的AI系統(tǒng),特別是在Lean數(shù)據(jù)可用性有限的前提下。

與終身學(xué)習(xí)的相關(guān)性

至關(guān)重要的是,數(shù)學(xué)家們形式化過程與終身學(xué)習(xí)密切相關(guān),即在不忘記的情況下學(xué)習(xí)多個(gè)任務(wù)。

然而,對于AI來說,一個(gè)重大挑戰(zhàn)便是「災(zāi)難性遺忘」問題。

它們往往會(huì)學(xué)習(xí)新知識(shí)(新分布)后,直接丟失,甚至抹去了對舊知識(shí)(舊分布)的記憶。

而核心挑戰(zhàn)是,如何去平衡可塑性(學(xué)習(xí)和適應(yīng)的能力)與穩(wěn)定性(保留現(xiàn)有知識(shí)的能力)。

當(dāng)AI學(xué)習(xí)新任務(wù)時(shí),可能會(huì)覆蓋了先前的學(xué)習(xí)信息。而若是為了增強(qiáng)穩(wěn)定,保留既有的知識(shí),便會(huì)損害LLM獲取新技能的能力。

在數(shù)學(xué)形式化定理證明中,AI持續(xù)泛化能力的關(guān)鍵,便是在這兩者之間實(shí)現(xiàn)平衡。

LeanAgent:首個(gè)終身學(xué)習(xí)證明數(shù)學(xué)定理的AI智能體

基于以上難題,LeanDojo原班人馬團(tuán)隊(duì)提出了LeanAgent,一個(gè)用于定理證明的全新終身學(xué)習(xí)框架。

如下圖1所示,LeanAgent工作流包括了:

  1. 推導(dǎo)定理的復(fù)雜度,以計(jì)算學(xué)習(xí)課程
  2. 進(jìn)行漸進(jìn)訓(xùn)練,在學(xué)習(xí)過程中平衡穩(wěn)定性和可塑性
  3. 利用最佳優(yōu)先樹搜索,來搜索sorry定理(人類尚未證明的定理)

當(dāng)然,LeanAgent可與任何LLM結(jié)合使用,并且通過「檢索」來提高泛化能力。

同時(shí),LeanAgent包含了幾個(gè)關(guān)鍵的創(chuàng)新——

使用自定義動(dòng)態(tài)數(shù)據(jù)庫,管理不斷擴(kuò)展的數(shù)學(xué)知識(shí);使用一種新穎課程學(xué)習(xí)(curriculum learning)策略,利用Lean證明結(jié)構(gòu),來學(xué)習(xí)更復(fù)雜的數(shù)學(xué)倉庫。

圖片圖片

對于AI災(zāi)難性遺忘問題,研究人員采用了簡單的「漸進(jìn)」訓(xùn)練方法。

該方法讓LeanAgent能夠持續(xù)適應(yīng)新的數(shù)學(xué)知識(shí),同時(shí)還能保留先前的學(xué)習(xí)信息。

這一過程涉及了,在課程中每個(gè)倉庫生成的新數(shù)據(jù)集上,增量訓(xùn)練檢索器。

從預(yù)訓(xùn)練檢索器開始(比如基于ByT5 ReProver檢索器),LeanAgent在每個(gè)新數(shù)據(jù)集上,額外訓(xùn)練一個(gè)epoch。

通過將漸進(jìn)訓(xùn)練限制在一個(gè)epoch,有助于平衡穩(wěn)定性和可塑性。

尤其是,漸進(jìn)訓(xùn)練對數(shù)據(jù)庫生成的每個(gè)數(shù)據(jù)集重復(fù)進(jìn)行,逐步擴(kuò)展LeanAgent知識(shí)庫。

它的優(yōu)勢是,增加了可能的證明狀態(tài)空間(其中狀態(tài)包括定理的假設(shè)和當(dāng)前證明進(jìn)展),同時(shí)向前提嵌入添加了新的前提。

不過,更復(fù)雜的終身學(xué)習(xí)方法,如彈性權(quán)重合并(EWC),使用Fisher信息矩陣來約束先前任務(wù)的重要權(quán)重,會(huì)導(dǎo)致過度可塑性。

這種不受控制的可塑性,是因?yàn)锳I無法隨著定理復(fù)雜度的增加,而適應(yīng)參數(shù)重要性。

它迫使AI在學(xué)習(xí)高級概念時(shí),關(guān)鍵參數(shù)會(huì)發(fā)生快速變化。

因此,這些方法是無法適應(yīng)數(shù)學(xué)定理不斷演變復(fù)雜性,也就無法適用在定理證明中的終身學(xué)習(xí)。

如前所述,在23個(gè)不同的Lean代碼庫中, LeanAgent在定理證明終身學(xué)習(xí)方面取得了優(yōu)越性。

它成功證明了162個(gè)sorry定理,其中許多來自高等數(shù)學(xué)。

比如,LeanAgent證明了來自PFR倉庫的困難sorry定理,并證明了抽象代數(shù)和代數(shù)拓?fù)渲信cCoxeter系統(tǒng)和毛球定理相關(guān)的挑戰(zhàn)性定理。

另外,研究人員還發(fā)現(xiàn),LeanAgent在定理證明中,展現(xiàn)出漸進(jìn)學(xué)習(xí)的一面。

從最初證明基本的sorry定理,到后面證明了更復(fù)雜的定理。

而且,LeanAgent在只能證明新的sorry定理方面,比靜態(tài)ReProver基線高出多達(dá)11倍,同時(shí)保留了對已知定理證明的能力。

在定理證明中,作者還發(fā)現(xiàn)穩(wěn)定性(在不失去太多可塑性前提下),對于AI持續(xù)泛化到新倉庫至關(guān)重要。

反向遷移(BWT),即學(xué)習(xí)新任務(wù)改善先前學(xué)習(xí)任務(wù)的性能,也在定理證明中至關(guān)重要。

數(shù)學(xué)家需要一個(gè)既能持續(xù)泛化,又能持續(xù)改進(jìn)的定理證明終身學(xué)習(xí)框架。

最后的消融實(shí)驗(yàn)中,相較于7個(gè)終身學(xué)習(xí)框架,LeanAgent簡單的課程學(xué)習(xí)和漸進(jìn)訓(xùn)練組件,顯著提高了穩(wěn)定性和BWT得分。

最終,LeanAgent拿下了94%綜合終身學(xué)習(xí)的成績,幾乎接近完美。

這也揭示了,LeanAgent在持續(xù)泛化和改進(jìn)的強(qiáng)大能力,以及卓越的sorry定理證明性能。

LeanAgent對數(shù)學(xué)知識(shí)的掌握

在終身學(xué)習(xí)過程中,LeanAgent展示了對基本代數(shù)結(jié)構(gòu)和基本數(shù)學(xué)運(yùn)算的深刻理解。

a)群和環(huán)論

LeanAgent證明了關(guān)于基本代數(shù)結(jié)構(gòu)的定理。例如,MyGroup.mul_right_inv證明了將一個(gè)元素與其逆元素相乘等于單位元,而MyRing.add_right_cancel則展示了環(huán)加法的消去性質(zhì)。

圖片圖片

b)初等數(shù)論

LeanAgent可以處理基本的算術(shù)屬性。例如,MyRing.zero_mul證明了零乘以任何數(shù)都是零,而MyRing.neg_neg則證明了負(fù)數(shù)的負(fù)數(shù)等于原數(shù)。

圖片圖片

c)序理論

LeanAgent掌握了序理論的相關(guān)概念。例如,absorb 1證明了x與(x和y的上確界)的下確界總是等于x,而absorb2證明了x與(x和y的下確界)的上確界總是等于x。

圖片圖片

d)初等實(shí)分析

LeanAgent 展示了對實(shí)數(shù)及其絕對值性質(zhì)的初步理解。例如,C03S05.MyAbs.abs_add證明了涉及實(shí)數(shù)的三角不等式。

圖片圖片

終身學(xué)習(xí)過程表明,LeanAgent已經(jīng)從基礎(chǔ)開始理解數(shù)學(xué)概念。而在這個(gè)過程結(jié)束后,它的數(shù)學(xué)推理能力有顯著提升。

比如證明了涉及多個(gè)量詞和條件的邊界和絕對值的復(fù)雜命題。

圖片圖片

理解了抽象集合論的概念,證明了子集關(guān)系是傳遞的。

圖片圖片

方法

用于定理證明的有效終身學(xué)習(xí)策略,需要(a)最佳倉庫順序策略和(b)最佳學(xué)習(xí)策略。

通過課程學(xué)習(xí),研究者解決了(a),以利用Lean證明的結(jié)構(gòu),并通過漸進(jìn)式訓(xùn)練來解決(b),以平衡穩(wěn)定性和可塑性。

LeanAgent由四個(gè)主要組件組成:課程學(xué)習(xí)、動(dòng)態(tài)數(shù)據(jù)庫管理、檢索器的漸進(jìn)式訓(xùn)練和sorry定理證明。

課程學(xué)習(xí)

LeanAgent采用課程學(xué)習(xí)方法,學(xué)習(xí)逐漸增加復(fù)雜度的數(shù)學(xué)代碼庫。

這個(gè)過程優(yōu)化了LeanAgent的學(xué)習(xí)軌跡,讓它能夠在處理更高級的概念之前,先建立堅(jiān)實(shí)的基礎(chǔ)知識(shí)。

具體步驟如下:

  1. 自動(dòng)搜索并克隆GitHub上的Lean代碼庫。
  2. 使用LeanDojo提取每個(gè)代碼庫中定理、證明和依賴關(guān)系的細(xì)粒度信息。
  3. 使用公式eS計(jì)算每個(gè)定理的復(fù)雜度,其中S代表證明步驟的數(shù)量。對于沒有證明的sorry定理(即未完成證明的定理),賦予無限復(fù)雜度。
  4. 采用指數(shù)縮放,來解決隨著證明長度增加可能出現(xiàn)的證明路徑組合爆炸問題。
  5. 計(jì)算所有代碼庫中所有定理復(fù)雜度的第33百分位和第67百分位。
  6. 將非sorry定理分為三組:簡單(復(fù)雜度低于第33百分位)、中等(復(fù)雜度在第33百分位和第67百分位之間)和困難(復(fù)雜度高于第67百分位)。
  7. 按照代碼庫中包含的簡單定理數(shù)量對代碼庫進(jìn)行排序,形成課程基礎(chǔ)。

LeanAgent從包含最多簡單定理的代碼庫開始學(xué)習(xí)。

動(dòng)態(tài)數(shù)據(jù)庫管理

在建立課程后,研究者進(jìn)行以下操作:

  1. 將排序后的代碼庫添加到LeanAgent的自定義動(dòng)態(tài)數(shù)據(jù)庫中,使用LeanAgent提取的數(shù)據(jù)。
  2. 將每個(gè)定理的復(fù)雜度包含在動(dòng)態(tài)數(shù)據(jù)庫中,以便未來課程中高效重用代碼庫。
  3. 對課程中的每個(gè)代碼庫,LeanAgent使用動(dòng)態(tài)數(shù)據(jù)庫生成數(shù)據(jù)集,遵循與制作LeanDojo基準(zhǔn)測試4相同的程序。

生成的數(shù)據(jù)集包括:

  • 一系列定理及其證明
  • 每個(gè)證明步驟的詳細(xì)注釋,說明該步驟如何改變證明的狀態(tài)
  • 定理狀態(tài)信息,包括假設(shè)和證明進(jìn)展
  • 展示如何按順序使用特定的策略(函數(shù))和前提來證明定理
  • 前提語料庫,作為事實(shí)和定義的參考庫

檢索模型的漸進(jìn)式訓(xùn)練

LeanAgent在新生成的數(shù)據(jù)集上,對其檢索模型進(jìn)行漸進(jìn)式訓(xùn)練。

這種策略使LeanAgent能夠持續(xù)適應(yīng)新數(shù)據(jù)集中前提的新數(shù)學(xué)知識(shí),同時(shí)保留先前學(xué)習(xí)的信息,這對定理證明的終身學(xué)習(xí)至關(guān)重要。

漸進(jìn)式訓(xùn)練通過逐步整合每個(gè)代碼庫的新知識(shí)來實(shí)現(xiàn)這一目標(biāo)。訓(xùn)練過程如下:

  1. 起點(diǎn)選擇:雖然LeanAgent可以與任何LLM配合使用,但研究者選擇從ReProver的檢索模型開始。這是ByT5編碼器的微調(diào)版本,利用其從mathlib4獲得的一般預(yù)訓(xùn)練知識(shí)。
  2. 新數(shù)據(jù)集訓(xùn)練:在新數(shù)據(jù)集上額外訓(xùn)練LeanAgent一個(gè)epoch(訓(xùn)練周期)。這種有限的訓(xùn)練有助于防止對新數(shù)據(jù)過擬合,同時(shí)允許LeanAgent學(xué)習(xí)重要的新信息。
  3. 嵌入預(yù)計(jì)算:在驗(yàn)證之前,預(yù)先計(jì)算語料庫中所有前提的嵌入,以確保這些嵌入與LeanAgent的當(dāng)前狀態(tài)一致。
  4. 模型評估:
    - 計(jì)算可塑性:保存在前十個(gè)檢索到的前提(R@10)的驗(yàn)證召回率最高的模型迭代。這是一個(gè)原始可塑性值,用于評估LeanAgent適應(yīng)新數(shù)學(xué)類型的能力。
    - 計(jì)算穩(wěn)定性:計(jì)算模型在所有先前漸進(jìn)式訓(xùn)練過的數(shù)據(jù)集上的平均測試R@10,作為原始穩(wěn)定性值。
  5. 重復(fù)過程:對從數(shù)據(jù)庫生成的每個(gè)數(shù)據(jù)集重復(fù)上述步驟,體現(xiàn)訓(xùn)練的漸進(jìn)性質(zhì)。

漸進(jìn)式訓(xùn)練的效果:

  • 將新的前提添加到前提嵌入中
  • 增加可能的證明狀態(tài)空間
  • 使LeanAgent能夠探索更多樣化的證明路徑
  • 發(fā)現(xiàn)無法用原始知識(shí)庫產(chǎn)生的新證明

sorry定理的證明

對于每個(gè)sorry定理,LeanAgent AI智能體會(huì)通過最佳優(yōu)先樹搜索生成證明。具體步驟如下:

1. 前提檢索:

  • 使用之前收集的整個(gè)前提語料庫的嵌入
  • 基于當(dāng)前證明狀態(tài)(表示為上下文嵌入)與前提的相似性,從前提語料庫中檢索相關(guān)前提
  • 使用語料庫依賴圖進(jìn)行過濾,確保只考慮當(dāng)前文件可訪問的前提

2. 策略生成:

  • 將檢索到的前提添加到當(dāng)前狀態(tài)
  • 使用束搜索生成策略候選

3. 狀態(tài)評估:

  • 將每個(gè)策略候選通過Lean運(yùn)行,獲得潛在的下一個(gè)狀態(tài)
  • 每個(gè)成功的策略應(yīng)用都會(huì)向證明搜索樹添加一條新邊

4. 策略選擇:

  • 選擇具有最大累積對數(shù)概率的策略,即導(dǎo)致該狀態(tài)的策略序列的累積對數(shù)概率

5. 回溯處理:

  • 如果搜索遇到無效路徑,進(jìn)行回溯并探索替代路徑

6. 迭代過程:

  • 重復(fù)上述步驟,直到滿足以下條件之一:a) 找到證明 b) 窮盡所有可能性 c) 達(dá)到10分鐘的時(shí)間限制

7. 結(jié)果處理:

  • 如果LeanAgent找到證明,將其添加到動(dòng)態(tài)數(shù)據(jù)庫中
  • 新證明中添加的前提將包含在涉及當(dāng)前代碼庫的未來前提語料庫中
  • LeanAgent可以在未來的漸進(jìn)式訓(xùn)練中從新證明中學(xué)習(xí),進(jìn)一步改進(jìn)其性能

如前所述,研究者對從數(shù)據(jù)庫生成的每個(gè)數(shù)據(jù)集重復(fù)這個(gè)過程,因此這種訓(xùn)練具有漸進(jìn)性質(zhì)。

漸進(jìn)式訓(xùn)練將新的前提添加到前提嵌入中,并增加了可能的證明狀態(tài)空間。

這使LeanAgent能夠探索更多樣化的路徑來證明定理,發(fā)現(xiàn)它無法用原始知識(shí)庫產(chǎn)生的新證明。

實(shí)驗(yàn)

圖片圖片

sorry定理的證明

研究者比較LeanAgent AI智能體在持續(xù)學(xué)習(xí)過程中和之后能夠證明的sorry定理,并與ReProver基準(zhǔn)進(jìn)行對比。

選擇ReProver作為基準(zhǔn),是因?yàn)樵趯?shí)驗(yàn)中使用了它的檢索器作為LeanAgent的初始檢索器。

然而,由于定理證明難度的非線性特性,研究者避免在LeanAgent和ReProver之間進(jìn)行簡單的百分比比較。

值得注意的是,LeanAgent在多個(gè)代碼庫中顯著優(yōu)于基準(zhǔn)的性能,讓它能夠證明越來越難的定理。

此外,sorry定理缺乏已知的證明,因此證明一個(gè)sorry定理,對數(shù)學(xué)研究具有重要價(jià)值。

基于以上考慮,研究者提出了一個(gè)定理證明性能得分(Theorem Proving Performance Score,TPPS),特別強(qiáng)調(diào)新證明的sorry定理。

TPPS的計(jì)算方法如下:

  1. LeanAgent TPPS = (# ReProver Theorems Proved) + (# New Theorems Proved * X) + 1
  2. ReProver TPPS = (# ReProver Theorems Proved) + 1
  3. improvement Factor = (LeanAgent TPPS) / (ReProver TPPS)

其中,X代表證明新定理的重要性權(quán)重??紤]到基礎(chǔ)算術(shù)和抽象代數(shù)之間的巨大難度差距,研究者選擇了X = 10。

此外,LeanAgent AI智能體的一個(gè)使用場景,是在學(xué)習(xí)完一個(gè)課程后在新的代碼庫中進(jìn)行形式化(即將數(shù)學(xué)概念和證明轉(zhuǎn)化為計(jì)算機(jī)可驗(yàn)證的形式)。

研究者通過在MiniF2F上逐步訓(xùn)練來展示這一點(diǎn)。需要注意的是,我們選擇了MiniF2F代碼庫的Lean4版本,并忽略了其驗(yàn)證集和測試集的劃分(原因詳見附錄A.5)。

數(shù)學(xué)家可以使用LeanAgent進(jìn)行以下兩步操作:

1. 學(xué)習(xí)初始課程A

2. 學(xué)習(xí)子課程B

然后,LeanAgent可以幫助數(shù)學(xué)家并行地形式化課程A+B中的代碼庫。

為了演示這種情況,研究者在8個(gè)代碼庫組成的子課程B上繼續(xù)訓(xùn)練LeanAgent。結(jié)果見表2,案例研究見圖2。

圖片圖片

圖片圖片

LeanAgent在多個(gè)代碼庫中,展示了持續(xù)的泛化能力和定理證明能力的提升。

在終身學(xué)習(xí)結(jié)束時(shí),LeanAgent相比ReProver的改進(jìn)因子如下:

- PFR:11倍

- Mathematics in Lean Source:5.67倍

- MiniF2F:2.63倍

- SciLean:2.2倍

- Hairy Ball定理:11倍

- Coxeter:11倍

- Formal Book:4.33倍

在大多數(shù)情況下,LeanAgent的證明是ReProver所證明的sorry定理的超集。LeanAgent的學(xué)習(xí)進(jìn)展從基本概念(如算術(shù)、簡單代數(shù))逐步深入到高級主題(如抽象代數(shù)、拓?fù)鋵W(xué))。

1. PFR:

LeanAgent AI智能體能夠證明這個(gè)前沿代碼庫中的一個(gè)sorry定理,而ReProver做不到。它還能泛化到不同的代碼提交,僅使用rfl策略就能證明ReProver無法證明的定理。有趣的是,LeanAgent對PFR代碼庫中的邏輯操作理解得足夠深入,能夠用「0 = 1」這樣的占位符定理語句,證明5個(gè)sorry定理。

2. SciLean:

在終身學(xué)習(xí)過程中,LeanAgent證明了與基本代數(shù)結(jié)構(gòu)、線性和仿射映射以及測度論基礎(chǔ)相關(guān)的定理。到終身學(xué)習(xí)結(jié)束時(shí),它掌握了高級函數(shù)空間、復(fù)雜雙射和抽象代數(shù)結(jié)構(gòu)的概念。

3. Mathematics in Lean Source:

在終身學(xué)習(xí)過程中,LeanAgent證明了關(guān)于基本代數(shù)結(jié)構(gòu)和基本算術(shù)性質(zhì)的定理。到終身學(xué)習(xí)結(jié)束時(shí),它能夠證明涉及量詞操作、集合論和關(guān)系的復(fù)雜定理。

4. MiniF2F:

ReProver展示了在基礎(chǔ)算術(shù)、初等代數(shù)和簡單微積分方面的熟練程度。然而,到終身學(xué)習(xí)結(jié)束時(shí),LeanAgent掌握了高級數(shù)論、復(fù)雜代數(shù)、復(fù)雜微積分和分析、抽象代數(shù)以及復(fù)雜歸納法。

5. 子課程:

  • Formal Book代碼庫:LeanAgent從證明基本實(shí)分析和數(shù)論定理進(jìn)步到掌握高級抽象代數(shù),其證明Wedderburn小定理就是一個(gè)例證。
  • Coxeter代碼庫:LeanAgent證明了一個(gè)關(guān)于Coxeter系統(tǒng)的復(fù)雜引理,展示了它在群論方面的熟練程度。
  • Hairy Ball定理代碼庫:LeanAgent證明了該定理的一個(gè)關(guān)鍵步驟,展示了對代數(shù)拓?fù)涞睦斫狻?/span>

LeanAgent能夠證明這些令人印象深刻的定理,表明它比ReProver具有更高級的定理證明能力。

終身學(xué)習(xí)分析

因?yàn)槲墨I(xiàn)中不存在其他用于定理證明的終身學(xué)習(xí)框架,因此研究者進(jìn)行了一項(xiàng)消融研究,使用七個(gè)終身學(xué)習(xí)指標(biāo),來展示LeanAgent AI智能體在處理穩(wěn)定性-可塑性權(quán)衡方面的優(yōu)越性。

這些結(jié)果有助于解釋LeanAgent AI智能體在sorry定理證明性能方面的優(yōu)勢。

研究者為原始的14個(gè)代碼庫課程計(jì)算了這些指標(biāo)。

具體來說,消融研究包括七個(gè)額外的設(shè)置,這些設(shè)置由學(xué)習(xí)和數(shù)據(jù)集選項(xiàng)組合而成。學(xué)習(xí)設(shè)置的選項(xiàng)是有或沒有EWC的漸進(jìn)式訓(xùn)練。

數(shù)據(jù)集設(shè)置涉及數(shù)據(jù)集順序和構(gòu)建。數(shù)據(jù)集順序的選項(xiàng)包括單一代碼庫或合并所有,其中每個(gè)數(shù)據(jù)集由所有先前的代碼庫和新的代碼庫組成。

考慮到GitHub上按星級計(jì)數(shù)最受歡迎的代碼庫,數(shù)據(jù)集構(gòu)建的選項(xiàng)包括受歡迎度順序或課程順序。

圖片圖片

圖片圖片

研究者使用了以下七個(gè)終身學(xué)習(xí)指標(biāo):

1. 窗口遺忘5(WF5)

2. 遺忘度量(FM)

3. 災(zāi)難性遺忘恢復(fù)力(CFR)

4. 擴(kuò)展反向遷移(EBWT)

5. 窗口可塑性5(WP5)

6. 增量可塑性(IP)

7. 綜合得分(CS)

他們引入了三個(gè)新指標(biāo),來解決定理證明中終身學(xué)習(xí)的特定方面:

  • 災(zāi)難性遺忘恢復(fù)力(CFR):這個(gè)指標(biāo)捕捉了LeanAgent AI智能體在其最弱任務(wù)上,相對于其最佳表現(xiàn)保持性能的能力,這在存在多樣化數(shù)學(xué)領(lǐng)域的情況下至關(guān)重要。
  • 增量可塑性(IP):IP提供了比總體措施更細(xì)粒度的可塑性視圖,并對任務(wù)順序敏感,這在定理證明的終身學(xué)習(xí)中特別相關(guān)。
  • 綜合得分:目前應(yīng)該還沒有廣泛建立的綜合指標(biāo)能夠提供一個(gè)單一的穩(wěn)定性-可塑性權(quán)衡得分,包含表3中的前六個(gè)指標(biāo)。

因此,研究者提出了一個(gè)綜合得分:Composite Score = 0.2 · (1 ? WF5_norm) + 0.2 · (1 ? FM_norm) + 0.1 · WP5_norm + 0.1 · IP_norm + 0.2 · EBWT_norm + 0.2 · CFR_ norm

圖片圖片

此外,這些指標(biāo)在合并所有策略中衡量的是累積知識(shí)改進(jìn)而不是孤立的任務(wù)表現(xiàn)。

圖片圖片

1. 單一代碼庫分析

表4呈現(xiàn)了,單一代碼庫的結(jié)果。

LeanAgent智能體在多項(xiàng)指標(biāo)上,展現(xiàn)出卓越的穩(wěn)定性。其WF5指標(biāo)比下一個(gè)最佳設(shè)置低75.34%,表明它能更有效地在一個(gè)時(shí)間窗口內(nèi)保持性能。

LeanAgent FM得分比設(shè)置3還要低59.97%,展示了其對災(zāi)難性遺忘的強(qiáng)大抵抗力。

此外,LeanAgent智能體、設(shè)置1和設(shè)置2中,都表現(xiàn)出高度一致的不會(huì)出現(xiàn)災(zāi)難性遺忘,CFR值均超過0.87,差異極?。▋H±0.01)。

這恰恰凸顯了,LeanAgent智能體隨時(shí)間持續(xù)泛化的能力。

另外,它EBWT高出16.25%,進(jìn)而表明其具備了隨時(shí)間持續(xù)改進(jìn)的能力。

圖片圖片

相比之下,設(shè)置3表現(xiàn)出更高可塑性。

它的WP5比LeanAgent AI 智能體高出38.26%,表明其在一個(gè)時(shí)間窗口內(nèi),快速適應(yīng)新任務(wù)的能力更強(qiáng)。

設(shè)置3 IP 比LeanAgent智能體高出3.98%相輔相成,暗示了隨著時(shí)間推移,其在新任務(wù)上改進(jìn)更為顯著。

然而,這些可塑性的提升是以極大代價(jià)換來的:設(shè)置3產(chǎn)生了更嚴(yán)重的災(zāi)難性遺忘,可從其與LeanAgent智能體相比明顯較差的穩(wěn)定性指標(biāo)可以看出。

設(shè)置3中過度的可塑性,源于EWC無法隨定理復(fù)雜性增加而調(diào)整參數(shù)重要性。

EWC保留了對簡單定理重要的參數(shù),但這些參數(shù)可能對更復(fù)雜的定理,并不關(guān)鍵。

因此,這些保留的參數(shù)抗拒變化,而其他參數(shù)為復(fù)雜定理快速變化。這迫使模型整體變得更具可塑性,在處理新的復(fù)雜定理時(shí)嚴(yán)重依賴非保留參數(shù)。

LeanAgent AI 智能體在綜合得分上表現(xiàn)出卓越性能,能夠在適應(yīng)新任務(wù)的同時(shí),保持已有知識(shí),使其成為單一代碼庫設(shè)置中最適合終身學(xué)習(xí)智能體。

2. 合并所有分析

接下來,研究人員分析了表4中的合并所有設(shè)置。

設(shè)置5的WF5指標(biāo)比下一個(gè)最佳設(shè)置(設(shè)置7)低61.68%,表明設(shè)置5在不斷擴(kuò)大的數(shù)據(jù)集中最有效地實(shí)現(xiàn)可塑性和穩(wěn)定性平衡。

此外,設(shè)置5的CFR得分比設(shè)置7高3.77%,再次展示了面對不斷擴(kuò)大、可能更復(fù)雜的數(shù)據(jù)集時(shí)的高度且一致的抵抗力。

然而,設(shè)置7的FM得分比設(shè)置5低6.44%,展示了其在早期數(shù)據(jù)點(diǎn)上能夠保持已有知識(shí)的能力。

此外,設(shè)置5是唯一一個(gè)EBWT為正的設(shè)置,表明學(xué)習(xí)新任務(wù)可以提高整個(gè)歷史數(shù)據(jù)集的性能。其他設(shè)置的EBWT為負(fù),表明在學(xué)習(xí)新任務(wù)后,早期任務(wù)的性能有所下降。

只有設(shè)置5和7的WP5不為0,表明它們有能力適應(yīng)合并數(shù)據(jù)集不斷增加的復(fù)雜性。

設(shè)置4和6為0數(shù)值表明,在處理合并數(shù)據(jù)時(shí),按受歡迎程度排序難以顯示改進(jìn)。然而,盡管設(shè)置5的IP得分最高,比設(shè)置7高27.75%,但所有4個(gè)設(shè)置的IP值都為負(fù)。

這表明驗(yàn)證R@10隨時(shí)間推移而下降,說明合并所有策略難以保持性能。

設(shè)置5的高綜合得分表明,它在平衡保留早期知識(shí)與適應(yīng)合并數(shù)據(jù)集中的新數(shù)據(jù)方面表現(xiàn)最佳。然而,其負(fù)IP值表明其方法存在根本性問題。

3. 比較分析和洞見

盡管這些指標(biāo)在單一代碼庫和合并所有設(shè)置中有不同的解釋,但研究者表示,仍然可以通過關(guān)注整體趨勢和相對表現(xiàn),來進(jìn)行一些有意義的比較。

研究者注意到,合并所有設(shè)置中的負(fù)IP值表明存在重大問題。

這個(gè)缺點(diǎn)超過了其他指標(biāo)所顯示的潛在優(yōu)勢,因?yàn)樗沂玖嗽诔掷m(xù)增長的數(shù)據(jù)集中無法保持和改善性能的根本問題。

相比之下,LeanAgent展示了正IP值,表明其能夠有效吸收新知識(shí)。

這一特點(diǎn),再加上其相對于其他單一代碼庫方法更優(yōu)越的穩(wěn)定性和EBWT指標(biāo),表明LeanAgent比設(shè)置5更適合實(shí)現(xiàn)持續(xù)的泛化能力和性能改進(jìn)。

4. 與sorry定理證明性能的一致性

這種終身學(xué)習(xí)分析與LeanAgent在sorry定理證明方面的性能表現(xiàn)是一致的。

LeanAgent優(yōu)越的穩(wěn)定性指標(biāo)(WF5、FM和CFR),解釋了它在不同數(shù)學(xué)領(lǐng)域保持性能的能力,這一點(diǎn)從它成功證明來自SciLean、Mathematics in Lean Source和PFR等不同代碼庫的定理中就可以被證實(shí)。

其高EBWT分?jǐn)?shù)與它在定理證明中從基本概念到高級主題的進(jìn)展相一致。

雖然LeanAgent相比某些設(shè)置顯示出略低的可塑性(WP5和IP),但這種權(quán)衡實(shí)際上導(dǎo)致了更好的整體性能。這一點(diǎn)體現(xiàn)在它能夠證明比其他方法更廣泛的sorry定理集合。

由持續(xù)泛化能力、持續(xù)改進(jìn)和可塑性組成的綜合得分,進(jìn)一步證實(shí)了LeanAgent在定理證明的終身學(xué)習(xí)方面具有全面的優(yōu)勢。

作者介紹

Peiyang Song

圖片圖片

Peiyang Song是加州理工學(xué)院(Caltech)計(jì)算機(jī)科學(xué)的本科生,由Steven Low教授的指導(dǎo)。同時(shí)也是斯坦福人工智能實(shí)驗(yàn)室(SAIL)的研究員,在計(jì)算與認(rèn)知實(shí)驗(yàn)室(CoCoLab)由Noah Goodman教授指導(dǎo)。

他的研究方向是機(jī)器推理,特別是用于數(shù)學(xué)和代碼生成的AI。此前,從事過高能效機(jī)器學(xué)習(xí)系統(tǒng)和機(jī)器翻譯的研究。

Chaowei Xiao

圖片

Chaowei Xiao是威斯康星大學(xué)麥迪遜分校的助理教授,同時(shí)也是英偉達(dá)的研究員。

他的研究方向是探索LLM系統(tǒng)的安全性和安全保障,以及LLM在不同應(yīng)用領(lǐng)域中的作用。

此前,他在密歇根大學(xué)安娜堡分校獲得博士學(xué)位,并在清華大學(xué)獲得學(xué)士學(xué)位。

參考資料:

https://arxiv.org/abs/2410.06209

https://x.com/AnimaAnandkumar/status/1844756761510859034

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-10-14 14:31:36

2024-07-29 13:28:52

2024-12-09 09:35:00

AI數(shù)據(jù)訓(xùn)練

2023-12-16 09:42:12

2024-10-28 16:20:00

2023-10-28 13:18:05

AI工具

2023-10-04 08:07:06

CopilotGitHub

2023-10-10 12:30:51

AI模型

2023-09-02 11:21:54

代碼ChatGPT

2023-10-10 13:51:46

GPT-4GitHubAI

2022-12-19 10:45:14

編程幾何

2024-01-31 13:04:00

AI數(shù)據(jù)

2023-09-04 13:16:00

人工智能模型

2024-09-29 14:00:00

AI數(shù)學(xué)自動(dòng)化

2024-07-29 08:49:00

AI數(shù)學(xué)

2024-02-26 08:30:00

2024-04-15 12:29:00

AI訓(xùn)練

2023-06-30 13:42:44

2023-05-15 15:13:46

智能工作

2024-12-02 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)