谷歌AlphaGeometry2攻克IMO幾何難題,已超越金牌得主平均水準
OpenAI 與 DeepSeek 卷得不可開交的時候,谷歌 DeepMind 的數(shù)學推理模型又偷偷驚艷了所有人。
在最新的一篇論文中,谷歌 DeepMind 介紹了全新進化的 AlphaGeometry 2,該系統(tǒng)在解決奧林匹克幾何問題方面已經(jīng)超過了金牌得主的平均水準。
- 論文標題:Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
- 論文鏈接:https://arxiv.org/pdf/2502.03544
國際奧林匹克數(shù)學競賽(IMO)是一項面向全球高中生的著名數(shù)學競賽。IMO 問題以難度大著稱,解決這些問題需要對數(shù)學概念有深刻理解,并能創(chuàng)造性地應用這些概念。幾何是 IMO 四大題型之一,各題型之間最為統(tǒng)一,非常適合基礎推理研究。因此,這項賽事也成為了衡量人工智能系統(tǒng)高級數(shù)學推理能力的理想基準。
在 2024 年 7 月,谷歌 DeepMind 曾經(jīng)介紹了 AlphaGeometry (AG1),這是一個神經(jīng)符號系統(tǒng),在 2000-2024 年 IMO 幾何問題上的解題率達到 54%,距離金牌也只有一步之遙。AG1 將語言模型 (LM) 與符號引擎相結合,有效地解決了這些具有挑戰(zhàn)性的問題,造就了數(shù)學領域的「AlphaGo 時刻」。
盡管 AG1 取得了成功,但它在幾個關鍵領域仍存在局限性。其性能受限于特定領域語言的范圍、符號引擎的效率以及初始語言模型的容量。因此,在考慮 2000 年至今的所有 IMO 幾何問題時,AG1 只能達到 54% 的解題率。
最新的這篇論文介紹了 AlphaGeometry2(AG2),它是解決了這些限制的升級版本,并顯著提高了性能。AG2 利用了更強大的基于 Gemini 的語言模型,該模型是在一個更大、更多樣化的數(shù)據(jù)集上訓練出來的。團隊還引入了速度更快、更強大的符號引擎,并進行了優(yōu)化,如減少規(guī)則集和增強對二重點的處理。此外,團隊還擴展了領域語言,以涵蓋更廣泛的幾何概念,包括軌跡定理(locus theorem)和線性方程(linear equation)。
為了進一步提高性能,他們開發(fā)了一種新型搜索算法,可探索更廣泛的輔助構造策略,并采用知識共享機制來擴展和加速搜索過程。最后,他們在建立一個用自然語言解決幾何問題的全自動可信賴系統(tǒng)方面取得了進展。為此,谷歌利用 Gemini 將問題從自然語言翻譯成 AlphaGeometry 語言,并實施了新的自動圖解生成算法。
這些改進最終大大提高了性能:AG2 在 2000-2024 年 IMO 所有幾何問題上的解題率達到了令人印象深刻的 84%,這表明人工智能在處理具有挑戰(zhàn)性的數(shù)學推理任務方面實現(xiàn)了重大飛躍,并超越了 IMO 金牌得主的平均水準。
核心提升如下:
- 擴展領域語言:涵蓋軌跡型定理、線性方程和非構造性問題陳述;
- 更強更快的符號引擎:優(yōu)化了規(guī)則集,增加了對二重點的處理,以及更快的 C++ 實現(xiàn);
- 先進新穎的搜索算法:利用知識共享的多搜索樹;
- 增強的語言模型:利用 Gemini 架構在更大和更多樣化的數(shù)據(jù)集上進行訓練。
更強、更快的符號引擎
符號引擎是 AlphaGeometry 的核心組件,谷歌稱之為演繹數(shù)據(jù)庫算術推理(Deductive Database Arithmetic Reasoning,DDAR)。它是一種計算演繹閉包的算法,即給定一組核心初始事實的所有可演繹事實集合。DDAR 遵循一組固定的演繹規(guī)則來構建此演繹閉包,并迭代地將新的事實添加到演繹閉包中,直到無法再添加。
DDAR 驅動語言模型的訓練數(shù)據(jù)生成以及測試時證明搜索期間的演繹步驟搜索。在這兩種情況下,速度都至關重要。更快的數(shù)據(jù)生成可以達成更大規(guī)模、更積極的數(shù)據(jù)過濾,而更快的證明搜索可以實現(xiàn)更廣泛的搜索,從而增加給定時間預算內找到解決方案的可能性。
DDAR 有以下三項主要改進:
- 處理二重點(double ponit)的能力;
- 更快的算法;
- 更快的實現(xiàn)。
處理二重點
在重新實現(xiàn) DDAR 時,谷歌試圖保持與原始算法大致相同的邏輯強度,只是由于實現(xiàn)差異而稍微強一些(例如泰勒斯定理被更通用的圓心角定理取代)。然而,DDAR 缺少一個對解決難題至關重要的關鍵特性:它無法接受兩個名稱不同但坐標相同的點。
例如,想象一個問題:在點 ?? 處兩條線 ??,?? 相交,并打算證明 ?? 位于某個圓 ?? 上。最合理的方法可能是重構,不證明 ??,?? 的交點在 ?? 上,而是證明 ??,?? 的交點在 ?? 上。這是等效的,但更容易證明,因為可以在圓上移動角度。具體可參見圖 1。
要對雙重點推理實現(xiàn)這種重構,需要執(zhí)行以下四個步驟:
- 構造一個新點??′作為 ??,?? 的交點(不知道 ??′ 是否與 ?? 重合)。這是一個輔助構造,必須由語言模型預測;
- 證明??位于??上;
- 由于??和??′都位于??,??上,得出?? = ??′;
- 因此??位于??上。
更快的算法
DDAR 算法可以處理一系列規(guī)則,并嘗試將每條規(guī)則應用于所有點的組合。此過程涉及以下兩個部分:
- 候選搜索步驟,它的時間復雜度是點數(shù)的多項式;
- 子句匹配步驟,它的時間復雜度是每個前提的子句數(shù)的指數(shù)。
理論上,在 AG1 中搜索相似三角形候選的最壞情況是 ??(??^8),這是最耗時的步驟之一。指數(shù)級子句匹配是另一個成本高昂的步驟。
DDAR 最耗時的兩個部分是搜索相似三角形和搜索圓內接四邊形。在 AG2 中,谷歌設計了一種改進的 DDAR2 算法。對于相似三角形,他們遍歷所有的點三元組,對它們的「形狀」進行哈希處理。如果兩次識別出形狀,則檢測出相似的對。
對于圓內接四邊形,谷歌遍歷所有對(點??、線段????),并對(??,??,∠??????)的值進行哈希處理。如果這樣的三元組重復出現(xiàn),就得到一個圓內接四邊形。線段 ???? 或 ∠?????? 的「值」是指 AR 子模塊計算出的符號范式。該子模塊跟蹤角度、距離和對數(shù)距離之間的已知線性方程,了解其代數(shù)結果,并將任何線性表達式簡化為其標準范式。
更快的實現(xiàn)
雖然新算法已經(jīng)顯著加快了 DDAR 的速度,但谷歌使用 C++ 實現(xiàn)其核心計算(高斯消元法),從而進一步提升了速度。
新的 C++ 庫通過 pybind11 導出到 Python,速度是 DDAR1 的 300 多倍。為了對速度改進進行基準測試,谷歌選擇了一組 25 道 DDAR 無法解決的 IMO 問題(見圖 8),并在配備 AMD EPYC 7B13 64 核 CPU 的機器上運行測試 50 次。
結果顯示,DDAR1 平均可以在 1179.57±8.055 秒內完成計算,但 DDAR2 的速度要快得多,在 3.44711 ± 0.05476 秒內完成。
更好的合成訓練數(shù)據(jù)
與 AG1 類似,谷歌使用的合成數(shù)據(jù)生成方法從隨機圖采樣開始,并使用符號引擎從中推斷出所有可能的事實。并且對于每個推斷出的事實,他們都使用回溯算法來提取可以證明事實的相應前提、輔助點和推理步驟。
谷歌的數(shù)據(jù)生成方法刻意避免使用人為設計的問題作為初始圖種子,并嚴格從隨機圖開始。這種設計選擇消除了數(shù)據(jù)污染的風險,并允許探索可能超出現(xiàn)有人類知識的定理分布。
更大、更復雜的圖表和更好的數(shù)據(jù)分布。首先,谷歌擴大數(shù)據(jù)生成的來源,并更仔細地重新平衡數(shù)據(jù)分布。圖 2 展示了 AG2 與 AG1 的訓練數(shù)據(jù)比較:
- 探索兩倍大小的隨機圖,從而提取更復雜的問題;
- 生成的定理復雜了兩倍,即點和前提的數(shù)量;
- 生成的證明復雜了 10 倍,即證明步驟多 10 倍;
- 問題類型之間的數(shù)據(jù)分布更均衡;
- 有無輔助點的問題之間的數(shù)據(jù)分布更均衡。
更快的數(shù)據(jù)生成算法。谷歌還提升了數(shù)據(jù)生成算法的速度?;叵?AG1,谷歌首先在隨機圖上運行演繹閉包,然后回溯以獲得可以證明閉包中每個事實的最小問題和最小證明。為了獲得 AG1 中的最小問題,必須從問題中徹底刪除不同的點子集,然后重新運行 DDAR 以檢查可證明性。這樣的搜索可以找到基數(shù)最小的子集,但是作為指數(shù)級搜索,對于大量的點而言不可行。
因此,谷歌切換到圖 3 所示的貪婪丟棄算法,該算法僅使用線性數(shù)量的檢查來判斷一組點是否足以證明目標。只要檢查是單調的(如果 ?? ? ??,則 check_provable (??) ? check_provable (??)),貪婪算法就保證找到一組關于包含(inclusion)的最小點集。
新穎的搜索算法
在 AG1 中,谷歌使用簡單的束搜索來發(fā)現(xiàn)證明。在 AG2 中,他們設計了一種新穎的搜索算法,可以并行執(zhí)行多個不同配置的束搜索,并允許它們通過知識共享機制互相幫助,具體可見圖 4。為了提高系統(tǒng)的穩(wěn)健性,谷歌還為每個搜索樹配置使用多個不同的語言模型。這種搜索算法被稱為搜索樹的共享知識集合(Shared Knowledge Ensemble of Search Trees,SKEST) 。
該搜索算法的工作原理如下所示:在每個搜索樹中,一個節(jié)點對應于一次輔助構造嘗試,然后是一次符號引擎運行嘗試。如果嘗試成功,所有搜索樹都會終止。如果嘗試失敗,節(jié)點將把符號引擎設法證明的事實寫入共享事實數(shù)據(jù)庫。這些共享事實經(jīng)過過濾,使它們不是特定于節(jié)點本身的輔助點,而僅與原始問題相關。這樣一來,這些事實也可以對同一搜索樹中的其他節(jié)點以及不同搜索樹中的節(jié)點產(chǎn)生助益。
系統(tǒng)設計細節(jié)。對于證明搜索,谷歌使用 TPUv4 為每個模型提供多個副本,并讓同一模型內的不同搜索樹根據(jù)自身的搜索策略來查詢同一服務器。除了異步運行這些搜索樹之外,谷歌還對 DDAR 工作器與 LM 工作器進行異步運算,其中 LM 工作器將它們探索的節(jié)點內容寫入數(shù)據(jù)庫,DDAR 工作器異步拾取這些節(jié)點并嘗試它們。DDAR 工作器之間相互協(xié)調,以確保它們平等分配工作。單個 DDAR 工作器池在不同問題之間共享(如果一次解決多個問題),這樣先前解決的問題就會為正在解決的其余問題釋放自己的 DDAR 計算資源。
更好的語言模型
AG2 的最后一項改進是使用新的語言模型。下面將討論全新的訓練和推理設置。
訓練設置
AG1 是一種定制版 Transformer,以無監(jiān)督方式分兩個階段進行訓練:先對有無輔助結構的問題進行訓練,然后僅對包含輔助結構的問題進行訓練。
對于 AG2,谷歌利用了 Gemini 訓練流程并將訓練簡化為一個階段:對所有數(shù)據(jù)進行無監(jiān)督學習。他們使用了一種基于稀疏混合專家(MoE)Transformer 的新模型,該模型以 Gemini 1.5 為基礎,并使用 AG2 數(shù)據(jù)進行訓練。
谷歌使用以下三種設置來訓練不同大小的多個模型:
1. 使用領域特定語言中的自定義 tokenizer 從頭開始訓練(AG1 設置);
2. 使用自然語言微調已經(jīng)預訓練的自定義專業(yè)數(shù)學 Gemini 模型;
3. 使用額外的圖像輸入(給定幾何題的圖表)從頭開始進行多模態(tài)訓練。
谷歌使用 TPUv4,并以硬件允許的最大批大小訓練模型。學習率計劃是先線性預熱,然后余弦退火。學習率超參由 scaling 定律確定。在圖 5 中,他們展示了基于參數(shù)量的不同大小的 Gemini 的學習曲線。正如預期的那樣,增加模型大小會降低訓練、評估以及特殊 IMO 評估集的困惑度損失。
推理設置
在 AG2 中,谷歌在提出輔助構造之前讓 LM 了解 DDAR 所做的推論,進而豐富這個神經(jīng)符號接口。也就是說,他們將以下信息輸入到 LM 中
- ??_1:給定原始問題前提,DDAR 可推導出的事實集;
- ??_2:給定原始問題前提并假設目標謂詞也為真,DDAR 可推導出的事實集;
- ??_3:數(shù)字正確的事實集(檢查圖表)。
競賽結果
本文的主要下游指標是 IMO 幾何題的解決率。2000-2024 年 IMO 共有 45 道幾何題,谷歌將它們轉化為了 50 道 AlphaGeometry 問題(稱該集合為 IMO-AG-50)。
圖 8 展示了主要結果,AlphaGeometry2 解決了 2000-2024 年 IMO 所有 50 道幾何題中的 42 道,從而首次超越了金牌得主平均水平。
表 4 中提供了更多詳細信息,其中將各種 AG2 配置與其他系統(tǒng)進行了比較。可以看到,AG2 實現(xiàn)了 SOTA。
在圖 7 中,針對通過前文「經(jīng)典」樹搜索與 DDAR 耦合的一個語言模型,谷歌將 IMO 解決率表示為了訓練時函數(shù)(訓練期間看到的 tokens)。有趣的是,AG2 僅在批大小為 256 時的 250 個時間步后(或者大約 2 億 tokens),就解決了 50 道幾何題中的 27 道。
谷歌還對推理設置如何影響整體性能進行了消融實驗,結果如圖 9 所示。他們發(fā)現(xiàn),對于單個搜索樹,最優(yōu)配置是束大小 128、束深度 4 以及樣本 32。