自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="6caj6"><track id="6caj6"></track></legend><legend id="6caj6"></legend>

<style id="6caj6"></style>

<sub id="6caj6"><p id="6caj6"></p></sub>

^{<blockquote id="6caj6"></blockquote>}

<style id="6caj6"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

谷歌AlphaGeometry2攻克IMO幾何難題，已超越金牌得主平均水準

作者：機器之心 2025-02-10 09:10:00

人工智能新聞

在最新的一篇論文中，谷歌 DeepMind 介紹了全新進化的 AlphaGeometry 2，該系統(tǒng)在解決奧林匹克幾何問題方面已經(jīng)超過了金牌得主的平均水準。

OpenAI 與 DeepSeek 卷得不可開交的時候，谷歌 DeepMind 的數(shù)學推理模型又偷偷驚艷了所有人。

在最新的一篇論文中，谷歌 DeepMind 介紹了全新進化的 AlphaGeometry 2，該系統(tǒng)在解決奧林匹克幾何問題方面已經(jīng)超過了金牌得主的平均水準。

論文標題：Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
論文鏈接：https://arxiv.org/pdf/2502.03544

國際奧林匹克數(shù)學競賽（IMO）是一項面向全球高中生的著名數(shù)學競賽。IMO 問題以難度大著稱，解決這些問題需要對數(shù)學概念有深刻理解，并能創(chuàng)造性地應用這些概念。幾何是 IMO 四大題型之一，各題型之間最為統(tǒng)一，非常適合基礎推理研究。因此，這項賽事也成為了衡量人工智能系統(tǒng)高級數(shù)學推理能力的理想基準。

在 2024 年 7 月，谷歌 DeepMind 曾經(jīng)介紹了 AlphaGeometry (AG1)，這是一個神經(jīng)符號系統(tǒng)，在 2000-2024 年 IMO 幾何問題上的解題率達到 54%，距離金牌也只有一步之遙。AG1 將語言模型 (LM) 與符號引擎相結合，有效地解決了這些具有挑戰(zhàn)性的問題，造就了數(shù)學領域的「AlphaGo 時刻」。

盡管 AG1 取得了成功，但它在幾個關鍵領域仍存在局限性。其性能受限于特定領域語言的范圍、符號引擎的效率以及初始語言模型的容量。因此，在考慮 2000 年至今的所有 IMO 幾何問題時，AG1 只能達到 54% 的解題率。

最新的這篇論文介紹了 AlphaGeometry2（AG2），它是解決了這些限制的升級版本，并顯著提高了性能。AG2 利用了更強大的基于 Gemini 的語言模型，該模型是在一個更大、更多樣化的數(shù)據(jù)集上訓練出來的。團隊還引入了速度更快、更強大的符號引擎，并進行了優(yōu)化，如減少規(guī)則集和增強對二重點的處理。此外，團隊還擴展了領域語言，以涵蓋更廣泛的幾何概念，包括軌跡定理（locus theorem）和線性方程（linear equation）。

為了進一步提高性能，他們開發(fā)了一種新型搜索算法，可探索更廣泛的輔助構造策略，并采用知識共享機制來擴展和加速搜索過程。最后，他們在建立一個用自然語言解決幾何問題的全自動可信賴系統(tǒng)方面取得了進展。為此，谷歌利用 Gemini 將問題從自然語言翻譯成 AlphaGeometry 語言，并實施了新的自動圖解生成算法。

這些改進最終大大提高了性能：AG2 在 2000-2024 年 IMO 所有幾何問題上的解題率達到了令人印象深刻的 84%，這表明人工智能在處理具有挑戰(zhàn)性的數(shù)學推理任務方面實現(xiàn)了重大飛躍，并超越了 IMO 金牌得主的平均水準。

核心提升如下：

擴展領域語言：涵蓋軌跡型定理、線性方程和非構造性問題陳述；
更強更快的符號引擎：優(yōu)化了規(guī)則集，增加了對二重點的處理，以及更快的 C++ 實現(xiàn)；
先進新穎的搜索算法：利用知識共享的多搜索樹；
增強的語言模型：利用 Gemini 架構在更大和更多樣化的數(shù)據(jù)集上進行訓練。

更強、更快的符號引擎

符號引擎是 AlphaGeometry 的核心組件，谷歌稱之為演繹數(shù)據(jù)庫算術推理（Deductive Database Arithmetic Reasoning，DDAR）。它是一種計算演繹閉包的算法，即給定一組核心初始事實的所有可演繹事實集合。DDAR 遵循一組固定的演繹規(guī)則來構建此演繹閉包，并迭代地將新的事實添加到演繹閉包中，直到無法再添加。

DDAR 驅動語言模型的訓練數(shù)據(jù)生成以及測試時證明搜索期間的演繹步驟搜索。在這兩種情況下，速度都至關重要。更快的數(shù)據(jù)生成可以達成更大規(guī)模、更積極的數(shù)據(jù)過濾，而更快的證明搜索可以實現(xiàn)更廣泛的搜索，從而增加給定時間預算內找到解決方案的可能性。

DDAR 有以下三項主要改進：

處理二重點（double ponit）的能力；
更快的算法；
更快的實現(xiàn)。

處理二重點

在重新實現(xiàn) DDAR 時，谷歌試圖保持與原始算法大致相同的邏輯強度，只是由于實現(xiàn)差異而稍微強一些（例如泰勒斯定理被更通用的圓心角定理取代）。然而，DDAR 缺少一個對解決難題至關重要的關鍵特性：它無法接受兩個名稱不同但坐標相同的點。

例如，想象一個問題：在點 ?? 處兩條線 ??,?? 相交，并打算證明 ?? 位于某個圓 ?? 上。最合理的方法可能是重構，不證明 ??,?? 的交點在 ?? 上，而是證明 ??,?? 的交點在 ?? 上。這是等效的，但更容易證明，因為可以在圓上移動角度。具體可參見圖 1。

要對雙重點推理實現(xiàn)這種重構，需要執(zhí)行以下四個步驟：

構造一個新點??′作為 ??,?? 的交點（不知道 ??′ 是否與 ?? 重合）。這是一個輔助構造，必須由語言模型預測；
證明??位于??上；
由于??和??′都位于??,??上，得出?? = ??′；
因此??位于??上。

更快的算法

DDAR 算法可以處理一系列規(guī)則，并嘗試將每條規(guī)則應用于所有點的組合。此過程涉及以下兩個部分：

候選搜索步驟，它的時間復雜度是點數(shù)的多項式；
子句匹配步驟，它的時間復雜度是每個前提的子句數(shù)的指數(shù)。

理論上，在 AG1 中搜索相似三角形候選的最壞情況是 ??(??^8)，這是最耗時的步驟之一。指數(shù)級子句匹配是另一個成本高昂的步驟。

DDAR 最耗時的兩個部分是搜索相似三角形和搜索圓內接四邊形。在 AG2 中，谷歌設計了一種改進的 DDAR2 算法。對于相似三角形，他們遍歷所有的點三元組，對它們的「形狀」進行哈希處理。如果兩次識別出形狀，則檢測出相似的對。

對于圓內接四邊形，谷歌遍歷所有對（點??、線段????），并對（??，??，∠??????）的值進行哈希處理。如果這樣的三元組重復出現(xiàn)，就得到一個圓內接四邊形。線段 ???? 或 ∠?????? 的「值」是指 AR 子模塊計算出的符號范式。該子模塊跟蹤角度、距離和對數(shù)距離之間的已知線性方程，了解其代數(shù)結果，并將任何線性表達式簡化為其標準范式。

更快的實現(xiàn)

雖然新算法已經(jīng)顯著加快了 DDAR 的速度，但谷歌使用 C++ 實現(xiàn)其核心計算（高斯消元法），從而進一步提升了速度。

新的 C++ 庫通過 pybind11 導出到 Python，速度是 DDAR1 的 300 多倍。為了對速度改進進行基準測試，谷歌選擇了一組 25 道 DDAR 無法解決的 IMO 問題（見圖 8），并在配備 AMD EPYC 7B13 64 核 CPU 的機器上運行測試 50 次。

結果顯示，DDAR1 平均可以在 1179.57±8.055 秒內完成計算，但 DDAR2 的速度要快得多，在 3.44711 ± 0.05476 秒內完成。

更好的合成訓練數(shù)據(jù)

與 AG1 類似，谷歌使用的合成數(shù)據(jù)生成方法從隨機圖采樣開始，并使用符號引擎從中推斷出所有可能的事實。并且對于每個推斷出的事實，他們都使用回溯算法來提取可以證明事實的相應前提、輔助點和推理步驟。

谷歌的數(shù)據(jù)生成方法刻意避免使用人為設計的問題作為初始圖種子，并嚴格從隨機圖開始。這種設計選擇消除了數(shù)據(jù)污染的風險，并允許探索可能超出現(xiàn)有人類知識的定理分布。

更大、更復雜的圖表和更好的數(shù)據(jù)分布。首先，谷歌擴大數(shù)據(jù)生成的來源，并更仔細地重新平衡數(shù)據(jù)分布。圖 2 展示了 AG2 與 AG1 的訓練數(shù)據(jù)比較：

探索兩倍大小的隨機圖，從而提取更復雜的問題；
生成的定理復雜了兩倍，即點和前提的數(shù)量；
生成的證明復雜了 10 倍，即證明步驟多 10 倍；
問題類型之間的數(shù)據(jù)分布更均衡；
有無輔助點的問題之間的數(shù)據(jù)分布更均衡。

更快的數(shù)據(jù)生成算法。谷歌還提升了數(shù)據(jù)生成算法的速度?；叵?AG1，谷歌首先在隨機圖上運行演繹閉包，然后回溯以獲得可以證明閉包中每個事實的最小問題和最小證明。為了獲得 AG1 中的最小問題，必須從問題中徹底刪除不同的點子集，然后重新運行 DDAR 以檢查可證明性。這樣的搜索可以找到基數(shù)最小的子集，但是作為指數(shù)級搜索，對于大量的點而言不可行。

因此，谷歌切換到圖 3 所示的貪婪丟棄算法，該算法僅使用線性數(shù)量的檢查來判斷一組點是否足以證明目標。只要檢查是單調的（如果 ?? ? ??，則 check_provable (??) ? check_provable (??)），貪婪算法就保證找到一組關于包含（inclusion）的最小點集。

新穎的搜索算法

在 AG1 中，谷歌使用簡單的束搜索來發(fā)現(xiàn)證明。在 AG2 中，他們設計了一種新穎的搜索算法，可以并行執(zhí)行多個不同配置的束搜索，并允許它們通過知識共享機制互相幫助，具體可見圖 4。為了提高系統(tǒng)的穩(wěn)健性，谷歌還為每個搜索樹配置使用多個不同的語言模型。這種搜索算法被稱為搜索樹的共享知識集合（Shared Knowledge Ensemble of Search Trees，SKEST）。

該搜索算法的工作原理如下所示：在每個搜索樹中，一個節(jié)點對應于一次輔助構造嘗試，然后是一次符號引擎運行嘗試。如果嘗試成功，所有搜索樹都會終止。如果嘗試失敗，節(jié)點將把符號引擎設法證明的事實寫入共享事實數(shù)據(jù)庫。這些共享事實經(jīng)過過濾，使它們不是特定于節(jié)點本身的輔助點，而僅與原始問題相關。這樣一來，這些事實也可以對同一搜索樹中的其他節(jié)點以及不同搜索樹中的節(jié)點產(chǎn)生助益。

系統(tǒng)設計細節(jié)。對于證明搜索，谷歌使用 TPUv4 為每個模型提供多個副本，并讓同一模型內的不同搜索樹根據(jù)自身的搜索策略來查詢同一服務器。除了異步運行這些搜索樹之外，谷歌還對 DDAR 工作器與 LM 工作器進行異步運算，其中 LM 工作器將它們探索的節(jié)點內容寫入數(shù)據(jù)庫，DDAR 工作器異步拾取這些節(jié)點并嘗試它們。DDAR 工作器之間相互協(xié)調，以確保它們平等分配工作。單個 DDAR 工作器池在不同問題之間共享（如果一次解決多個問題），這樣先前解決的問題就會為正在解決的其余問題釋放自己的 DDAR 計算資源。

更好的語言模型

AG2 的最后一項改進是使用新的語言模型。下面將討論全新的訓練和推理設置。

訓練設置

AG1 是一種定制版 Transformer，以無監(jiān)督方式分兩個階段進行訓練：先對有無輔助結構的問題進行訓練，然后僅對包含輔助結構的問題進行訓練。

對于 AG2，谷歌利用了 Gemini 訓練流程并將訓練簡化為一個階段：對所有數(shù)據(jù)進行無監(jiān)督學習。他們使用了一種基于稀疏混合專家（MoE）Transformer 的新模型，該模型以 Gemini 1.5 為基礎，并使用 AG2 數(shù)據(jù)進行訓練。

谷歌使用以下三種設置來訓練不同大小的多個模型：

1. 使用領域特定語言中的自定義 tokenizer 從頭開始訓練（AG1 設置）；

2. 使用自然語言微調已經(jīng)預訓練的自定義專業(yè)數(shù)學 Gemini 模型；

3. 使用額外的圖像輸入（給定幾何題的圖表）從頭開始進行多模態(tài)訓練。

谷歌使用 TPUv4，并以硬件允許的最大批大小訓練模型。學習率計劃是先線性預熱，然后余弦退火。學習率超參由 scaling 定律確定。在圖 5 中，他們展示了基于參數(shù)量的不同大小的 Gemini 的學習曲線。正如預期的那樣，增加模型大小會降低訓練、評估以及特殊 IMO 評估集的困惑度損失。

推理設置

在 AG2 中，谷歌在提出輔助構造之前讓 LM 了解 DDAR 所做的推論，進而豐富這個神經(jīng)符號接口。也就是說，他們將以下信息輸入到 LM 中

??_1：給定原始問題前提，DDAR 可推導出的事實集；
??_2：給定原始問題前提并假設目標謂詞也為真，DDAR 可推導出的事實集；
??_3：數(shù)字正確的事實集（檢查圖表）。

競賽結果

本文的主要下游指標是 IMO 幾何題的解決率。2000-2024 年 IMO 共有 45 道幾何題，谷歌將它們轉化為了 50 道 AlphaGeometry 問題（稱該集合為 IMO-AG-50）。

圖 8 展示了主要結果，AlphaGeometry2 解決了 2000-2024 年 IMO 所有 50 道幾何題中的 42 道，從而首次超越了金牌得主平均水平。

表 4 中提供了更多詳細信息，其中將各種 AG2 配置與其他系統(tǒng)進行了比較。可以看到，AG2 實現(xiàn)了 SOTA。

在圖 7 中，針對通過前文「經(jīng)典」樹搜索與 DDAR 耦合的一個語言模型，谷歌將 IMO 解決率表示為了訓練時函數(shù)（訓練期間看到的 tokens）。有趣的是，AG2 僅在批大小為 256 時的 250 個時間步后（或者大約 2 億 tokens），就解決了 50 道幾何題中的 27 道。

谷歌還對推理設置如何影響整體性能進行了消融實驗，結果如圖 9 所示。他們發(fā)現(xiàn)，對于單個搜索樹，最優(yōu)配置是束大小 128、束深度 4 以及樣本 32。

責任編輯：張燕妮來源：機器之心

谷歌模型數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營