自緣身在最高層?OpenAI o1 pro競賽級評測結(jié)果新鮮出爐
近期,OpenAI 號稱最強推理模型的推出,引發(fā)了社區(qū)的熱議,無論是性能還是價格,都產(chǎn)生了不少話題。最近,我們對 o1 新發(fā)布的 o1 滿血版、o1 pro mode 模型進行了高難度數(shù)學測試,旨在深入探究其在數(shù)學推理方面的能力表現(xiàn)。同時以上海人工智能實驗室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作為對比,「o1 pro」是否真的「自緣身在最高層?」
AGI-Eval 最新的高難度數(shù)學評測集 Math Pro Bench,試題來源包括全國高中數(shù)學聯(lián)合競賽、美國數(shù)學邀請賽、全國碩士研究生招生考試等。從題型分布上看,各模型考研數(shù)學題正確率高于高中數(shù)學競賽題 10%,提示考研數(shù)學題目難度相對簡單。這一現(xiàn)象表明考研數(shù)學題目相對高中數(shù)學競賽題而言,在知識運用的綜合性與邏輯性方面可能更符合模型的訓練模式與擅長領域。例如,在高中數(shù)學競賽題中,可能涉及更多獨特的解題技巧、創(chuàng)新性的思維方式以及對數(shù)學概念的深度挖掘,而模型在處理這些復雜且靈活的問題時可能面臨更大的挑戰(zhàn)。
話不多說,直接上評測結(jié)果 ——
整體來看,o1 pro mode 在總計正確率上以 0.774(65/84)占據(jù)榜首,o1 以 0.750(63/84)緊隨其后。這表明 o1 系模型在整體數(shù)學推理能力上具有較高的水平,能夠較為有效地應對高難度數(shù)學問題。DeepSeek-R1-Lite 的總計正確率為 0.667(56/84),o1 - preview 的總計正確率為 0.643(54/84),其他模型的總計正確率相對較低,反映出它們在數(shù)學推理的全面性和準確性方面仍有提升空間。
其中在高中數(shù)學競賽題方面,o1 pro mode 和 o1 均以 0.722(39/54)的正確率位居前列,展現(xiàn)出了較強的數(shù)學思維能力與解題技巧應用能力。DeepSeek - R1 - Lite 的正確率為 0.611(33/54),o1 - preview 的正確率為 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正確率則相對較低,分別為 0.519(28/54)、0.426(23/54)、0.315(17/54)。
在考研數(shù)學題上,o1 pro mode 以 0.867(26/30)的正確率脫穎而出,o1 的正確率為 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正確率均為 0.833(25/30)。DeepSeek - R1 - Lite 的考研數(shù)學題正確率為 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正確率僅為 0.533(16/30)。
榜單鏈接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench
除了推出評測榜單以外,AGI-Eval 也從模型的推理過程中,發(fā)現(xiàn)了一些有意思的現(xiàn)象和結(jié)論。
o1 pro 系列推理更快,思考更靈活
1. o1、o1 pro 總推理時間更短。在推理時間方面,o1 系模型展現(xiàn)出了顯著的優(yōu)勢。o1 的總平均推理時間僅為 33.84s,o1 pro mode 更是縮短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理時間在 2min 以上。這一巨大的時間差距表明 o1 系模型在數(shù)學推理效率上遠超其他同類模型,能夠在更短的時間內(nèi)完成復雜數(shù)學問題的推理與解答,這對于實際應用場景中對實時性要求較高的任務具有比較重要的意義。
prompt
Alice 和 Bob 玩以下游戲。面前有 n 個令牌堆放著。玩家輪流行動,Alice 先行動。在每一回合中,玩家從令牌堆中移除 1 個或 4 個令牌。移除最后一個令牌的玩家獲勝。求小于或等于 2024 的正整數(shù) n 的個數(shù),使得 Bob 無論 Alice 如何行動都能保證他獲勝。
o1 pro mode(用時 18 秒):
o1 (用時 26 秒):
2. o1、o1 pro 會根據(jù)題目難度調(diào)整推理時間。o1/o1 pro 的競賽題平均推理時間為 34-40s,而考研題平均推理時間為 18-20s,約是前者的約一半。
3. o1 pro 模型能答對其他模型暫無法答對的題。在測試過程中,存在一些題目,如 :
“設 p 是最小的滿足存在正整數(shù) n 使得 n^4 + 1 可以被 2 整除的素數(shù)。求最小的正整數(shù) m,使得 m^4 + 1 可以被 p^2 整除?!?/p>
這一題目僅有 o1 pro mode 答對,o1、Deepseek-R1-Lite 等其他模型均答錯。這表明 o1 pro mode 在處理某些具有特殊數(shù)學結(jié)構和邏輯要求的題目時,具備獨特的推理能力和解題思路,能夠深入挖掘題目背后的數(shù)學原理與規(guī)律,從而找到正確的答案。而其他模型在面對這類復雜且具有挑戰(zhàn)性的題目時,可能由于推理機制的局限性或知識儲備的不足,無法準確地把握解題的關鍵要點,導致最終回答錯誤。
方法論與創(chuàng)新性
o1-pro 在處理數(shù)學問題時表現(xiàn)出更強的創(chuàng)新性和靈活性,能夠結(jié)合多種數(shù)學理論和方法來解決問題,優(yōu)于其他通用 AI 模型。o1 同樣具有歸納與創(chuàng)新的能力,但與前者相比不夠簡潔直接,其他模型在這方面的能力則稍顯不足。
prompt:
一只青蛙在正方形 A B C D 的四個頂點間跳躍,每次跳躍總是等可能地跳至與當前所在頂點相鄰的兩個頂點之一,且各次跳躍是獨立的。若青蛙第一次跳躍前位于頂點 A ,則它第 6 次跳躍后恰好仍位于頂點 A 的概率為
o1 pro mode(用時 12 秒):
直接利用了正方形的對稱性和跳躍的性質(zhì),避免了復雜的矩陣運算和特征值分析,更直觀容易理解,適合初學者。
o1(用時 17 秒):
它的回答雖然正確,但涉及了狀態(tài)轉(zhuǎn)移矩陣和特征值分析,計算過程相對復雜,且需要一定的線性代數(shù)和概率論知識,對初學者來說可能不太友好。
Deepseek-R1-Lite(用時 1min):
和 o1 同樣涉及了狀態(tài)轉(zhuǎn)移矩陣和特征值分析,但求解過程冗長復雜得多,閱讀理解起來相對困難。
長鏈路推理與細節(jié)處理
在涉及大量計算的長鏈路推理中,一個小小的計算失誤會模型思維鏈失敗,使模型陷入死循環(huán)狀態(tài)。o1 pro mode 和 o1 實現(xiàn)了對細節(jié)的精確控制,在進行長鏈路推理時能夠盡量保持高度的準確性和穩(wěn)定性。
prompt
實對稱矩陣 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通過正交相似變換化為對角陣__
o1 pro(用時 12 秒):
特征值與特征向量的求解涉及大量復雜的計算,每一步計算都是正確的,最后導向正確的結(jié)果
o1(用時 19 秒):
雖然得到了正確的答案,但過程不完全正確,例如第二步特征向量求解錯誤
Deepseek-R1-Lite:
在第一步計算特征值的過程中,就出現(xiàn)了計算錯誤,得到的特征多項式不正確,導致了后續(xù)求解特征方程的過程基于錯誤的多項式,從而無法找到正確的特征值。
此外,能看出推理模型也有明顯的能力缺陷部分。如 Deepseek-R1-Lite 推理部分會存在中英夾雜或渲染不全的情況
人機協(xié)作評測新模式探索及高質(zhì)量評測社區(qū)建設
鑒于傳統(tǒng)評測方式難以充分反映模型的真實水平,AGI-Eval 創(chuàng)新性地提出了人機協(xié)作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務,既有助于提高任務完成度又便于建立更加直觀的區(qū)分度。基于前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。未來,隨著更多類似平臺的出現(xiàn)和發(fā)展,相信人機協(xié)作將成為評測領域的一個重要發(fā)展方向。
人機社區(qū)鏈接:https://agi-eval.cn/llmArena/home
AGI-Eval 平臺基于真實數(shù)據(jù)回流、能力項拆解等方式,自建萬量級私有數(shù)據(jù),并經(jīng)過多次質(zhì)檢保證準確率。黑盒 100% 私有化數(shù)據(jù),可保證評測數(shù)據(jù)不可 “穿越”。從數(shù)據(jù)建設到模型評測,實現(xiàn)全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現(xiàn)自動與人工評測相結(jié)合。
對于 Chat 模型,平臺官方榜單結(jié)合主觀、客觀評測結(jié)果,中英文權重分布均衡??陀^評測基于模型打分,可處理具有一定自由度問題,準確率 95%+;主觀評測基于三人獨立標注,并記錄細分維度標簽結(jié)果,全面診斷模型問題。
總結(jié) 1:推理模型優(yōu)勢探討
(一)高效的推理算法
o1 系模型之所以能夠在高難度數(shù)學測試中取得優(yōu)異成績,其高效的推理算法功不可沒。通過對推理過程的優(yōu)化與加速,模型能夠在短時間內(nèi)對復雜的數(shù)學問題進行深入分析與推理,快速找到解題的思路與方法。這種高效的推理算法可能基于先進的神經(jīng)網(wǎng)絡架構、智能的搜索策略以及對數(shù)學知識的有效組織與運用,使得模型在面對各種數(shù)學問題時能夠迅速做出反應并給出準確的答案。
(二)精準的題目理解與分析能力
在面對高難度數(shù)學題目時,準確理解題目要求與意圖是解題的關鍵第一步。o1 系模型展現(xiàn)出了強大的題目理解與分析能力,能夠精準地把握題目中的數(shù)學關系、條件限制以及求解目標。通過對自然語言描述的數(shù)學問題進行有效的語義解析和邏輯轉(zhuǎn)換,模型將其轉(zhuǎn)化為內(nèi)部可處理的數(shù)學模型與推理任務,從而為后續(xù)的解題過程奠定堅實的基礎。這種精準的題目理解與分析能力使得模型在處理各種復雜數(shù)學表述和邏輯結(jié)構時能夠游刃有余,避免因誤解題目而導致的錯誤推理。
(三)靈活的推理策略調(diào)整
如前文所述,o1 和 o1 pro mode 能夠根據(jù)題目難度靈活調(diào)整推理時間和推理策略。在面對簡單題目時,模型采用快速高效的推理方式,迅速得出答案;而在處理復雜難題時,模型則能夠自動切換到深度推理模式,增加推理步驟和時間投入,對問題進行全面細致的分析與求解。這種靈活的推理策略調(diào)整能力使得模型在不同難度層次的數(shù)學問題上均能保持較高的解題效率和準確性,體現(xiàn)了其在推理過程中的智能化與自適應特性。
總結(jié) 2:推理模型局限性分析
(一)知識覆蓋的局限性
雖然 o1 系模型在本次測試的高中數(shù)學競賽題和考研數(shù)學題上取得了較好的成績,但數(shù)學領域知識浩瀚無垠,仍可能存在一些特定的數(shù)學分支、理論或特殊題型,模型的知識儲備不足或尚未深入學習掌握。例如,在某些高等數(shù)學的前沿研究領域、小眾的數(shù)學應用場景或具有特殊歷史文化背景的數(shù)學問題上,模型可能會因為缺乏相關知識而無法給出準確的答案或有效的推理。這表明模型在知識覆蓋的廣度和深度上仍有進一步拓展和完善的空間,需要不斷地學習和吸收更多的數(shù)學知識,以應對日益復雜多樣的實際應用需求。
(二)復雜邏輯推理的挑戰(zhàn)
在一些極其復雜的邏輯推理場景中,o1 系模型可能會遇到困難。盡管模型在常規(guī)的數(shù)學推理任務中表現(xiàn)出了較高的水平,但當面對涉及多層嵌套邏輯、模糊邏輯或高度抽象邏輯的問題時,模型的推理能力可能會受到限制。例如,在一些數(shù)學證明題中,需要運用復雜的邏輯推導和反證法等推理技巧,模型可能無法像人類數(shù)學家那樣進行深入細致的邏輯思考和創(chuàng)造性的推理過程,導致無法成功完成證明或給出完整準確的推理步驟。這反映出模型在處理復雜邏輯關系時的局限性,需要進一步優(yōu)化其推理機制和邏輯處理能力,以提升在復雜邏輯推理任務中的表現(xiàn)。
(三)可解釋性問題
隨著人工智能模型在各個領域的廣泛應用,其可解釋性成為了一個重要的關注點。o1 系模型作為一種基于深度學習的大模型,其推理過程往往具有高度的復雜性和黑箱特性,難以直觀地理解和解釋模型是如何得出某個答案或推理結(jié)果的。這對于一些對可解釋性要求較高的應用場景,如數(shù)學教育、科學研究中的關鍵決策等,可能會帶來一定的困擾。缺乏可解釋性使得用戶難以信任模型的輸出結(jié)果,也不利于模型的進一步優(yōu)化和改進。因此,如何提高 o1 系模型的可解釋性,使其推理過程更加透明、可理解,是未來模型發(fā)展需要解決的一個重要問題。
未來展望
通過本次對 o1 系模型的高難度數(shù)學測試,我們?nèi)嫔钊氲亓私饬似湓跀?shù)學推理能力方面的表現(xiàn)。o1 系模型在正確率、推理時間以及特殊題目處理等方面展現(xiàn)出了顯著的優(yōu)勢,其高效的推理算法、精準的題目理解與分析能力以及靈活的推理策略調(diào)整能力使其在眾多模型中脫穎而出。然而,模型也存在知識覆蓋局限性、復雜邏輯推理挑戰(zhàn)以及可解釋性問題等不足之處。
展望未來,隨著技術的不斷發(fā)展和研究的深入,我們期待 o1 系模型能夠在以下幾個方面取得進一步的突破和改進。首先,通過不斷學習和更新知識,擴大其知識覆蓋范圍,提高對各種數(shù)學領域和特殊題型的處理能力。其次,優(yōu)化推理機制,提升復雜邏輯推理能力,使其能夠更好地應對具有高度復雜性和抽象性的數(shù)學問題。最后,加強對模型可解釋性的研究,探索有效的方法和技術,使模型的推理過程更加透明、可理解,增強用戶對模型的信任和應用的可靠性。