Gemini-2.0奪冠!全球首個幾何推理專項評測出爐,淘天集團(tuán)出品
多模態(tài)大模型幾何解題哪家強(qiáng)?
首個從幾何原理視角出發(fā),全面評估多模態(tài)大模型幾何解題能力的雙語綜合基準(zhǔn)來了!
GeoSense,系統(tǒng)評測多模態(tài)大模型在幾何原理識別和應(yīng)用中的表現(xiàn),評測基準(zhǔn)的數(shù)據(jù)和評測代碼均已開源。
其背后團(tuán)隊來自淘天集團(tuán)算法技術(shù)-未來生活實(shí)驗(yàn)室團(tuán)隊。
人類在解答幾何問題時,首先會識別所需的幾何原理并通過靈活應(yīng)用它們來推導(dǎo)出答案。
然而,目前的評測方法多集中于最終答案的正確性或簡單地對每個推理步驟進(jìn)行打分,而忽視了推理過程中的關(guān)鍵因素:幾何原理的識別和應(yīng)用。
盡管有研究發(fā)現(xiàn)模型的對幾何圖的感知能力不足限制了其后續(xù)推理,但實(shí)驗(yàn)發(fā)現(xiàn),幾何原理與圖像中幾何元素的正確對應(yīng)及應(yīng)用,是多模態(tài)大模型推理的另一大瓶頸。
為填補(bǔ)這一空白,GeoSense出現(xiàn)了,為在復(fù)雜視覺場景中的推理能力提升提供了新的方向。
五層知識架構(gòu)+1789道幾何問題
GeoSense旨在系統(tǒng)評估多模態(tài)大模型識別和應(yīng)用幾何原理來解決幾何問題的能力。
該基準(zhǔn)建立了包含定義、定理和公式等幾何原理的5層知識架構(gòu),覆蓋平面幾何和立體幾何,支持中英雙語;精心構(gòu)建并人工詳細(xì)標(biāo)注了包括1789道問題的數(shù)據(jù)集;并針對幾何原理設(shè)計了創(chuàng)新性的評估策略。
它構(gòu)建了包含148個幾何原理的5層知識架構(gòu),覆蓋平面幾何和立體幾何的65個定義,47個定理和36個計算公式,多維度細(xì)粒度地評估模型面對幾何問題時識別和應(yīng)用知識的能力。
此外,Geosense有精細(xì)標(biāo)注的數(shù)據(jù)集。
它收納了1789道幾何問題,并使用中英雙語詳細(xì)標(biāo)注了解題所必需的5556個幾何原理及其與幾何圖中元素的對應(yīng)與應(yīng)用,并使用特殊標(biāo)簽()標(biāo)注了解題中的關(guān)鍵點(diǎn),確保模型評估的綜合性和準(zhǔn)確性。
GeoSense擁有嚴(yán)格的構(gòu)建流程,共有23位幾何領(lǐng)域的研究生同學(xué)進(jìn)行數(shù)據(jù)標(biāo)注、審核和質(zhì)量把控。
下圖展示了一道題目的雙語標(biāo)注示例。
值得一提的是,GeoSense采用創(chuàng)新的評估方法,創(chuàng)新性地提出GPI(幾何原理識別)和GPA(幾何原理應(yīng)用)兩個評估指標(biāo),重點(diǎn)審視模型在復(fù)雜視覺場景中的幾何原理識別和應(yīng)用能力,幫助識別模型推理過程中的潛在不足與提升空間。
評估系統(tǒng):GPI+GPA+ACC
GeoSense貢獻(xiàn)了一種新的評估系統(tǒng),包括幾何原理識別(GPI)評分和幾何原理應(yīng)用(GPA)評分以及答案正確性評分 (ACC),以全面評估多模態(tài)大模型在GPS中類人的推理機(jī)制。
GPI(幾何原理識別評分)
作者使用GPI來評估模型能否正確識別解決問題所必需的幾何原理。
如上圖所示,對于每個幾何問題 ,專家標(biāo)注了解題所必需的幾何原理集合。
對于每個幾何原理,作者借助GPT-4o判斷其是否在模型的響應(yīng)中被應(yīng)用。最終的GPI得分是幾何原理集合中模型可以正確識別的幾何原理的比例。
然而,僅僅通過此指標(biāo)仍然無法得知,模型是否在視覺環(huán)境中合理地使用這些原理解決問題。這與人類解決幾何問題時遇到的困境相似:在某些情況下,人類知道應(yīng)該運(yùn)用相似三角形的知識來解決問題,但在實(shí)際的幾何圖形中,往往難以正確對應(yīng)各個相似元素并將幾何原理正確應(yīng)用。
GPA(幾何原理應(yīng)用評分)
為了進(jìn)一步衡量模型在視覺環(huán)境中應(yīng)用幾何原理的能力,作者們提出了GPA指標(biāo)。
如上圖所示,對于模型正確識別的每個幾何原理,首先提取模型響應(yīng)中與該幾何原理相關(guān)的內(nèi)容。
而后將提取到的內(nèi)容與標(biāo)注中的關(guān)鍵點(diǎn)進(jìn)行比對,計算F1 score作為該幾何原理的GPA評分。
ACC(答案準(zhǔn)確性評分)
作者還評估了答案的準(zhǔn)確性,以評估模型正確識別和組合應(yīng)用多個幾何原理以解決問題的能力。
以下是跟現(xiàn)有流行的多模態(tài)幾何相關(guān)的多個評測基準(zhǔn)的對比:
Gemini-2.0-Pro-Flash表現(xiàn)最佳
該團(tuán)隊對多個開源和閉源模型進(jìn)行了全面評測和分析,并給出了這些模型在GPI、GPA和ACC三個指標(biāo)的平均值上的排名情況。
最佳表現(xiàn)模型
Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評估中表現(xiàn)最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。
在開源模型中,Qwen-VL系列表現(xiàn)最為突出。
推理增強(qiáng)類模型的潛力與挑戰(zhàn)
推理模型如QVQ-72B-Preview在幾何原理識別和應(yīng)用上展現(xiàn)了強(qiáng)大的潛力,但在實(shí)際問題解決中面臨準(zhǔn)確率挑戰(zhàn),這是由于過度復(fù)雜化思考過程從而無法得到正確答案導(dǎo)致的。
此外,InternVL2.5-38B-MPO在幾何原理識別率(GPI)和應(yīng)用準(zhǔn)確率(GPA)方面相較于nternVL2.5-38B有所提升,顯示了優(yōu)化模型推理思維過程的有效性。
平面幾何理解是共同短板
多模態(tài)大模型在平面幾何的理解方面存在明顯不足。
以Claude3.55-Sonnet為例,其在平面圖形的轉(zhuǎn)換和移動(TMPF)以及平面圖形的理解(UPF)中的幾何原理識別率(GPI)分別為65.9和45.1,應(yīng)用準(zhǔn)確率(GPA)更低,為32.5和38.7。
這一現(xiàn)象顯示出在處理二維空間問題時,模型的識別和應(yīng)用能力均較弱,說明多模態(tài)大模型在視覺信息處理和空間關(guān)系推理方面需要進(jìn)一步優(yōu)化,以改善其在平面幾何任務(wù)中的表現(xiàn)。
推理能力隨模型規(guī)模提升
一般情況下,同一系列的模型規(guī)模越大,表現(xiàn)越優(yōu)。
例如,Qwen2.5-VL系列從7B增至72B后,三種指標(biāo)的平均分(AVG)從 51.3 提升至 60.1。
實(shí)驗(yàn)都有哪些發(fā)現(xiàn)?
什么限制了多模態(tài)大模型的推理能力?
GPI和GPA的降低都會導(dǎo)致ACC的降低。
在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,導(dǎo)致其ACC比后者高了7.7%。
另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評測下的結(jié)果體現(xiàn)了GPA的降低也會影響模型的表現(xiàn)。
此外,大部分多模態(tài)大模型在GeoSense上的GPI和GPA都較低,這體現(xiàn)了幾何原理的識別和應(yīng)用共同限制了多模態(tài)大模型的推理能力。
為什么多模態(tài)大模型在復(fù)雜問題中表現(xiàn)更差?
研究團(tuán)隊觀察到,隨著所需幾何原理數(shù)量的增加,GPI和ACC分?jǐn)?shù)都降低,而GPA分?jǐn)?shù)則受到的影響較小。這樣的趨勢在閉源多模態(tài)大模型中更加明顯。
這些觀察結(jié)果表明,多模態(tài)大模型在復(fù)雜問題上的較差表現(xiàn)主要是由于未能準(zhǔn)確識別必需的幾何原理所導(dǎo)致的。
該實(shí)驗(yàn)強(qiáng)調(diào)了提高多模態(tài)大模型識別幾何原理能力的重要性,以進(jìn)一步增強(qiáng)其推理能力。
更擅長哪種知識,哪方面有所欠缺?
多模態(tài)大模型在計算方面表現(xiàn)出色,但在幾何性質(zhì)理解方面卻存在不足。
從上表的結(jié)果來看,多模態(tài)大模型在公式類問題上的三個指標(biāo)表現(xiàn)顯著優(yōu)于定義和定理類問題,特別是在GPI指標(biāo)上。
這表明,多模態(tài)大模型在面對計算問題時能夠更清楚地識別所需的幾何原理。
相比之下,定義和定理通常包含幾何元素的抽象屬性和關(guān)系,這是多模態(tài)大模型難以理解的。
為什么在平面幾何領(lǐng)域表現(xiàn)不好?
研究人員發(fā)現(xiàn),GPI限制了多模態(tài)大模型在平面幾何中的表現(xiàn)。
就GPI指標(biāo)而言,大多數(shù)模型在USF科目上的表現(xiàn)優(yōu)于UPF科目。然而,對于GPA指標(biāo),兩個科目之間的表現(xiàn)差異不顯著。盡管如此,就ACC指標(biāo)而言,大多數(shù)模型在USF上的表現(xiàn)仍然更好。
這些觀察結(jié)果表明,限制模型解決平面幾何問題能力的關(guān)鍵因素是GPI,即模型在準(zhǔn)確識別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理,如判定相似和全等三角形。
這強(qiáng)調(diào)了模型需要準(zhǔn)確識別必要原理,以增強(qiáng)其對平面幾何的理解。
論文鏈接:
https://arxiv.org/abs/2504.12597
項目主頁:
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense