輕松拿捏高等數(shù)學(xué),LLM平均得分90+!GPT-4o、Mistral幾乎沒錯
朋友會離開你,兄弟會背叛你。
但數(shù)學(xué)不會,數(shù)學(xué)不會就是不會。
相信學(xué)不好高等數(shù)學(xué)的人,對上面這個梗深有感悟。
數(shù)學(xué)不會好像是真不會:出口成章也好,身體素質(zhì)驚人也好,面對微積分,能有什么招?
那大語言模型(LLMs)是不是也是一個偏科生呢?
最新研究用32道測試題,總計(jì)320分,涵蓋4大主題:向量計(jì)算、幾何分析、積分計(jì)算、優(yōu)化問題,評估了AI模型在高等數(shù)學(xué)的表現(xiàn)。
總體而言,結(jié)果表明LLM高等數(shù)學(xué)不錯,平均得分為90.4(按百分制計(jì)算):
-ChatGPT 4o和Mistral AI在不同類型的數(shù)學(xué)問題上表現(xiàn)穩(wěn)定,準(zhǔn)確率較高,展現(xiàn)出較強(qiáng)的數(shù)學(xué)推理能力和可靠性。
-Gemini Advanced(1.5 Pro)和Meta AI在某些積分和優(yōu)化問題上表現(xiàn)較弱,顯示出需要針對性優(yōu)化的領(lǐng)域。
其中, ChatGPT 4o和Mistral AI表現(xiàn)優(yōu)異,并列第一:
有7款A(yù)I模型參與了測試:ChatGPT 4o、Gemini Advanced(1.5 Pro)、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。
此外,研究發(fā)現(xiàn)再提示(Re-Prompting)對提升準(zhǔn)確率至關(guān)重要。
某些情況下,模型首次回答錯誤,但在重新提示后能夠修正答案,這表明改進(jìn)交互方式可提升模型解題效果。
新研究對教育工作者、研究人員和開發(fā)者在數(shù)學(xué)教育與實(shí)踐應(yīng)用中的LLM選擇具有重要參考價值,同時也為LLM技術(shù)的進(jìn)一步優(yōu)化和發(fā)展提供了關(guān)鍵的靈感。
論文鏈接:https://arxiv.org/abs/2503.03960
LLM在微積分能帶來什么驚喜?
微積分以其復(fù)雜的概念和嚴(yán)謹(jǐn)?shù)慕忸}方法,是測試LLM能力極限的理想領(lǐng)域。
解決微積分問題不僅需要計(jì)算的準(zhǔn)確性,還要求模型具備深厚的數(shù)學(xué)原理理解能力、邏輯推理能力,以及將理論概念應(yīng)用于實(shí)際問題的能力。
新研究所選問題涵蓋微積分的多個重要主題,包括向量分析、幾何解釋、積分計(jì)算和優(yōu)化問題。
通過評估這些模型在解題過程中的表現(xiàn),希望識別它們的優(yōu)勢、劣勢和可改進(jìn)之處,從而推動更強(qiáng)大、更可靠的LLM技術(shù)的發(fā)展。
隨著教育機(jī)構(gòu)和工業(yè)界越來越多地探索AI技術(shù)的應(yīng)用,深入了解LLM在處理復(fù)雜數(shù)學(xué)問題方面的能力和局限性變得至關(guān)重要。
新研究的分析結(jié)果對多個群體具有重要價值,包括開發(fā)AI輔助學(xué)習(xí)工具的教育工作者、致力于提升LLM能力的研究人員,以及希望在實(shí)際應(yīng)用中部署這些技術(shù)的從業(yè)者。
此外,本研究還回應(yīng)了對AI模型在專業(yè)領(lǐng)域進(jìn)行系統(tǒng)評估的日益增長的需求。
通過精心設(shè)計(jì)的一組測試題和詳細(xì)的評分體系,本研究為評估LLM在數(shù)學(xué)問題求解方面的表現(xiàn)提供了一種方法論框架。
此外,本研究還引入了重新提示(re-prompting)機(jī)制,并對錯誤模式進(jìn)行了深入分析,以探討模型的學(xué)習(xí)能力以及提高其準(zhǔn)確性和可靠性的潛在策略。這些研究結(jié)果有助于更全面地理解LLM在數(shù)學(xué)推理中的優(yōu)勢和局限性,并為未來的優(yōu)化提供有價值的參考。
研究方法
大型語言模型(LLMs)在架構(gòu)和訓(xùn)練方法上,大多集中在語言處理任務(wù)上,但也各具特色:
ChatGPT 4o以其先進(jìn)的自然語言理解和生成能力而聞名;
Gemini Advanced with 1.5 Pro旨在處理高性能語言任務(wù);
Copilot Pro專注于編程和數(shù)學(xué)問題求解;
Claude 3.5 Sonnet強(qiáng)調(diào)準(zhǔn)確且具上下文意識的文本生成;
Meta AI旨在提供多功能的語言理解和生成;
Mistral AI以其高效且精準(zhǔn)的語言處理能力著稱;
Perplexity則專為復(fù)雜問題求解和推理任務(wù)設(shè)計(jì)。
現(xiàn)在就關(guān)心一個問題:這些模型高等數(shù)學(xué)到底會不會?
這次評估共涉及32道測試題,總分320分。
如果模型在首次嘗試中給出正確答案,則得10分;如果在第二次嘗試中找到正確答案,則得5分。
測試題涵蓋多個微積分主題,包括:向量計(jì)算與幾何解釋、積分計(jì)算及其應(yīng)用、優(yōu)化問題與約束優(yōu)化、微分方程及其應(yīng)用以及高級微積分概念(如格林定理、曲線積分等)。
模型的評估主要基于兩個核心標(biāo)準(zhǔn):
- 準(zhǔn)確性(Accuracy)——指模型給出的答案是否正確。
- 解題過程(Step-by-Step Explanation)——指模型是否能夠提供清晰、正確的解題步驟。
為了進(jìn)一步測試模型的錯誤修正能力,本研究引入了重新提示(re-prompting)機(jī)制。
如果模型首次解答錯誤,則會再次提示它解決該問題,并對修正后的答案進(jìn)行評估。該機(jī)制有助于更全面地分析模型的問題解決能力及其從錯誤中學(xué)習(xí)和修正答案的能力。
測試結(jié)果
總體來看,所有LLM的平均得分為90.4(按百分制計(jì)算),顯示出較強(qiáng)的整體表現(xiàn)。其中ChatGPT 4o和Mistral AI得分310,并列第一,具體結(jié)果如下:
ChatGPT 4o和Mistral AI等模型展現(xiàn)出了較高的準(zhǔn)確性和精確度,而其他模型在某些類型的問題上表現(xiàn)較為吃力。
比如,在關(guān)于向量分解的問題上,所有模型都正確計(jì)算了一個向量在另一個向量上的投影以及正交分量,表明它們在處理向量分解問題時具有較高的準(zhǔn)確性和穩(wěn)定性。
找到向量u=3i?5j+2k在向量v=7i+j?2k上的投影,以及u中與v正交的分量,顯示所有步驟。
然而,不同模型在具體問題的解答能力上仍存在明顯差異。
比如,求正交向量上,只有Claude 3.5 Sonnet最初回答錯誤,但在重提示后糾正了錯誤。
求一個同時正交于向量u=?4,?3,1?和v=?2,5,3?的單位向量,并展示所有步驟。
而在優(yōu)化領(lǐng)域的求極值上,谷歌的Gemini Adavnced with 1.5 Pro直接翻車,提示它錯誤后,沒有改正過來,兩次持續(xù)出錯,暴露了其在優(yōu)化問題上的特定弱點(diǎn)。
檢查函數(shù)的相對極值和鞍點(diǎn):f(x, y)=-5x^2+4xy-y^2+16x+10。并給出全部步驟。
Meta AI在求一道積分問題上,回答錯誤;而ChatGPT 4o經(jīng)過再提示后,幾乎不會出錯。
總體二樣,大語言模型,在微積分測試中的表現(xiàn)存在差異。
其他20多個問題的具體測試結(jié)果,請參考原文。
結(jié)果分析
對LLMs在微積分測試中的表現(xiàn)分析揭示了多個關(guān)鍵見解和趨勢,這對于理解它們在數(shù)學(xué)問題求解中的能力和局限性至關(guān)重要。
ChatGPT 4o和Mistral AI以96.9%的得分并列第一,表現(xiàn)最優(yōu)。
ChatGPT 4o在廣泛的問題類型中均表現(xiàn)出色,展現(xiàn)了其強(qiáng)大的數(shù)學(xué)推理能力。而Mistral AI在向量微積分和多元微積分方面表現(xiàn)尤為突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表現(xiàn)相同,得分均為87.5%。
LLM的優(yōu)勢
簡單問題的穩(wěn)定性:ChatGPT 4o 和Mistral AI在解答基礎(chǔ)性問題(如向量計(jì)算、幾何解釋和基本求導(dǎo))時展現(xiàn)出一致的準(zhǔn)確性。這表明它們在處理基礎(chǔ)微積分概念方面具備較強(qiáng)的穩(wěn)健性和可靠性。
重新提示(Re-prompting)的有效性:在多次測試中,某些模型最初給出的答案錯誤,但在重新提示后成功修正。這表明通過迭代提問和反饋機(jī)制可以有效提升模型的表現(xiàn)。
特定領(lǐng)域的高準(zhǔn)確性:在涉及方向余弦、偏導(dǎo)數(shù)、曲線積分等問題時,所有模型的解答均正確。這表明它們在這些微積分專題上具備較強(qiáng)的共識和理解能力。
LLM的劣勢
復(fù)雜積分計(jì)算:在處理復(fù)雜積分(如迭代積分、三重積分和曲線下區(qū)域面積計(jì)算)時,模型普遍表現(xiàn)不佳。這表明它們在微積分求解方面仍有待改進(jìn)。
優(yōu)化問題:部分模型(尤其是Gemini Advanced with 1.5 Pro)在求解優(yōu)化問題時表現(xiàn)較弱,尤其是在相對極值和鞍點(diǎn)的識別方面存在困難,說明其優(yōu)化技術(shù)仍需加強(qiáng)。
持續(xù)性錯誤:某些模型在特定問題上反復(fù)出錯。例如,Meta AI在積分計(jì)算上存在較大困難,而Gemini Advanced with 1.5 Pro在梯度計(jì)算上表現(xiàn)不佳。這些持續(xù)性錯誤表明其算法可能需要進(jìn)一步優(yōu)化。
重新提示(Re-prompting)的重要性
本研究強(qiáng)調(diào)了重新提示機(jī)制在提高解題準(zhǔn)確性方面的重要作用。
多個模型在第一次解答錯誤后,通過重新提示成功修正答案。
這表明迭代提問和反饋機(jī)制可以顯著提高模型的解題能力,尤其是在復(fù)雜問題上,初始錯誤的可能性更大,而重新提示可以提高最終正確率。
對LLM發(fā)展的啟示
本研究對各模型的表現(xiàn)進(jìn)行了詳細(xì)分析,為LLM技術(shù)的持續(xù)優(yōu)化提供了有價值的見解。
研究結(jié)果揭示了當(dāng)前LLM的優(yōu)勢與不足,為未來的定向改進(jìn)提供了清晰的路線圖,尤其是在以下幾個方面:復(fù)雜積分計(jì)算、優(yōu)化問題求解、梯度計(jì)算的精確性。
如果開發(fā)者能針對這些弱點(diǎn)進(jìn)行優(yōu)化,在數(shù)學(xué)問題求解中,將有助于提升LLM的整體性能和可靠性。
本研究的結(jié)果對教育工作者、研究人員和開發(fā)者都具有重要意義,尤其是在數(shù)學(xué)教育和實(shí)際應(yīng)用方面:
- 表現(xiàn)優(yōu)異的模型(如ChatGPT 4o 和 Mistral AI):展現(xiàn)出了較強(qiáng)的數(shù)學(xué)問題求解能力,使它們成為可靠的數(shù)學(xué)輔助工具,可應(yīng)用于教育領(lǐng)域。
- 其他模型的不足:指明了改進(jìn)方向,為LLM技術(shù)的進(jìn)一步優(yōu)化提供了參考。未來,隨著LLM在數(shù)學(xué)領(lǐng)域的不斷進(jìn)步,它們有望成為更強(qiáng)大、更可靠的數(shù)學(xué)教育和問題求解工具,在教學(xué)、科研和工業(yè)應(yīng)用等多個領(lǐng)域發(fā)揮重要作用。