AI數(shù)學(xué)天才還是數(shù)字騙子?GSM-Symbolic揭秘大語言模型的數(shù)學(xué)推理能力
1、AI模型升級(jí)有妙招!"廢物利用"讓大語言模型更強(qiáng)大
想象一下,如果能把你的舊手機(jī)變成最新的智能設(shè)備,是不是很酷?在AI領(lǐng)域,研究人員就實(shí)現(xiàn)了類似的"魔法"!他們提出了一種叫做"upcycling"的方法,可以將現(xiàn)有的大語言模型(LLM)升級(jí)成更強(qiáng)大的"專家混合模型"(MoE)。這項(xiàng)技術(shù)不僅能提高模型性能,還能大幅節(jié)省訓(xùn)練成本和時(shí)間。
那么,這種"升級(jí)魔法"是如何實(shí)現(xiàn)的呢?研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),探索了各種升級(jí)技巧和參數(shù)設(shè)置。他們發(fā)現(xiàn),通過精心設(shè)計(jì)的訓(xùn)練方案、新穎的"虛擬分組"初始化方法,以及巧妙的權(quán)重縮放策略,可以讓升級(jí)后的模型性能顯著提升。更令人興奮的是,他們還發(fā)現(xiàn)了一種新的"專家路由"方法,讓模型在處理信息時(shí)更加高效。
為了證明這種升級(jí)方法的威力,研究人員對(duì)Nemotron-4 15B模型進(jìn)行了升級(jí)實(shí)驗(yàn)。結(jié)果令人驚喜:在相同的訓(xùn)練數(shù)據(jù)量下,升級(jí)后的模型在MMLU測(cè)試中的得分從65.3%提升到了67.6%。這意味著,通過"upcycling",我們可以讓現(xiàn)有的AI模型變得更聰明、更高效,而無需從頭開始訓(xùn)練新模型。
這項(xiàng)研究不僅為AI領(lǐng)域帶來了新的發(fā)展方向,也為我們提供了一種全新的思路:如何更好地利用和提升現(xiàn)有資源。在未來,我們可能會(huì)看到更多的AI模型通過這種"升級(jí)魔法"變得更加強(qiáng)大,為各行各業(yè)帶來更智能、更高效的解決方案。AI的未來,也許就藏在這種創(chuàng)新的"廢物利用"中!
論文標(biāo)題:Upcycling Large Language Models into Mixture of Experts
論文鏈接:??https://arxiv.org/abs/2410.07524??
2、AI數(shù)學(xué)天才還是數(shù)字騙子?GSM-Symbolic揭秘大語言模型的數(shù)學(xué)推理能力
你可能聽說過AI在數(shù)學(xué)測(cè)試中表現(xiàn)驚人,但它們真的懂?dāng)?shù)學(xué)嗎?最新研究GSM-Symbolic給出了令人深思的答案。研究團(tuán)隊(duì)通過創(chuàng)新的符號(hào)化模板,生成了大量變體問題,深入探究了大語言模型(LLMs)的數(shù)學(xué)推理能力。結(jié)果揭示,這些AI"數(shù)學(xué)天才"可能并不如我們想象的那么聰明!
研究發(fā)現(xiàn),當(dāng)面對(duì)GSM-Symbolic生成的新問題時(shí),所有模型的表現(xiàn)都出現(xiàn)了下滑。這不禁讓人懷疑,之前在GSM8K測(cè)試中的高分是否只是數(shù)據(jù)污染導(dǎo)致的"假象"?更有趣的是,AI們對(duì)人名等表面變化還算"淡定",但一旦數(shù)字發(fā)生變化,它們就會(huì)變得"手足無措"。隨著問題復(fù)雜度增加,AI的表現(xiàn)更是每況愈下,暴露出其推理能力的局限性。
最令人驚訝的是GSM-NoOp實(shí)驗(yàn)。研究者只是在問題中添加了一些看似相關(guān)但實(shí)際無關(guān)的信息,結(jié)果AI的表現(xiàn)就大幅下滑,最高降幅竟達(dá)65%!這說明AI在分辨關(guān)鍵信息方面還很"幼稚",其所謂的"推理"可能更像是一種模式匹配,而非真正的邏輯思考。即便給AI多個(gè)相似例子,它們?nèi)匀浑y以克服這一挑戰(zhàn),暴露出其推理過程中的深層問題。
這項(xiàng)研究不僅揭示了當(dāng)前AI在數(shù)學(xué)推理方面的局限性,也為我們提供了一個(gè)全新的視角來評(píng)估和改進(jìn)AI系統(tǒng)。它提醒我們,在為AI的"聰明"歡呼之前,我們還需要更深入、更全面的評(píng)估方法。未來,如何讓AI真正掌握邏輯推理能力,而不是僅僅依賴表面模式匹配,將成為AI研究的一個(gè)重要方向。AI的數(shù)學(xué)之路,似乎還有很長(zhǎng)的路要走!
論文標(biāo)題:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
論文鏈接:??https://arxiv.org/abs/2410.05229??
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無影寺
