自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

CoT神話破滅，并非LLM標(biāo)配！三大學(xué)府機(jī)構(gòu)聯(lián)手證實(shí)，CoT僅在數(shù)學(xué)符號(hào)推理有用

作者：新智元 2024-09-23 09:40:00

人工智能新聞

CoT只對(duì)數(shù)學(xué)、符號(hào)推理才起作用，其他的任務(wù)幾乎沒什么卵用！這是來自UT-Austin、霍普金斯、普林斯頓三大機(jī)構(gòu)研究人員聯(lián)手，分析了100+篇論文14類任務(wù)得出的結(jié)論?？磥?，CoT并非是所有大模型標(biāo)配。

谷歌CoT開山之作，再次成為OpenAI o1模型的利器。

LLM復(fù)雜推理能力的實(shí)現(xiàn)，就離不開一步一步思考，但是這種「思考」究竟對(duì)于什么類型的任務(wù)有幫助呢？

來自UT-Austin、霍普金斯、普林斯頓的研究人員，使用CoT對(duì)100多篇論文，進(jìn)行了定量元分析。

論文地址：https://arxiv.org/abs/2409.12183

同時(shí)，他們還對(duì)14個(gè)模型的20個(gè)數(shù)據(jù)集，進(jìn)行了評(píng)估。

結(jié)果顯示，CoT在涉及數(shù)學(xué)、邏輯任務(wù)中，能夠增強(qiáng)LLM性能，但在其他類型任務(wù)上，收益較小。

在MMLU中，除非問題或模型回答中包含“=”（表示符號(hào)運(yùn)算和推理），否則直接生成答案，而不使用CoT，能達(dá)到與使用CoT相同的準(zhǔn)確率。

基于這一發(fā)現(xiàn)，作者通過分離「規(guī)劃」和「執(zhí)行」，并工具增強(qiáng)的LLM進(jìn)行比較，來分析CoT在這些任務(wù)中的行為。

結(jié)果證實(shí)，CoT的大部分收益，來自于符號(hào)執(zhí)行的改進(jìn)，但相對(duì)于使用符號(hào)求解器來說，表現(xiàn)較差。

總而言之，作者希望通過研究告訴我們，CoT并非是萬能的。

「CoT可以有選擇性地應(yīng)用，以平衡性能和推理計(jì)算成本」。

另外，未來研究中還需超越基于提示的CoT，轉(zhuǎn)向利用整個(gè)LLM中間計(jì)算的新范式。

用CoT，還是不用CoT，這是一個(gè)問題

o1成為當(dāng)紅炸子雞，一大原因便是采用了CoT架構(gòu)。

但是，千萬不要被OpenAI誤導(dǎo)了。

其實(shí)，先前就有研究稱，CoT在數(shù)學(xué)以外的領(lǐng)域，并沒有那么有用，甚至有時(shí)會(huì)損害模型性能。

最新研究中，作者的目標(biāo)是去評(píng)估，基于提示的CoT在哪些領(lǐng)域發(fā)揮作用最大，以及具體的原因。

110篇論文，14大類別

對(duì)此，研究人員從機(jī)器學(xué)習(xí)頂會(huì)ICLR 2024、兩個(gè)NLP頂會(huì)EACL 2024和NAACL 2024中，篩選了所有4642篇論文（2259篇來自ICLR 2024，2,382篇來自兩個(gè)ACL附屬會(huì)議）。

在這些論文中，通過自動(dòng)篩選出現(xiàn)CoT、chain-of-thought或chain of thought兩次的文章，共得到516個(gè)樣本。

然后，下一步通過手動(dòng)篩選，得到對(duì)「CoT提示與直接提示進(jìn)行比較」的論文。

經(jīng)過一系列排除，最終收集了110篇論文樣本，涵蓋了264個(gè)數(shù)據(jù)集。

最后，研究人員將所獲得樣本中的不同任務(wù)，分成14個(gè)類別。

如下圖2所示，在不文獻(xiàn)中，作者發(fā)現(xiàn)CoT在任務(wù)分類中的性能增益。

可見，CoT在符號(hào)推理、數(shù)學(xué)、邏輯推理三大類別任務(wù)中，性能最優(yōu)，平均提高分別為14.2%、12.3%和6.9%。

使用CoT的前三項(xiàng)任務(wù)，平均性能為56.9%，而沒有CoT的性能為45.5%。

對(duì)于其他類別任務(wù)，使用CoT的平均性能為56.8%，而沒有使用CoT的平均性能為56.1%。

圖2右側(cè)顯示了，在數(shù)學(xué)、符號(hào)或邏輯推理以外的任務(wù)實(shí)驗(yàn)中，平均CoT增量較高10個(gè)異常值。

雖然這些論文沒有被歸類為數(shù)學(xué)邏輯，但其中一些在某種程度上與邏輯、數(shù)學(xué)或符號(hào)推理相關(guān)。

從這個(gè)列表中可以看出，從CoT中獲益最多的數(shù)據(jù)集是BIG-bench Hard。還有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本簡(jiǎn)單問題的組合。

同時(shí)，還有幾個(gè)異常值，也隱約遵循這一趨勢(shì)。比如，ScienceQ是由一系列自然和社會(huì)科學(xué)科學(xué)選擇題組成，但如果不按學(xué)科/問題類型細(xì)分成績(jī)，很難解釋其收益。

其次，在一些論文分析中，其他論文評(píng)分結(jié)果并未顯示出CoT帶來的改進(jìn)。

實(shí)驗(yàn)結(jié)果

更進(jìn)一步的，團(tuán)隊(duì)在零樣本學(xué)習(xí)和少樣本學(xué)習(xí)的設(shè)置下，對(duì)14個(gè)模型的20個(gè)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)，以比較性能。

與CoT相比，零樣本CoT有何改進(jìn)？

如下圖3所示，具體顯示了圖1中，每個(gè)推理類別的平均CoT性能改進(jìn)。右側(cè)呈現(xiàn)的是，對(duì)每個(gè)數(shù)據(jù)集使用CoT所帶來的性能增益，這是所有模型和單個(gè)模型選擇的平均值。

在非符號(hào)推理類別和數(shù)據(jù)集上，特別是那些包含主要涉及常識(shí)（CSOA、PIOA、SiOA）、語言理解（WinoGrande）和閱讀理解（(AGILSAT、ARC-Easy、ARC-Challenge）問題的數(shù)據(jù)集。

零樣本CoT和零樣本直接回答的性能之間，幾乎沒有區(qū)別。

盡管這些數(shù)據(jù)集中涉及推理，但是CoT并沒有帶來顯著的改進(jìn)。

相較之下，數(shù)學(xué)和符號(hào)類別，與符號(hào)和許多符號(hào)數(shù)據(jù)集一起得到了大幅改進(jìn)。

MATH和GSM8k的增幅分別高達(dá)41.6%和66.9%。對(duì)于半符號(hào)數(shù)據(jù)集如Mvsteries等，結(jié)果顯示出適度的增幅。

例如，從簡(jiǎn)單的自然語言(ContextHub)或更復(fù)雜的常識(shí)陳述(MuSR 謀殺之謎)解析出一階邏輯。所有結(jié)果均顯示在附錄 C.1中，表7中還顯示了 CoT 和直接答案提示的完整數(shù)字結(jié)果列表。我們還探索了少數(shù)鏡頭設(shè)置，發(fā)現(xiàn)它對(duì) CoT 何時(shí)提供幫助的影響不大;參見附錄 B。

答案形式，是否會(huì)影響到CoT幫助的范圍？

答案——不多，預(yù)先規(guī)劃或推理正確反應(yīng)，可能會(huì)阻礙模型自主反應(yīng)能力。

除了數(shù)學(xué)之外，許多常用的問題數(shù)據(jù)集是多項(xiàng)選擇。

對(duì)于兩個(gè)非多項(xiàng)選擇，且包含不同級(jí)別的非符號(hào)推理來回答問題數(shù)據(jù)集，CoT具有與跨模型直接回答相似的性能。

其次，BiGGen Bench使用自由式回答作為問題答案，并使用LLM作為法官，以1-5級(jí)來評(píng)估這些回答。

得到的答案，本質(zhì)上模糊了CoT和直接答案之間的界限。

為此，研究人員設(shè)置了一個(gè)新的CoT提示，要求語言模型生成自由形式響應(yīng)的規(guī)劃，然后要求其在生成完整的響應(yīng)。

知識(shí)、軟推理和常識(shí)方面，性能提升顯著嗎？

除了MMLU、StrategyQA和MuSR外，大多數(shù)情況下答案是否定的。

作者使用配對(duì)引導(dǎo)法在知識(shí)、軟推理和常識(shí)推理類別的13個(gè)數(shù)據(jù)集上，測(cè)試了CoT改進(jìn)的顯著性。

結(jié)果得出，大約 38%的數(shù)據(jù)集顯示出，這三個(gè)推理類別的效益是顯著的。

MMLU和MMLU PRO

MMLU和MMLU Pro顯示了，使用CoT帶來收益，但由于這些數(shù)據(jù)集非常廣泛，因此無法進(jìn)行簡(jiǎn)單的表征。

研究人員探索了MMLU每個(gè)類別上的CoT性能，以了解這些領(lǐng)域之間CoT性能的差異。

對(duì)此，他們列出了3個(gè)類別，其中CoT在MMLU和MMLU Pro上，Llama 3.1 8B和70B最大的誤差減少。

其中，一些任務(wù)類別明顯是數(shù)學(xué)性質(zhì)，正如圖8中所呈現(xiàn)的那樣。

此外，我們還可以看到，CoT在商業(yè)任務(wù)上，能夠提供一定的幫助。經(jīng)過仔細(xì)核查，這些任務(wù)也會(huì)常常涉及數(shù)學(xué)等一些內(nèi)容。

實(shí)驗(yàn)結(jié)果如下圖4所示，當(dāng)問題或生成結(jié)果匯總包含“=”，以及不包含“=”時(shí)，使用CoT時(shí)的增益效果。

CoT在公式推理中的優(yōu)缺點(diǎn)

前面主要說明了CoT主要在符號(hào)推理任務(wù)發(fā)揮作用，但沒有說明具體原因。

在符號(hào)任務(wù)上，研究人員CoT的性能提升歸因于兩個(gè)階段：規(guī)劃階段和執(zhí)行階段。

下圖6顯示了，代表性模型選擇的結(jié)果。

將直接答案與Plan+ Direct求解器和Plan+CoT求解器進(jìn)行比較時(shí)，可以注意到，對(duì)于許多數(shù)據(jù)集和模型，僅有規(guī)劃并不能解決大部分性能增益。

與直接答案相比，需要CoT或Plan+CoT求解器，來獲得強(qiáng)大的性能。

盡管CoT和Plan+CoT求解器，比直接答案和Plan+Direct求解器有優(yōu)勢(shì)，但在大多數(shù)設(shè)置中，仍以Plan+Tool求解器為主。

與符號(hào)求解器相比，LLM執(zhí)行和追蹤步驟的能力受到限制。

鑒于以上的發(fā)現(xiàn)，研究團(tuán)隊(duì)認(rèn)為CoT應(yīng)該有選擇性地應(yīng)用，尤其是在需要處理數(shù)學(xué)、邏輯推理的任務(wù)。

而不分青紅皂白地使用CoT，可能會(huì)導(dǎo)致推理成本增加。

他們還建議，若想進(jìn)一步提升模型推理能力，還需要超越基于提示的CoT。

總而言之，CoT is not all you need。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)學(xué)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="zyguz"><p id="zyguz"><li id="zyguz"></li></p></sub>