自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督

發(fā)布于 2024-5-15 10:35
瀏覽
0收藏

大語(yǔ)言模型在自然語(yǔ)言處理任務(wù)中取得了顯著的突破,尤其是是在少樣本學(xué)習(xí)和上下文學(xué)習(xí)(in-context learning,簡(jiǎn)稱(chēng)“ICL”)方面。雖然在少樣本學(xué)習(xí)中表現(xiàn)出色,但無(wú)法探索更大規(guī)模的上下文學(xué)習(xí)潛力。


隨著大模型上下文窗口的大幅度增長(zhǎng),例如,谷歌的Gemini 1.5 Pro模型支持100萬(wàn)tokens上下文,使得研究人員有機(jī)會(huì)探索更多的ICL示例,以增強(qiáng)大模型的學(xué)習(xí)和輸出能力。


谷歌Deepmind的研究人員提出了強(qiáng)化和無(wú)監(jiān)督兩種ICL學(xué)習(xí)方法,可顯著提升模型的數(shù)學(xué)問(wèn)題解決、文本問(wèn)答、摘要生成、算法推理、低資源機(jī)器翻譯等場(chǎng)景能力,同時(shí)大幅度降低人工標(biāo)注的成本。


論文地址:https://arxiv.org/abs/2404.11018

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督-AI.x社區(qū)

強(qiáng)化ICL

傳統(tǒng)的ICL主要依賴(lài)于人類(lèi)生成的示例來(lái)學(xué)習(xí)新的輸出模式,但這種方法受限于高質(zhì)量數(shù)據(jù)的可用性。而谷歌提出的強(qiáng)化ICL通過(guò)使用模型生成的推理鏈來(lái)代替人類(lèi)編寫(xiě)的示例輸出,可有效減少對(duì)人類(lèi)生成數(shù)據(jù)的依賴(lài)。


強(qiáng)化ICL主要通過(guò)已有的模型來(lái)生成問(wèn)題解決的候選推理鏈,從少量或零示例的鏈?zhǔn)剿伎继崾鹃_(kāi)始,使模型能夠?yàn)槊總€(gè)訓(xùn)練問(wèn)題生成多個(gè)推理鏈


然后,使用一個(gè)獨(dú)立的評(píng)估模塊,對(duì)生成的推理鏈、輸出對(duì)進(jìn)行打分過(guò)濾,只保留高質(zhì)量的部分,并將它們作為上下文示例應(yīng)用在模型的學(xué)習(xí)中。


研究人員在一系列推理和問(wèn)答數(shù)據(jù)集上測(cè)試了強(qiáng)化ICL性能,結(jié)果顯示,可以在不依賴(lài)額外人工標(biāo)注的情況下,持續(xù)提升模型的多ICL性能。


例如,在谷歌的GPQA數(shù)據(jù)集上,使用強(qiáng)化ICL產(chǎn)生的8192個(gè)示例,使得大模型的準(zhǔn)確率高達(dá)67.8%,大幅超過(guò)了僅使用128個(gè)人工標(biāo)注示例50.2%。

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督-AI.x社區(qū)

在谷歌的GSM8K編程問(wèn)題數(shù)據(jù)集上,使用500個(gè)強(qiáng)化ICL生成的示例,模型的準(zhǔn)確率達(dá)到84%,而僅使用4個(gè)人工標(biāo)注示例時(shí)的準(zhǔn)確率只有78.1%。

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督-AI.x社區(qū)

除了大模型的性能獲得顯著提升,強(qiáng)化ICL還顯著降低了人工成本。以MATH數(shù)學(xué)題為例,生成4000個(gè)高質(zhì)量的問(wèn)題解答示例,純?nèi)斯?biāo)注需180人小時(shí),而使用強(qiáng)化ICL生成只需10人小時(shí),大幅度降低了18倍的人力成本。


無(wú)監(jiān)督ICL

?

無(wú)監(jiān)督ICL不依賴(lài)于傳統(tǒng)的輸入-輸出示例對(duì),而是僅通過(guò)問(wèn)題本身的上下文來(lái)引導(dǎo)模型學(xué)習(xí),幫助模型能夠利用其在預(yù)訓(xùn)練階段獲得的知識(shí),來(lái)理解和解決問(wèn)題,而無(wú)需額外的示例指導(dǎo)。


首先,根據(jù)任務(wù)的需求,從未標(biāo)注的數(shù)據(jù)中選取合適的文本片段作為上下文。這些上下文可以是單個(gè)句子、段落或者更長(zhǎng)的文本。然后將構(gòu)建好的上下文輸入到大語(yǔ)言模型中,讓模型根據(jù)上下文的內(nèi)容進(jìn)行推理和預(yù)測(cè)。

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督-AI.x社區(qū)

最后,將模型推理的結(jié)果與真實(shí)情況進(jìn)行對(duì)比,計(jì)算損失函數(shù)并更新模型的參數(shù)。但需要注意的是,由于無(wú)監(jiān)督ICL沒(méi)有標(biāo)注任何數(shù)據(jù),很多示例是基于某種啟發(fā)式方法或者先驗(yàn)知識(shí)實(shí)現(xiàn)的。


此外,在研究過(guò)程中,研究人員還發(fā)現(xiàn)了一些有趣的現(xiàn)象,大規(guī)模ICL與少樣本學(xué)習(xí)存在差異。但大模型可以克服預(yù)訓(xùn)練偏差,并解決具有數(shù)值輸入的高維預(yù)測(cè)任務(wù),例如,順序奇偶預(yù)測(cè)和線(xiàn)性分類(lèi)等。

谷歌提出大規(guī)模ICL方法——強(qiáng)化和無(wú)監(jiān)督-AI.x社區(qū)

本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/sPITVBWr9xNlALcNm0urkg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦