自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無(wú)限的場(chǎng)景窗口會(huì)扼殺LLM微調(diào)和RAG嗎? 原創(chuàng)

發(fā)布于 2024-6-11 08:18
瀏覽
0收藏

研究表明,隨著LLM支持更長(zhǎng)的場(chǎng)景,需要微調(diào)LLM或使用檢索增強(qiáng)生成(RAG)。

近幾個(gè)月來(lái),走在科技前沿的人工智能公司和研究機(jī)構(gòu)在擴(kuò)展大型語(yǔ)言模型(LLM)的場(chǎng)景窗口方面取得了令人印象深刻的進(jìn)展。場(chǎng)景窗口是LLM可以處理的輸入長(zhǎng)度。場(chǎng)景窗口越長(zhǎng),可以在給定模型的提示符中放入的信息和說(shuō)明就越多。

在幾年內(nèi),場(chǎng)景窗口已經(jīng)從GPT-3中的2048個(gè)令牌增加到Gemini 1.5 Pro中的100萬(wàn)個(gè)令牌。新技術(shù)有望進(jìn)一步將LLM的內(nèi)存擴(kuò)展到無(wú)限個(gè)令牌。改進(jìn)的注意力機(jī)制使LLM能夠?qū)荛L(zhǎng)一段文本中的非常具體的信息做出反應(yīng),也被稱為“大海撈針”測(cè)試。

隨著LLM支持更長(zhǎng)的場(chǎng)景,人們經(jīng)常提出的一個(gè)問(wèn)題是,是否需要微調(diào)LLM或使用檢索增強(qiáng)生成(RAG)。這些努力雖然非常有效和有用,但有時(shí)需要大量的工程努力。

與LLM的許多其他事情一樣,其答案既是肯定的,又是否定的。LLM可以在項(xiàng)目的早期階段避免許多工程工作的需要。但是,在擴(kuò)展模型的使用時(shí),開(kāi)發(fā)人員將需要重新使用久經(jīng)考驗(yàn)的優(yōu)化技術(shù)。

無(wú)限場(chǎng)景vs微調(diào)

微調(diào)LLM需要幾個(gè)階段:首先收集并標(biāo)記訓(xùn)練數(shù)據(jù)。然后,開(kāi)發(fā)人員選擇適合自己需求的模型,設(shè)置計(jì)算集群,然后編寫(xiě)并運(yùn)行用于微調(diào)的代碼。隨著微調(diào)服務(wù)的出現(xiàn),現(xiàn)在可以通過(guò)API服務(wù)對(duì)模型進(jìn)行微調(diào),而無(wú)需設(shè)置自己的GPU。但是,開(kāi)發(fā)人員仍然需要控制訓(xùn)練過(guò)程,例如epoch的數(shù)量和模型評(píng)估。

相比之下,對(duì)于無(wú)限場(chǎng)景LLM,可以通過(guò)提示工程來(lái)調(diào)整模型的行為。Google DeepMind最近發(fā)布的一篇論文探討了多鏡頭場(chǎng)景學(xué)習(xí)(ICL)的能力,這是由LLM不斷增長(zhǎng)的場(chǎng)景窗口實(shí)現(xiàn)的?;旧?,通過(guò)在提示符中插入數(shù)百或數(shù)千個(gè)輸入/輸出示例,可以讓模型完成以前需要微調(diào)的事情。

提示工程的技術(shù)入口門(mén)檻非常低,任何有權(quán)訪問(wèn)模型的人都可以訪問(wèn)。即使沒(méi)有軟件開(kāi)發(fā)經(jīng)驗(yàn)的人也可以使用諸如多鏡頭場(chǎng)景學(xué)習(xí)(ICL)之類的技術(shù)來(lái)根據(jù)他們的需要配置LLM。

無(wú)限場(chǎng)景vs檢索增強(qiáng)生成(RAG)

檢索增強(qiáng)生成(RAG)甚至比微調(diào)更具技術(shù)性。首先,開(kāi)發(fā)人員需要將文檔分解為可管理的塊,計(jì)算它們的嵌入,并將它們存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。然后,需要?jiǎng)?chuàng)建一個(gè)提示管道來(lái)計(jì)算用戶請(qǐng)求的嵌入,從向量存儲(chǔ)中檢索相關(guān)文檔塊,并在將其傳遞給模型之前將其內(nèi)容添加到提示中。

為了改進(jìn)RAG管道,必須使用更高級(jí)的技術(shù),例如重新排序、多跳檢索和創(chuàng)建自定義嵌入模型。

相比之下,在無(wú)限關(guān)注的情況下,可以簡(jiǎn)單地將所有文檔轉(zhuǎn)儲(chǔ)到提示中,并嘗試不同的指令,使模型能夠選擇相關(guān)部分并將其用于響應(yīng)。前沿模型現(xiàn)在允許將幾本書(shū)的數(shù)據(jù)加載到提示符中。而且它們非常擅長(zhǎng)為自己的答案確定特定的信息。

這意味著,例如開(kāi)發(fā)人員可以將編程庫(kù)的整個(gè)文檔插入到提示符中,并獲得模型來(lái)幫助自己使用該庫(kù)編寫(xiě)代碼。

LLM和工程任務(wù)

LLM的總體趨勢(shì)是降低創(chuàng)建機(jī)器學(xué)習(xí)系統(tǒng)的入門(mén)門(mén)檻。由于LLM的零樣本、少次和現(xiàn)在的多次學(xué)習(xí)能力,可以讓它們完成以前需要幾天或幾周的工程任務(wù)。例如,可以使用LLM(如GPT-4或Claude 3)創(chuàng)建一個(gè)完整的情感分析系統(tǒng),而無(wú)需訓(xùn)練任何模型,并且只需最少的編碼。

更長(zhǎng)的場(chǎng)景窗口將延續(xù)這一趨勢(shì),并消除對(duì)復(fù)雜任務(wù)的工程努力的需要。然而,長(zhǎng)期和無(wú)限場(chǎng)景的LLM并不是靈丹妙藥。

創(chuàng)建成功的產(chǎn)品和應(yīng)用程序不僅僅依賴于創(chuàng)建解決問(wèn)題的概念驗(yàn)證,它還需要?jiǎng)?chuàng)建一個(gè)可以大規(guī)模工作的系統(tǒng)。

例如,當(dāng)開(kāi)發(fā)人員在原型設(shè)計(jì)過(guò)程中處理數(shù)十或數(shù)百個(gè)推理請(qǐng)求時(shí),成本和推理速度將不是太大的問(wèn)題。但是,當(dāng)每天處理數(shù)千萬(wàn)個(gè)請(qǐng)求時(shí),在每個(gè)提示符中添加或刪除一些令牌可能會(huì)對(duì)計(jì)算、內(nèi)存和財(cái)務(wù)成本產(chǎn)生相當(dāng)大的影響。

微調(diào)、RAG以及為支持它們而創(chuàng)建的所有技術(shù)和工具都可以達(dá)到這些目的。例如,低階自適應(yīng)(LoRA)使開(kāi)發(fā)人員能夠創(chuàng)建成百上千個(gè)微調(diào)的LLM,而無(wú)需為每個(gè)模型存儲(chǔ)數(shù)十億個(gè)參數(shù)。這些技術(shù)可以改變高使用率應(yīng)用程序的游戲規(guī)則。

隨著人工智能公司和研究機(jī)構(gòu)繼續(xù)改進(jìn)LLM的功能,他們將簡(jiǎn)化人工智能應(yīng)用概念的創(chuàng)建。產(chǎn)品團(tuán)隊(duì)將能夠在不需要機(jī)器學(xué)習(xí)團(tuán)隊(duì)的情況下創(chuàng)建和迭代原型。這將加速產(chǎn)品適應(yīng)市場(chǎng)的過(guò)程。但是,當(dāng)超越概念驗(yàn)證時(shí),不能低估良好的工程技能和有才華的團(tuán)隊(duì)的價(jià)值,這些團(tuán)隊(duì)可以創(chuàng)建可靠且可擴(kuò)展的機(jī)器學(xué)習(xí)管道。

正如HyperWrite AI公司首席執(zhí)行官M(fèi)att Shumer指出的那樣,“提示是通往PMF(產(chǎn)品市場(chǎng)契合度)的方法,然后根據(jù)規(guī)模進(jìn)行微調(diào)?!?/p>

原文標(biāo)題:Will infinite context windows kill LLM fine-tuning and RAG?,作者:Ben Dickson

鏈接:https://bdtechtalks.com/2024/04/26/LLM-infinite-context-fine-tuning-rag/。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦