自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么? 原創(chuàng)

發(fā)布于 2024-10-8 09:57
瀏覽
0收藏

“ 大模型設(shè)計,訓(xùn)練,微調(diào),強化是一個系統(tǒng)性的過程”

大模型的訓(xùn)練和調(diào)優(yōu)是一個系統(tǒng)性的,復(fù)雜性的過程;為此,研究人員為大模型的訓(xùn)練和微調(diào)設(shè)計了詳細的方案。

今天就是介紹一下大模型優(yōu)化的兩個方法論,SFT——監(jiān)督微調(diào)和RLHF——基于人類反饋的強化學(xué)習(xí)。

大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么?-AI.x社區(qū)

什么是SFT和RLHF?

下面是關(guān)于這兩個概念的簡單釋義:

SFT中文釋義為:一種通過監(jiān)督學(xué)習(xí)進行模型微調(diào)的方法。
RLHF的釋義為:一種利用人類反饋進行強化學(xué)習(xí)的方法,該方法通過收集人類對模型輸出的反饋;然后使用這些反饋來優(yōu)化模型的行為。

說白了,不論是SFT還是RLHF的目的只有一個,那就是讓模型變得更好。

SFT——監(jiān)督微調(diào)

監(jiān)督微調(diào)的原理很簡單,就類似于學(xué)生上學(xué),不論題目做的是對是錯,老是都會告訴你一個正確的結(jié)果,也就是答案。

監(jiān)督微調(diào)的做法就是,在大模型訓(xùn)練或微調(diào)的過程中,把一部分?jǐn)?shù)據(jù)打上“標(biāo)簽”;也就是告訴大模型這些數(shù)據(jù)是什么東西。

比如,在CV(計算機視覺)領(lǐng)域,圖像識別的大模型在訓(xùn)練的時候,會告訴大模型哪些圖片是人,哪些圖片是貓,哪些圖片是狗;而人,貓,狗就是數(shù)據(jù)的標(biāo)注。

大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么?-AI.x社區(qū)

數(shù)據(jù)標(biāo)注的展現(xiàn)形式很多,比如文件/文件夾名稱,數(shù)據(jù)與標(biāo)注的對應(yīng)關(guān)系等。

有了監(jiān)督微調(diào),大模型就知道自己在干什么,能干什么;還拿圖像識別舉例,監(jiān)督微調(diào)之后大模型能夠識別,人類,貓和狗,但它識別不出來汽車和飛機。

如果想讓它識別汽車和飛機,那么就要在訓(xùn)練或微調(diào)的數(shù)據(jù)中加入標(biāo)注的汽車和飛機的圖片。

監(jiān)督微調(diào)的應(yīng)用領(lǐng)域比較廣泛,目前主流的大模型基本上都是采用的監(jiān)督微調(diào)的方式,具體的領(lǐng)域包括文本分類,情感分析等。

SFT適用于有明確任務(wù)目標(biāo)和大量標(biāo)注數(shù)據(jù)的任務(wù)。

RLHF——基于人類反饋的強化學(xué)習(xí)

RLHF應(yīng)該算是兩種東西的結(jié)合,RL(強化學(xué)習(xí))和HF(人類反饋);強化學(xué)習(xí)是機器學(xué)習(xí)中的一種方法,強化學(xué)習(xí)有多種方式,而基于人類反饋的方式就叫做RLHF。

大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么?-AI.x社區(qū)

其實RLHF屬于模仿人類行為學(xué)的一種方式,比如我們不論在工作或生活中做一件事總喜歡得到夸獎或贊美,這樣我們就會想辦法把事情做的更好。

從技術(shù)角度來說,RLHF需要不斷收集用戶反饋,比如好與壞,評分等;然后根據(jù)這些反饋訓(xùn)練一個獎勵模型,該模型用來評價模型等輸出質(zhì)量。

然后使用強化學(xué)習(xí)算法,如PPO優(yōu)化語言模型,使其輸出能夠最大化獎勵模型。

而從應(yīng)用的角度來說,RLHF主要應(yīng)用于對話,內(nèi)容生成等領(lǐng)域;比較典型的就是我們在使用一些第三方模型時,會彈出讓我們評價的按鈕,比如chatGPT。

大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么?-AI.x社區(qū)

目前chatGPT的能力不斷加強,除了其技術(shù)架構(gòu)方面的原因之外,還有一部分是基于強化學(xué)習(xí)的方式來優(yōu)化其模型。

SFT與RLHF的異同點

說起SFT和RLHF的共同點,那它們的共同點很簡單,那就是通過不同的方式讓模型變得更好。

還有就是兩者都是基于數(shù)據(jù)驅(qū)動,或者說大模型都屬于數(shù)據(jù)驅(qū)動;SFT需要標(biāo)注的數(shù)據(jù),而RLHF需要人類反饋的數(shù)據(jù)。

至于不同點,最明顯的特征有兩個,第一個就是兩者的實現(xiàn)原理不同,SFT使用的是監(jiān)督學(xué)習(xí)算法,而RLHF使用的是強化學(xué)習(xí)算法。小程序

其次,就是兩者的應(yīng)用場景不太相同;SFT適用那種有著明確任務(wù)目標(biāo)的任務(wù),比如說分類;而RLHF適用于那種需要不斷升級優(yōu)化的系統(tǒng),比如客服系統(tǒng),問答系統(tǒng)等。

從兩者的應(yīng)用角度來說,選擇SFT方法的企業(yè)較多,使用RLHF的企業(yè)相對較少。

并不是說RLHF技術(shù)比SFT的差,而是目前的人工智能生態(tài)還無法大規(guī)模使用RLHF,一是因為應(yīng)用場景較少,二是技術(shù)要求和成本較高。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/1agAmx8OZZt7peq5GERMQg???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦