從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景 原創(chuàng)
“ 學(xué)習(xí)的過程,是一個(gè)不斷產(chǎn)生偏差和調(diào)整的過程 ”
學(xué)習(xí)的過程是一個(gè)學(xué)習(xí)——驗(yàn)證——再學(xué)習(xí)——再驗(yàn)證的過程。
在此之前也有寫過關(guān)于強(qiáng)化學(xué)習(xí)的文章,但那時(shí)更多的是停留在概念描述和名稱解釋的階段,簡(jiǎn)單來說就是知道有強(qiáng)化學(xué)習(xí)這個(gè)概念,但不知道它是用來解決什么問題,以及怎么來解決這些問題。之前的文章??大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么???
學(xué)習(xí)一門新技能或技術(shù)的最好方式,就是從應(yīng)用場(chǎng)景中學(xué)習(xí),發(fā)現(xiàn)問題然后學(xué)習(xí)。
關(guān)于強(qiáng)化學(xué)習(xí)
大模型技術(shù)中有多種學(xué)習(xí)方式,比如監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)等;但對(duì)剛開始學(xué)習(xí)大模型技術(shù)的人來說,雖然網(wǎng)絡(luò)上有各種各樣的解釋,但對(duì)我們來說終究只是一個(gè)概念,并不是自己親自體驗(yàn)的東西。
因此,很多時(shí)候?qū)W習(xí)這些概念都處于懵懵懂懂的階段,感覺自己好像懂了,又好像什么都沒懂,特別是過了一段時(shí)間之后就忘記了,這就說明我們肯定沒懂。
所以,接著學(xué)習(xí)具身智能這個(gè)概念的機(jī)會(huì),又加深了自己對(duì)強(qiáng)化學(xué)習(xí)的理解和應(yīng)用,雖然可能最終發(fā)現(xiàn)這個(gè)理解并不是準(zhǔn)確的,但也算是自己學(xué)習(xí)過程的記錄。
首先,我們還是從概念開始,什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí),是機(jī)器學(xué)習(xí)的范式和方法論之一,用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。
上面是百度百科關(guān)于強(qiáng)化學(xué)習(xí)的定義,Ok看了這個(gè)定義是不是還是覺得一臉懵。
所以,現(xiàn)在我們從應(yīng)用場(chǎng)景或者說從問題開始,來理解強(qiáng)化學(xué)習(xí)。
以我們?nèi)祟愖陨韥碚f,我們接觸一個(gè)新事物或者新環(huán)境是怎么做的?
比如說某一天你突然見到一個(gè)之前沒見過的事物,這時(shí)好奇心驅(qū)使你想了解一下它是什么。這時(shí)你有哪些辦法?
首先,第一就是如果你身邊有了解的人,那么最簡(jiǎn)單的辦法就是問他,然后對(duì)這個(gè)事物有一個(gè)初步的了解,比如它會(huì)不會(huì)攻擊人,能不能摸,能不能吃,會(huì)不會(huì)有毒等等,這個(gè)就叫做經(jīng)驗(yàn)。
而在幾千年之前的古人,他們那時(shí)候?qū)κ澜缌私馍跎伲芏鄸|西都不知道,那他們是怎么做的?
首先,就是觀察看看這玩意有什么外貌特征,是動(dòng)物還是植物,慢慢靠近它會(huì)不會(huì)被攻擊,然后會(huì)嘗試用手碰它,到最后可能會(huì)試試能不能吃。
從上面這段你能看出什么?
上面這段就是一個(gè)典型的人與環(huán)境交互的場(chǎng)景,也是一個(gè)不斷根據(jù)反饋調(diào)整交互方式的場(chǎng)景。比如說第一次見到一頭牛,你不認(rèn)識(shí)它然后觀察它的時(shí)候,它也沒什么反應(yīng);但如果你突然靠近它的時(shí)候,可能就會(huì)引起牛的敵意,甚至是攻擊。
這時(shí)如果牛攻擊你,那么你就會(huì)明白這玩意不能隨便靠近;而如果它不攻擊你,你就會(huì)逐漸嘗試接近它。那如果是獅子老虎呢?又或者是雞鴨鵝呢?
所以,根據(jù)不同的環(huán)境人類會(huì)做出不同的反應(yīng)。
現(xiàn)在再來看強(qiáng)化學(xué)習(xí)的定義,描述和解決智能體在與環(huán)境交互中通過學(xué)習(xí)策略達(dá)到最優(yōu)或?qū)崿F(xiàn)特定目標(biāo)。
因此,強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景是什么?或者說強(qiáng)化學(xué)習(xí)要解決的問題是什么?
智能體與環(huán)境交互,獲得反饋,然后獲得最優(yōu)解或達(dá)到某個(gè)目的。
那又一個(gè)問題出現(xiàn)了,怎么才知道是不是最優(yōu)解?
大家應(yīng)該都聽過一個(gè)麥穗理論,相傳蘇格拉底帶著他的學(xué)生到一塊麥田,讓他們找到一個(gè)最大的麥穗,并且不能回頭,只能摘一只。
麥穗理論最難的一點(diǎn)是什么,你不知道最大的麥穗是在前面還是在后面,也就是說你不知道那個(gè)麥穗才是最優(yōu)解。
而強(qiáng)化學(xué)習(xí)是怎么做的呢 ?
還是那兩個(gè)字——反饋。
強(qiáng)化學(xué)習(xí)的過程并不是蘇格拉底要求的那種不可以走回頭路,強(qiáng)化學(xué)習(xí)是可以走回頭路的;它可以一次一次的嘗試,然后找到其中最大的麥穗。
而在強(qiáng)化學(xué)習(xí)的應(yīng)用實(shí)踐中,強(qiáng)化學(xué)習(xí)會(huì)通過獲得正反饋的方式來進(jìn)行優(yōu)化;比如,給你一個(gè)草莓,你吃了一口很甜,然后還想再吃一個(gè),這個(gè)叫正反饋;而如果給你一碗中藥,喝一口很苦以后都不想喝了,這個(gè)叫負(fù)反饋。
而強(qiáng)化學(xué)習(xí)就是通過不斷加強(qiáng)某方面的正反饋,來讓大模型在某個(gè)方面變得更加強(qiáng)大。
比如說在自動(dòng)駕駛領(lǐng)域,可以讓大模型采用強(qiáng)化學(xué)習(xí)的模式,通過不斷的對(duì)路面環(huán)境進(jìn)行感知,增強(qiáng)其在道路行駛中對(duì)復(fù)雜環(huán)境的判斷能力。
再比如,在圍棋領(lǐng)域谷歌開發(fā)的阿爾法狗就是利用強(qiáng)化學(xué)習(xí)的方式來提升棋藝,通過模擬與世界頂尖棋手的對(duì)弈,讓阿爾法狗不斷學(xué)習(xí)人類棋手的下棋方式和技藝,最終達(dá)到戰(zhàn)勝人類棋手的目的。
而在強(qiáng)化學(xué)習(xí)中,這個(gè)過程被叫做獎(jiǎng)勵(lì)機(jī)制;比如說你考試考一百分,媽媽就給你買玩具,也是這個(gè)道理。
前面理解了強(qiáng)化學(xué)習(xí)的概念以及應(yīng)用場(chǎng)景,那么到底怎么才能實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)呢?就類似于,媽媽說你考一百分就給你買玩具,那么怎么才能考一百分呢?
這就要了解一下強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)方式了,強(qiáng)化學(xué)習(xí)的模型非常的簡(jiǎn)單,大腦就是智能體(大模型),地球就是外部環(huán)境,大腦通過與地球的交互獲得不同的反饋。
強(qiáng)化學(xué)習(xí)的原則
強(qiáng)化學(xué)習(xí)基本按照兩個(gè)原則進(jìn)行分類:
- 基于策略和價(jià)值的分類
- 基于環(huán)境的分類
在這兩種原則之下,還細(xì)分為多種方法:
基于策略和價(jià)值分類
- 基于價(jià)值的方法: 沒有策略但有價(jià)值函數(shù)
- 基于策略的方法:有策略但沒有價(jià)值函數(shù)
- 參與評(píng)價(jià)的方法:既有策略也有價(jià)值函數(shù)
基于環(huán)境分類
- 無模型的方法: 有策略和價(jià)值函數(shù),沒有模型
- 基于模型的方法: 有策略和價(jià)值函數(shù),也有模型
總結(jié)
以上是個(gè)人對(duì)強(qiáng)化學(xué)習(xí)的一些理解和學(xué)習(xí)的過程記錄,可能是對(duì)的,也可能是錯(cuò)的,或許隨著對(duì)大模型技術(shù)的深入,某一天會(huì)發(fā)現(xiàn)現(xiàn)在對(duì)強(qiáng)化學(xué)習(xí)的理解還是臺(tái)淺顯了。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
