自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深入理解預(yù)訓(xùn)練與微調(diào),為什么需要預(yù)訓(xùn)練,什么是微調(diào)? 原創(chuàng)

發(fā)布于 2024-11-18 12:53
瀏覽
0收藏

?“ 大模型需要先經(jīng)過(guò)模型設(shè)計(jì)和實(shí)現(xiàn),然后再進(jìn)行預(yù)訓(xùn)練獲得通用能力,最后通過(guò)微調(diào)強(qiáng)化能力”

在上一篇文章中介紹了預(yù)訓(xùn)練為什么要使用無(wú)監(jiān)督學(xué)習(xí),并簡(jiǎn)單介紹了預(yù)訓(xùn)練與微調(diào);而在之前的文章中也講過(guò)什么是訓(xùn)練和微調(diào),而現(xiàn)在再回頭看看發(fā)現(xiàn)之前的理解還是太膚淺了。

所以,今天我們就來(lái)深入理解一下預(yù)訓(xùn)練與微調(diào)。

大模型預(yù)訓(xùn)練與微調(diào)

在之前學(xué)習(xí)大模型訓(xùn)練和微調(diào)的過(guò)程中,一直認(rèn)為預(yù)訓(xùn)練就是使用大規(guī)模數(shù)據(jù)訓(xùn)練一個(gè)新模型的過(guò)程;而微調(diào)就是在預(yù)訓(xùn)練模型的基礎(chǔ)之上,做更加細(xì)化的訓(xùn)練。

雖然上面這種理解不能說(shuō)有錯(cuò),但只能說(shuō)只看到了大模型訓(xùn)練和微調(diào)的表象,而沒(méi)有透過(guò)現(xiàn)象看到模型訓(xùn)練的本質(zhì)。

先思考一個(gè)問(wèn)題,模型訓(xùn)練和微調(diào)的區(qū)別是什么?

其實(shí)從技術(shù)的角度來(lái)說(shuō),模型訓(xùn)練和微調(diào)沒(méi)有任何區(qū)別,都是通過(guò)訓(xùn)練數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行調(diào)整;雖然從技術(shù)上兩者沒(méi)什么區(qū)別,但從功能和數(shù)據(jù)上兩者還是有很大區(qū)別的。

深入理解預(yù)訓(xùn)練與微調(diào),為什么需要預(yù)訓(xùn)練,什么是微調(diào)?-AI.x社區(qū)

什么是預(yù)訓(xùn)練模型,為什么需要預(yù)訓(xùn)練模型?

從本質(zhì)上來(lái)說(shuō),大模型就是一種使用一種機(jī)器學(xué)習(xí)的架構(gòu)去模仿人類大腦神經(jīng)元的過(guò)程;而大模型的學(xué)習(xí)本質(zhì)上是基于神經(jīng)網(wǎng)絡(luò)模型,通過(guò)概率實(shí)現(xiàn)的歸納總結(jié)。

也就是說(shuō),雖然大模型無(wú)法實(shí)現(xiàn)和理解人類的思考方式,但大模型可以通過(guò)一種架構(gòu)去學(xué)習(xí)不同語(yǔ)義下某個(gè)參數(shù)出現(xiàn)的概率,其本質(zhì)上是一個(gè)概率模型。

而預(yù)訓(xùn)練的作用,就是讓大模型在什么都不知道的情況下,通過(guò)對(duì)大量輸入數(shù)據(jù)進(jìn)行歸納總結(jié),建立自己的概率模型;這樣根據(jù)正態(tài)分布原則,大量的參數(shù)就會(huì)呈現(xiàn)正態(tài)分布的模式,也就是說(shuō)通過(guò)這種方式大模型能夠?qū)W習(xí)到大量通用的數(shù)據(jù)模式,這就是無(wú)監(jiān)督學(xué)習(xí)。

這就類似于,我們?cè)诠ぷ鞯倪^(guò)程中雖然大部分都是使用我們的專業(yè)技能;但同時(shí)我們也可以學(xué)到很多職場(chǎng)的通用技能;雖然短時(shí)間來(lái)看,你的收入主要靠你的專業(yè)技能,但從長(zhǎng)遠(yuǎn)來(lái)看你的專業(yè)技能不一定有用;但你的職場(chǎng)技能卻能夠通用。

深入理解預(yù)訓(xùn)練與微調(diào),為什么需要預(yù)訓(xùn)練,什么是微調(diào)?-AI.x社區(qū)

那預(yù)訓(xùn)練是否只能使用無(wú)監(jiān)督學(xué)習(xí)的方式? 

其實(shí)預(yù)訓(xùn)練和學(xué)習(xí)方式?jīng)]有任何關(guān)系,不論是監(jiān)督學(xué)習(xí)還是無(wú)監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練都可以使用。

而決定一個(gè)模型到底使用監(jiān)督學(xué)習(xí)還是無(wú)監(jiān)督學(xué)習(xí)的方式進(jìn)行預(yù)訓(xùn)練,這是由此模型的定位和目標(biāo)所決定的。

比如說(shuō),你設(shè)計(jì)一款模型,然后你想讓它具備更加通用的能力;這樣在必要的時(shí)候就可以對(duì)模型進(jìn)行微調(diào),這樣就不用每次都重新訓(xùn)練一個(gè)模型;這時(shí),你這個(gè)模型就只能使用無(wú)監(jiān)督學(xué)習(xí)的方式,因?yàn)橹挥袩o(wú)監(jiān)督學(xué)習(xí)才能讓大模型具備更加通用的能力。

而采用監(jiān)督學(xué)習(xí)進(jìn)行模型預(yù)訓(xùn)練,那么訓(xùn)練出來(lái)的模型就只擅長(zhǎng)特定類型的任務(wù)處理;如果想讓它處理其它類型的任務(wù),那么通過(guò)微調(diào)是無(wú)法實(shí)現(xiàn)的,只能進(jìn)行重新訓(xùn)練。當(dāng)然,前提是當(dāng)前模型的架構(gòu)適用于其它類型的任務(wù)。

而微調(diào)是什么? 

微調(diào)的本質(zhì)就是對(duì)大模型進(jìn)行某個(gè)方面的強(qiáng)化,比如說(shuō)一個(gè)自然語(yǔ)言處理大模型,你使用大量的安徒生童話進(jìn)行微調(diào),這時(shí)此模型就會(huì)更加擅長(zhǎng)講童話,而不是講笑話。

所以,微調(diào)的作用就是讓大模型在當(dāng)前類型任務(wù)下,進(jìn)行更加細(xì)致的學(xué)習(xí),也就是讓大模型更加“過(guò)擬合”。但前提是當(dāng)前大模型支持這樣的任務(wù),如果大模型本身不支持這樣類型的任務(wù),那么再微調(diào)也無(wú)濟(jì)于事。

預(yù)訓(xùn)練有哪些好處?

預(yù)訓(xùn)練的好處在于,通過(guò)利用大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,模型可以學(xué)習(xí)到更泛化的特征表示,從而在具體任務(wù)上表現(xiàn)更好。這對(duì)于數(shù)據(jù)較少的任務(wù)或者計(jì)算資源有限的情況下特別有用。

預(yù)訓(xùn)練能夠讓大模型在底層特征具備通用性,而在高層特征具備相關(guān)性。

預(yù)訓(xùn)練有什么作用?

  • 加速訓(xùn)練過(guò)程:通過(guò)預(yù)訓(xùn)練,在大規(guī)模數(shù)據(jù)上學(xué)習(xí)到的通用特征表示可以作為初始化參數(shù),加速模型在特定任務(wù)上的訓(xùn)練過(guò)程。這是因?yàn)轭A(yù)訓(xùn)練的參數(shù)已經(jīng)接近最優(yōu),并且已經(jīng)捕捉到了輸入數(shù)據(jù)中的一些通用模式,這樣在目標(biāo)任務(wù)上的優(yōu)化過(guò)程更容易收斂。
  • 提高性能:預(yù)訓(xùn)練的模型通常在具體任務(wù)上表現(xiàn)更好。這是因?yàn)樵陬A(yù)訓(xùn)練階段,模型學(xué)習(xí)到了大量的數(shù)據(jù)中的通用特征,這些特征對(duì)于許多任務(wù)都是有用的。在目標(biāo)任務(wù)中,預(yù)訓(xùn)練的模型能夠更好地利用這些通用特征,從而提高性能。
  • 解決數(shù)據(jù)不足問(wèn)題:在許多實(shí)際任務(wù)中,數(shù)據(jù)往往是有限的,特別是深度學(xué)習(xí)模型需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。通過(guò)預(yù)訓(xùn)練,可以利用大規(guī)模數(shù)據(jù)集進(jìn)行通用特征的學(xué)習(xí),然后將這些學(xué)到的特征應(yīng)用于目標(biāo)任務(wù),從而克服數(shù)據(jù)不足的問(wèn)題。
  • 遷移學(xué)習(xí):預(yù)訓(xùn)練的模型可以作為遷移學(xué)習(xí)的基礎(chǔ)。將預(yù)訓(xùn)練模型的參數(shù)應(yīng)用于新的相關(guān)任務(wù),可以利用預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)上學(xué)習(xí)到的通用特征,從而在新任務(wù)上提高性能。這對(duì)于目標(biāo)任務(wù)數(shù)據(jù)較少的情況下特別有用。
  • 提高泛化能力:預(yù)訓(xùn)練有助于提高模型的泛化能力,即在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)良好。通過(guò)在大規(guī)模數(shù)據(jù)上學(xué)習(xí)通用特征,模型更能夠從輸入數(shù)據(jù)中捕捉普遍的模式,而不是過(guò)度擬合訓(xùn)練集。

深入理解預(yù)訓(xùn)練與微調(diào),為什么需要預(yù)訓(xùn)練,什么是微調(diào)?-AI.x社區(qū)

總之,預(yù)訓(xùn)練和微調(diào)是大模型實(shí)踐過(guò)程中很重要的兩個(gè)步驟;預(yù)訓(xùn)練是微調(diào)的前提,微調(diào)雖然能夠在某個(gè)方面進(jìn)行強(qiáng)化,但它無(wú)法打破預(yù)訓(xùn)練模型的限制。

大模型能處理什么類型的任務(wù)是由其模型架構(gòu)和實(shí)現(xiàn)來(lái)決定的,預(yù)訓(xùn)練是讓模型具備處理某個(gè)任務(wù)的能力,而微調(diào)是讓其在某個(gè)任務(wù)上更加擅長(zhǎng);但不論是預(yù)訓(xùn)練還是微調(diào)都無(wú)法讓大模型做它根本做不到的事。

?

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/k0Txw1Pv2uEtb3KWwGdybw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦