自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？原創(chuàng)

發(fā)布于 2024-10-8 09:57

瀏覽

0收藏

“ 大模型設(shè)計，訓(xùn)練，微調(diào)，強化是一個系統(tǒng)性的過程”

大模型的訓(xùn)練和調(diào)優(yōu)是一個系統(tǒng)性的，復(fù)雜性的過程；為此，研究人員為大模型的訓(xùn)練和微調(diào)設(shè)計了詳細的方案。

今天就是介紹一下大模型優(yōu)化的兩個方法論，SFT——監(jiān)督微調(diào)和RLHF——基于人類反饋的強化學(xué)習(xí)。

大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？-AI.x社區(qū)

什么是SFT和RLHF？

下面是關(guān)于這兩個概念的簡單釋義：

SFT中文釋義為：一種通過監(jiān)督學(xué)習(xí)進行模型微調(diào)的方法。
RLHF的釋義為：一種利用人類反饋進行強化學(xué)習(xí)的方法，該方法通過收集人類對模型輸出的反饋；然后使用這些反饋來優(yōu)化模型的行為。

說白了，不論是SFT還是RLHF的目的只有一個，那就是讓模型變得更好。

SFT——監(jiān)督微調(diào)

監(jiān)督微調(diào)的原理很簡單，就類似于學(xué)生上學(xué)，不論題目做的是對是錯，老是都會告訴你一個正確的結(jié)果，也就是答案。

監(jiān)督微調(diào)的做法就是，在大模型訓(xùn)練或微調(diào)的過程中，把一部分?jǐn)?shù)據(jù)打上“標(biāo)簽”；也就是告訴大模型這些數(shù)據(jù)是什么東西。

比如，在CV(計算機視覺)領(lǐng)域，圖像識別的大模型在訓(xùn)練的時候，會告訴大模型哪些圖片是人，哪些圖片是貓，哪些圖片是狗；而人，貓，狗就是數(shù)據(jù)的標(biāo)注。

大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？-AI.x社區(qū)

數(shù)據(jù)標(biāo)注的展現(xiàn)形式很多，比如文件/文件夾名稱，數(shù)據(jù)與標(biāo)注的對應(yīng)關(guān)系等。

有了監(jiān)督微調(diào)，大模型就知道自己在干什么，能干什么；還拿圖像識別舉例，監(jiān)督微調(diào)之后大模型能夠識別，人類，貓和狗，但它識別不出來汽車和飛機。

如果想讓它識別汽車和飛機，那么就要在訓(xùn)練或微調(diào)的數(shù)據(jù)中加入標(biāo)注的汽車和飛機的圖片。

監(jiān)督微調(diào)的應(yīng)用領(lǐng)域比較廣泛，目前主流的大模型基本上都是采用的監(jiān)督微調(diào)的方式，具體的領(lǐng)域包括文本分類，情感分析等。

SFT適用于有明確任務(wù)目標(biāo)和大量標(biāo)注數(shù)據(jù)的任務(wù)。

RLHF——基于人類反饋的強化學(xué)習(xí)

RLHF應(yīng)該算是兩種東西的結(jié)合，RL(強化學(xué)習(xí))和HF(人類反饋)；強化學(xué)習(xí)是機器學(xué)習(xí)中的一種方法，強化學(xué)習(xí)有多種方式，而基于人類反饋的方式就叫做RLHF。

大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？-AI.x社區(qū)

其實RLHF屬于模仿人類行為學(xué)的一種方式，比如我們不論在工作或生活中做一件事總喜歡得到夸獎或贊美，這樣我們就會想辦法把事情做的更好。

從技術(shù)角度來說，RLHF需要不斷收集用戶反饋，比如好與壞，評分等；然后根據(jù)這些反饋訓(xùn)練一個獎勵模型，該模型用來評價模型等輸出質(zhì)量。

然后使用強化學(xué)習(xí)算法，如PPO優(yōu)化語言模型，使其輸出能夠最大化獎勵模型。

而從應(yīng)用的角度來說，RLHF主要應(yīng)用于對話，內(nèi)容生成等領(lǐng)域；比較典型的就是我們在使用一些第三方模型時，會彈出讓我們評價的按鈕，比如chatGPT。

大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？-AI.x社區(qū)

目前chatGPT的能力不斷加強，除了其技術(shù)架構(gòu)方面的原因之外，還有一部分是基于強化學(xué)習(xí)的方式來優(yōu)化其模型。

SFT與RLHF的異同點

說起SFT和RLHF的共同點，那它們的共同點很簡單，那就是通過不同的方式讓模型變得更好。

還有就是兩者都是基于數(shù)據(jù)驅(qū)動，或者說大模型都屬于數(shù)據(jù)驅(qū)動；SFT需要標(biāo)注的數(shù)據(jù)，而RLHF需要人類反饋的數(shù)據(jù)。

至于不同點，最明顯的特征有兩個，第一個就是兩者的實現(xiàn)原理不同，SFT使用的是監(jiān)督學(xué)習(xí)算法，而RLHF使用的是強化學(xué)習(xí)算法。小程序

其次，就是兩者的應(yīng)用場景不太相同；SFT適用那種有著明確任務(wù)目標(biāo)的任務(wù)，比如說分類；而RLHF適用于那種需要不斷升級優(yōu)化的系統(tǒng)，比如客服系統(tǒng)，問答系統(tǒng)等。

從兩者的應(yīng)用角度來說，選擇SFT方法的企業(yè)較多，使用RLHF的企業(yè)相對較少。

并不是說RLHF技術(shù)比SFT的差，而是目前的人工智能生態(tài)還無法大規(guī)模使用RLHF，一是因為應(yīng)用場景較少，二是技術(shù)要求和成本較高。

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/1agAmx8OZZt7peq5GERMQg???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于數(shù)據(jù)正則化自博弈強化學(xué)習(xí)的人類兼容型自動駕駛

AIGC最前線 ? 3277瀏覽 ? 0回復(fù)
ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學(xué)習(xí)

AIGC最前線 ? 3634瀏覽 ? 0回復(fù)
機器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、深度學(xué)習(xí)等等！

parson2000 ? 3560瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時代 ? 6081瀏覽 ? 0回復(fù)
我們要的到底是什么

ermulong ? 3082瀏覽 ? 0回復(fù)
機器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、深度學(xué)習(xí)等等

parson2000 ? 4012瀏覽 ? 0回復(fù)
你知道什么是微調(diào)嗎？大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時代 ? 6025瀏覽 ? 0回復(fù)
什么監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)？它們之間有什么區(qū)別和聯(lián)系？

AI探索時代 ? 8839瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？

AI探索時代 ? 6980瀏覽 ? 0回復(fù)
你真的了解預(yù)訓(xùn)練嗎？預(yù)訓(xùn)練與微調(diào)的區(qū)別是什么？

AI探索時代 ? 6102瀏覽 ? 0回復(fù)
從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

AI探索時代 ? 2769瀏覽 ? 0回復(fù)
為什么預(yù)訓(xùn)練大模型要使用無監(jiān)督學(xué)習(xí)的方式？

AI探索時代 ? 2365瀏覽 ? 0回復(fù)
基于多模態(tài)深度強化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 2482瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測試時訓(xùn)練的醫(yī)學(xué)推理增強型大語言模型

頓數(shù)AI ? 2589瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 3882瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與軟件工程：開源軟件獎勵演化的強化學(xué)習(xí)

AI研究前瞻 ? 1594瀏覽 ? 0回復(fù)
大模型 SFT 有監(jiān)督微調(diào)教程

AI悠閑區(qū) ? 1583瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 1707瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2006瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：大模型技術(shù)進階路線，有了基礎(chǔ)應(yīng)該怎么進階？

下一篇：從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

社區(qū)精華內(nèi)容

目錄

<blockquote id="omvaz"><i id="omvaz"><video id="omvaz"></video></i></blockquote>