自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="7y1k6"><i id="7y1k6"></i></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析

發(fā)布于 2024-12-12 11:02

瀏覽

0收藏

OpenAI年終大戲第二場推出了強(qiáng)化微調(diào)RFT (Reinforcement Fine-Tuning)，它可以讓你用幾十到幾千個(gè)的訓(xùn)練數(shù)據(jù)，為特定的復(fù)雜任務(wù)構(gòu)建專家模型，加強(qiáng)了模型如何處理類似問題的推理，微調(diào)后的o1-mini得分提高80%，反超o1正式版！

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)技術(shù)的一種實(shí)現(xiàn)方式：首先通過監(jiān)督式微調(diào)（Supervised Fine-Tuning）對模型進(jìn)行預(yù)熱，然后利用在線強(qiáng)化學(xué)習(xí)，特別是PPO算法，進(jìn)一步微調(diào)模型。這種方法能夠自動(dòng)采樣多種推理路徑，并從真實(shí)答案中自然派生出獎(jiǎng)勵(lì)信號。

SFT和ReFT在CoT替代方案存在時(shí)的比較

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)（RFT）的兩個(gè)主要階段：預(yù)熱階段和強(qiáng)化學(xué)習(xí)階段。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

預(yù)熱階段（Warm-up）：

在這個(gè)階段，模型使用包含“問題（question）”和“思維鏈（Chain-of-Thought，CoT）”元組的數(shù)據(jù)集進(jìn)行微調(diào)，通常持續(xù)1-2個(gè)epoch。
目的是使模型具備基本的問題解決能力，能夠生成適當(dāng)?shù)捻憫?yīng)。
CoT生成過程被分解為一系列預(yù)測下一個(gè)詞（token）的動(dòng)作，直到生成結(jié)束符（<eos>）。

強(qiáng)化學(xué)習(xí)階段（Reinforcement Learning）：

在這個(gè)階段，模型通過在線自我學(xué)習(xí)的方式提高性能，使用包含“問題（question）”和“答案（answer）”元組的數(shù)據(jù)集。
模型通過重復(fù)采樣響應(yīng)、評估響應(yīng)的答案正確性，并在線更新其參數(shù)。
使用PPO（Proximal Policy Optimization）算法進(jìn)行訓(xùn)練，其中價(jià)值模型（value model）V?是基于預(yù)熱階段后的政策模型πθ的最后隱藏狀態(tài)構(gòu)建的。
獎(jiǎng)勵(lì)函數(shù)在終端狀態(tài)時(shí)直接比較從狀態(tài)的CoT提取的答案和真實(shí)答案y，正確則返回1，否則返回0。對于數(shù)值型答案的數(shù)據(jù)集，還可以應(yīng)用部分獎(jiǎng)勵(lì)（partial reward）0.1。
總獎(jiǎng)勵(lì)是獎(jiǎng)勵(lì)函數(shù)得分和學(xué)習(xí)到的RL政策與初始政策之間的Kullback-Leibler（KL）散度的和。

GSM8K中的一個(gè)問題（x）、思維鏈（CoT）（e）和答案（y）的示例。SFT過程在訓(xùn)練數(shù)據(jù)上迭代多個(gè)周期。提出的ReFT從SFT預(yù)熱并在同一數(shù)據(jù)上執(zhí)行RL訓(xùn)練。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

實(shí)驗(yàn)表明，RFT在GSM8K、MathQA和SVAMP等數(shù)據(jù)集上的性能顯著優(yōu)于SFT，并且可以通過多數(shù)投票和重新排名等策略進(jìn)一步提升性能

ReFT和基線模型在所有數(shù)據(jù)集上微調(diào)后的價(jià)值準(zhǔn)確度

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

SFT和ReFT在GSM8K數(shù)據(jù)集中第1、3和5周期的P-CoT響應(yīng)對同一個(gè)問題的反應(yīng)。綠色框架內(nèi)的反應(yīng)是正確的，而紅色框架內(nèi)的反應(yīng)是錯(cuò)誤的。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

https://arxiv.org/pdf/2401.08967
Code: https://github.com/lqtrung1998/mwp_ReFT

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 2769瀏覽 ? 0回復(fù)
AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析

arnoldzhw ? 2822瀏覽 ? 0回復(fù)
OpenAI o1很強(qiáng)，也能被玩壞！

PaperAgent ? 2200瀏覽 ? 0回復(fù)
LLM微調(diào)技術(shù)調(diào)研

zhcs333 ? 2156瀏覽 ? 0回復(fù)
OpenAI 的 ?Sora 技術(shù)報(bào)告詳解

wsp_ping ? 2001瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個(gè)方面介紹大模型

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
掌握OpenAI Day 2的RFT技術(shù)，你需要搞懂這3個(gè)關(guān)鍵問題！

凝固的雨_1 ? 3952瀏覽 ? 0回復(fù)
微調(diào)已死，強(qiáng)化微調(diào)萬歲

51CTO技術(shù)棧 ? 1927瀏覽 ? 0回復(fù)
聊聊對強(qiáng)化微調(diào)（RFT）的理解及看法

NLP工作站 ? 2188瀏覽 ? 0回復(fù)
擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術(shù)棧 ? 2837瀏覽 ? 0回復(fù)
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 4923瀏覽 ? 0回復(fù)
ReFT：通過強(qiáng)化微調(diào)增強(qiáng)LLMs

Halo咯咯 ? 2184瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
DeepSeek被曝估值1500億達(dá)OpenAI一半？巴黎地鐵70歲老人都在聊！

duhorse ? 1902瀏覽 ? 0回復(fù)
大模型是一場新的搜索戰(zhàn)爭，OpenAI不會贏家通吃，一家最好被收購！

51CTO技術(shù)棧 ? 1820瀏覽 ? 0回復(fù)
視覺"頓悟時(shí)刻"被破解！MM-Eureka：大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)

angel ? 1424瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE

Baihai_IDP ? 1206瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 1506瀏覽 ? 0回復(fù)
OpenAI法庭自曝收購Chrome計(jì)劃，被谷歌律師回懟！

51CTO技術(shù)棧 ? 690瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？ 9天前發(fā)布
CPU推理僅29ms，微軟開源第一個(gè)原生 1 bit 大模型，內(nèi)存只需Qwen 1.5B的1/15 9天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Auto-RAG開源，復(fù)雜多跳問題就這么解決了！

下一篇：微軟開源PromptWizard，摔碎了提示工程師的飯碗

社區(qū)精華內(nèi)容

目錄

<sup id="81orq"></sup>

<p id="81orq"><li id="81orq"><b id="81orq"></b></li></p>

<sup id="81orq"><rt id="81orq"></rt></sup>

<blockquote id="81orq"><rt id="81orq"></rt></blockquote>