自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="q6cjl"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

ChatGPT核心方法可用于AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI

作者：量子位 2023-02-27 13:57:43

RLHF，全稱“Reinforcement Learning from Human Feedback”，是OpenAI和DeepMind于2017年合作開發(fā)的一種強化學習技術(shù)。

ChatGPT中有這樣一個核心訓練方法，名叫“人類反饋強化學習（RLHF）”。

它可以讓模型更安全、輸出結(jié)果更遵循人類意圖。

現(xiàn)在，來自谷歌Research和UC伯克利的研究人員發(fā)現(xiàn)，將該方法用在AI繪畫上，“治療”圖像跟輸入不完全匹配的情況，效果也奇好——

可以實現(xiàn)高達47%的改進。

△ 左為Stable Diffusion，右為改進后效果

這一刻，AIGC領(lǐng)域中兩類大火的模型，似乎找到了某種“共鳴”。

如何將RLHF用于AI繪畫？

RLHF，全稱“Reinforcement Learning from Human Feedback”，是OpenAI和DeepMind于2017年合作開發(fā)的一種強化學習技術(shù)。

正如其名，RLHF就是用人類對模型輸出結(jié)果的評價（即反饋）來直接優(yōu)化模型，在LLM中，它可以使得“模型價值觀”更符合人類價值觀。

而在AI圖像生成模型中，它可以讓生成圖像與文本提示得到充分對齊。

具體而言，首先，收集人類反饋數(shù)據(jù)。

在這里，研究人員一共生成了27000余個“文本圖像對”，然后讓一些人類來打分。

為了簡單起見，文本提示只包括以下四種類別，分別關(guān)乎數(shù)量、顏色、背景和混合選項；人類的反饋則只分“好”、“壞”與“不知道（skip）”。

其次，學習獎勵函數(shù)。

這一步，就是利用剛剛獲得的人類評價組成的數(shù)據(jù)集，訓練出獎勵函數(shù)，然后用該函數(shù)來預測人類對模型輸出的滿意度（公式紅色部分）。

這樣，模型就知道自己的結(jié)果究竟有幾分符合文本。

除了獎勵函數(shù)，作者還提出了一個輔助任務（公式藍色部分）。

也就是當圖像生成完成后，模型再給一堆文本，但其中只有一個是原始文本，讓獎勵模型“自己檢查”圖像是否跟該文本相匹配。

這種逆向操作可以讓效果得到“雙重保險”（可以輔助下圖中的step2進行理解）。

最后，就是微調(diào)了。

即通過獎勵加權(quán)最大似然估計（reward-weighted likelihood maximization）（下公式第一項），更新文本-圖像生成模型。

為了避免過擬合，作者對預訓練數(shù)據(jù)集上的NLL值（公式第二項）進行了最小化。這種做法類似于InstructionGPT (ChatGPT的“直系前輩”）。

效果提升47%，但清晰度下滑5%

如下一系列效果所示，相比原始的Stable Diffusion，用RLHF微調(diào)過后的模型可以：

（1）更正確地get文本里的“兩只”和“綠色”；

（2）不會忽略“大?！弊鳛楸尘暗囊螅?/p>

（3）想要紅老虎，能給出“更紅”的結(jié)果。

從具體數(shù)據(jù)來看，微調(diào)后的模型人類滿意度為50%，相比原來的模型（3%），得到了47%的提高。

不過，代價是失去了5%的圖像清晰度。

從下圖我們也能很清楚的看到，右邊的狼明顯比左邊的糊一些：

對此，作者表示，使用更大的人類評價數(shù)據(jù)集和更好的優(yōu)化 (RL) 方法，可以改善這種情況。

關(guān)于作者

本文一共9位作者。

一作為谷歌AI研究科學家Kimin Lee，韓國科學技術(shù)院博士，博士后研究在UC伯克利大學展開。

華人作者三位：

Liu Hao，UC伯克利在讀博士生，主要研究興趣為反饋神經(jīng)網(wǎng)絡。

Du Yuqing，同UC伯克利博士在讀，主要研究方向為無監(jiān)督強化學習方法。

Shixiang Shane Gu (顧世翔)，通訊作者，本科師從三巨頭之一Hinton，博士畢業(yè)于劍橋大學。

△ 顧世翔

值得一提的是，寫這篇文章時他還是谷歌人，如今已經(jīng)跳槽至OpenAI，并在那里直接向ChatGPT負責人報告。

論文地址：

https://arxiv.org/abs/2302.12192

參考鏈接：[1]??https://twitter.com/kimin_le2/status/1629158733736718336??

[2]?https://openai.com/blog/instruction-following/

責任編輯：武曉燕來源：量子位

ChatGPT AI 繪畫

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營