自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌復(fù)用30年前經(jīng)典算法,CV引入強(qiáng)化學(xué)習(xí),網(wǎng)友:視覺RLHF要來了?

人工智能 新聞
模型預(yù)測和預(yù)期使用之間存在錯位,不利于 CV 模型的部署,來自谷歌等機(jī)構(gòu)的研究者用強(qiáng)化學(xué)習(xí)技術(shù)的獎勵函數(shù),從而改善了計算機(jī)視覺任務(wù)。

ChatGPT 的火爆有目共睹,而對于支撐其成功背后的技術(shù),監(jiān)督式的指令微調(diào)以及基于人類反饋的強(qiáng)化學(xué)習(xí)至關(guān)重要。這些技術(shù)也在逐漸擴(kuò)展到其他 AI 領(lǐng)域,包括計算機(jī)視覺(CV)。?

我們知道,在處理計算機(jī)視覺中的復(fù)雜輸出時,成功的主要標(biāo)準(zhǔn)不在于模型對訓(xùn)練目標(biāo)的優(yōu)化程度,而在于預(yù)測能力與任務(wù)的吻合程度,即模型在預(yù)期用途上的表現(xiàn)效果。

為了追求這種一致性,有研究者在模型架構(gòu)、數(shù)據(jù)、優(yōu)化、采樣、后處理等方面進(jìn)行了一些改進(jìn)。例如,在物體檢測任務(wù)中,研究人員使用了 NMS(non-maximum suppression )、基于集合的全局損失(set-based global loss)以及改變輸入數(shù)據(jù)來獲得在測試時具有改進(jìn)行為的模型。雖然這些方法帶來了顯著的收益,但它們往往只對特定任務(wù)有用,僅僅是間接地對任務(wù)風(fēng)險進(jìn)行了優(yōu)化。?

不僅 CV,包括自然語言處理(NLP)、強(qiáng)化學(xué)習(xí)(RL)等領(lǐng)域也在廣泛研究這一現(xiàn)象。在這些領(lǐng)域中,對于目標(biāo)不太明確的任務(wù),如翻譯或生成摘要,制定優(yōu)化目標(biāo)非常困難。在處理這類問題時,一種流行的方法是學(xué)習(xí)模仿例子的輸出,然后進(jìn)行強(qiáng)化學(xué)習(xí),使模型與獎勵函數(shù)保持一致。使用這種方法,NLP 領(lǐng)域產(chǎn)生了令人興奮的結(jié)果,該方法使用大型預(yù)訓(xùn)練語言模型和由人類反饋定義的獎勵來處理原本難以指定的任務(wù)。

此外,同樣的方法被廣泛用于圖像字幕任務(wù)中,其中 CIDEr(Vedantam 等人 2015 年提出)被用來作為獎勵。盡管如此,據(jù)了解,獎勵優(yōu)化以前還沒有在(非文本)計算機(jī)視覺任務(wù)中進(jìn)行過探索。

近日,谷歌大腦團(tuán)隊的研究者在論文《Tuning computer vision models with task rewards》中證明了,使用 REINFORCE 算法(Williams 于 1992 提出)來調(diào)整(Tuning)具有獎勵函數(shù)的預(yù)訓(xùn)練模型可以開箱即用地用于各種計算機(jī)視覺任務(wù)。

其實(shí)許多關(guān)于強(qiáng)化學(xué)習(xí)任務(wù)的研究都會提及 Williams 的 REINFORCE 算法,可見這個算法的重要性??梢哉f REINFORCE 算法是策略梯度乃至強(qiáng)化學(xué)習(xí)的典型代表。

論文地址:https://arxiv.org/pdf/2302.08242v1.pdf?

圖 1 展示了一些關(guān)鍵結(jié)果,主要包括目標(biāo)檢測、全景分割和圖像著色的獎勵優(yōu)化帶來的定量和定性改進(jìn)。該研究所提出的方法在處理各種 CV 任務(wù)上簡單而有效,證明了它的多功能性和適應(yīng)性。盡管本文主要采用評估指標(biāo)形式的獎勵,但這些初步結(jié)果顯示了該方法用來優(yōu)化計算機(jī)視覺模型也不失為一種有效途徑,這些模型具有更復(fù)雜和更難指定的獎勵,例如人的反饋或整體系統(tǒng)性能。

圖片

推特網(wǎng)友對這篇文章給了一個比較全面的總結(jié),即本文實(shí)現(xiàn)的功能是使用 RL 調(diào)整預(yù)訓(xùn)練視覺模型。研究的動因是受到 LLM 強(qiáng)化學(xué)習(xí)成功的啟發(fā);其效果是在目標(biāo)檢測、全景分割等方面性能大幅提升。并表示,這項研究可能是實(shí)現(xiàn)視覺 RLHF (Reinforcement Learning from Human Feedback)的有效途徑。

圖片

圖源:https://twitter.com/johnjnay/status/1627009121378598912

獎勵?

在不喪失泛化性的情況下,該研究將 CV 任務(wù)描述為學(xué)習(xí)一個函數(shù)的過程,該函數(shù)將輸入 x(即圖像)映射到輸出 y = [y_1, y_1,……, y_n](文本 token 序列、bounding box 序列等)。該研究旨在學(xué)習(xí)以 θ 為參數(shù)的條件分布 P (y|x, θ),使獎勵函數(shù) R 最大化。用抽象的公式來形容,就是本文要解決以下優(yōu)化問題。

圖片

問題有了,接下來就是怎么解決了,本文分兩步走:首先用最大似然估計對模型進(jìn)行預(yù)訓(xùn)練;然后使用 REINFORCE 算法對模型進(jìn)行 Tuning 。下面我們看看這兩步的具體過程:

最大似然預(yù)訓(xùn)練?

首先使用最大似然原理估計參數(shù) θ 并捕獲訓(xùn)練數(shù)據(jù)的分布。實(shí)現(xiàn)這一目標(biāo)可采用梯度下降算法,該算法通過最大化訓(xùn)練數(shù)據(jù)的 log-likelihood

圖片來實(shí)現(xiàn)。算法 1 和圖 2 描述了 MLE(最大似然估計)優(yōu)化步驟,這是訓(xùn)練模型最常用的方法。完成這一步將得到 MLE 模型。

圖片

REINFORC 算法將獎勵最大化 ?

為了更好的優(yōu)化 MLE 模型以適應(yīng)任務(wù)風(fēng)險,還需要最大化獎勵函數(shù)。對于給定輸入 x,該研究利用 REINFORCE 算法來估計對給定 x 期望獎勵的梯度,公式如下所述:

圖片

算法 2 提供了偽代碼,圖 3 說明了該過程:

圖片


圖片

實(shí)驗(yàn)結(jié)果

接下來我們看看本文提出的方法在視覺任務(wù)上的表現(xiàn)。

全景分割

如下表 1 所示,Tuning 過程顯著改善了 MLE 模型。視覺檢查(visual inspection)后的結(jié)果表明,Tuning 后的模型在避免不連貫預(yù)測方面更好,特別是對于小尺度物體,可參見圖 1。

圖片

目標(biāo)檢測

表 2 顯示,通過優(yōu)化,該研究將原始 MLE 模型的 mAP 分?jǐn)?shù)從 39.2% 大幅提高到 54.3%。在 Pix2seq 中,具有稍大的 1333×1333 分辨率和許多啟發(fā)式的相同大小的 ViT-B 模型達(dá)到了 47.1%。當(dāng)使用更大的 ViT-L 主干時,Pix2seq 報告的最佳目標(biāo)檢測結(jié)果為 50.0%。

圖片

上色?

圖 4 給出的定性結(jié)果清楚地表明,新模型始終能產(chǎn)生更豐富多彩的圖像。

圖片

圖像描述

圖片

表 3 結(jié)果表明,應(yīng)用所提出的方法可以改進(jìn) MLE 模型,這與先前文獻(xiàn)中的觀察結(jié)果一致,證明了該方法針對特定任務(wù)風(fēng)險進(jìn)行 tuning 的有效性。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-08-09 14:51:00

2024-07-22 08:22:00

2023-06-25 11:30:47

可視化

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2024-12-23 14:40:00

AI模型訓(xùn)練

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2024-08-06 14:07:40

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-04-18 10:01:41

2021-04-29 14:53:14

谷歌強(qiáng)化學(xué)習(xí)開發(fā)

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-02-27 13:57:43

ChatGPTAI繪畫

2022-12-21 17:27:30

強(qiáng)化學(xué)習(xí)AI

2024-10-12 17:14:12

2023-08-05 12:50:18

AI技術(shù)

2024-08-09 12:46:04

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號