自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="cuu0z"></blockquote>

^{<blockquote id="cuu0z"></blockquote>}

<cite id="cuu0z"><rp id="cuu0z"><pre id="cuu0z"></pre></rp></cite>

<sub id="cuu0z"></sub>

<sub id="cuu0z"><p id="cuu0z"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

零成本突破多模態(tài)大模型瓶頸！多所美國頂尖高校華人團(tuán)隊(duì)，聯(lián)合推出自增強(qiáng)技術(shù)CSR

作者：新智元 2024-06-20 10:49:15

人工智能新聞

現(xiàn)有多模態(tài)大模型在對齊不同模態(tài)時(shí)面臨幻覺和細(xì)粒度感知不足等問題，傳統(tǒng)偏好學(xué)習(xí)方法依賴可能不適配的外源數(shù)據(jù)，存在成本和質(zhì)量問題。Calibrated Self-Rewarding（CSR）框架通過自我增強(qiáng)學(xué)習(xí)，利用模型自身輸出構(gòu)造更可靠的偏好數(shù)據(jù)，結(jié)合視覺約束提高學(xué)習(xí)效率和準(zhǔn)確性。

多模態(tài)大模型展現(xiàn)出了多種多樣的能力，這些能力都通過SFT和預(yù)訓(xùn)練從龐大的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)。

但是模態(tài)之間的簡單對齊可能會使得模型存在幻覺，細(xì)粒度圖像感知能力差等各種問題。

已有的多模態(tài)大模型對齊方案一般采用DPO，POVID等偏好優(yōu)化方法，或是蒸餾 GPT-4等昂貴閉源模型的方式來提升模型能力。

這些方法大多需要外源模型數(shù)據(jù)，這些數(shù)據(jù)構(gòu)造存在很多問題，一是需要昂貴的價(jià)格，二是缺乏質(zhì)量和多樣性的保證。

再者說，這真的適合需要提升模型本身的分布偏好嗎？

在Calibrated Self-Rewarding Vision Language Models文中，通過模型自身輸出概率證明了，外來模型構(gòu)造的偏好數(shù)據(jù)可能不適合用于模型的偏好學(xué)習(xí)，相較于模型自身的response，外源模型所構(gòu)造的數(shù)據(jù)模型自己說出的概率很小，簡單來說對于偏好數(shù)據(jù)中的負(fù)樣本模型并不會犯一樣的錯(cuò)誤，對于偏好數(shù)據(jù)中的正樣本模型也不會講出那么好的response。

這種偏好數(shù)據(jù)用于偏好學(xué)習(xí)可能會引入模型自身分布的偏差導(dǎo)致其他錯(cuò)誤，同時(shí)因?yàn)槟Ｐ妥陨碚f同樣話的概率低，用這樣的數(shù)據(jù)來偏好學(xué)習(xí)增強(qiáng)模型收益很小。

同時(shí)傳統(tǒng)純文本大模型領(lǐng)域的Self-rewarding范式存在一定缺陷。

在此前self rewarding提供reward的模型是模型自身，當(dāng)模型自身無法準(zhǔn)確分辨偏好、所具有的知識不夠強(qiáng)大的時(shí)候，它所提供的反饋可能不夠精準(zhǔn)或者沒用導(dǎo)致所更新的模型的分布無法向著目標(biāo)分布更新。

為了解決上述問題，來自UNC ,芝加哥大學(xué)，UMD和羅格斯大學(xué)的研究團(tuán)隊(duì)提出了Calibrated Self-Rewarding（CSR），多模態(tài)大模型的自我增強(qiáng)因?yàn)闀嬖谝粋€(gè)真實(shí)圖像的參照，這會使得self-rewarding的過程更加可靠。

論文地址: https://arxiv.org/pdf/2405.14622

項(xiàng)目地址：https://github.com/YiyangZhou/CSR

項(xiàng)目頁面：https://dongjie-cheng.github.io/CSR.html

整個(gè)Calibrated Self-Rewarding（CSR）框架如下：

1. 通過模型本身在beam search過程中的輸出構(gòu)造偏好數(shù)據(jù)對，過程中的獎勵來自于校準(zhǔn)的自我獎勵：LVLM對于每句話的自我生成概率 + 結(jié)合視覺約束獎勵，用于獎勵校準(zhǔn)。

2. 基于每一輪構(gòu)造的偏好數(shù)據(jù)在線通過DPO迭代學(xué)習(xí)。

實(shí)驗(yàn)

CSR相較于數(shù)據(jù)驅(qū)動的偏好學(xué)習(xí)對齊方法和模型自我反饋的方法均有較大提升。

更值得注意的是，在CSR多輪在線迭代過程中，模型能逐步提升自我能力！可以看到在多個(gè)輪次中以LLaVA-1.5為例，模型在多個(gè)benchmark上的均分逐步提升。

同時(shí)也可以看到特別是幻覺，在多輪迭代中是逐步減少的：

同時(shí)CSR也適用于其他模型，例如Vila：

那么在Calibrated Self-Rewarding（CSR）的過程中究竟發(fā)生了什么呢？通過可視化經(jīng)過CSR迭代前后模型自身的正樣本和負(fù)樣本輸出可以發(fā)現(xiàn)，經(jīng)過多輪CSR學(xué)習(xí)后，模型自身說出的回復(fù)會有更高的分?jǐn)?shù)：這代表模型的response更加符合圖像信息；同時(shí)負(fù)樣本和正樣本的gap更?。哼@說明模型所輸出的負(fù)樣本傾向于正樣本，模型的誤差和性能下界提升。

通過可視化attention可以看到，CSR能使得LVLM更加偏重于視覺模型，同時(shí)能緩解文本attention中存在的上下文依賴問題。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="lcbgc"></sub>

<sup id="lcbgc"></sup>