自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<i id="wixgg"></i>}

<sup id="wixgg"></sup><cite id="wixgg"><track id="wixgg"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AAAI2025 | ICLR 2025爆款！CHiP創(chuàng)新引入視覺偏好，幻覺率腰斬

作者：萍哥學(xué)AI 2025-04-28 12:28:27

CHiP 提出了一種跨模態(tài)分層偏好優(yōu)化方法，通過視覺與文本偏好雙重引導(dǎo)，顯著提升多模態(tài)大模型（MLLMs）在幻覺檢測任務(wù)中的表現(xiàn)，最高減少55.5%的幻覺率。

1. 一眼概覽

CHiP 提出了一種跨模態(tài)分層偏好優(yōu)化方法，通過視覺與文本偏好雙重引導(dǎo)，顯著提升多模態(tài)大模型（MLLMs）在幻覺檢測任務(wù)中的表現(xiàn)，最高減少55.5%的幻覺率。

2. 核心問題

多模態(tài)大模型（如GPT-4V、LLaVA）雖具強大能力，但常產(chǎn)生“幻覺”——即圖文語義不一致、生成不符合圖像內(nèi)容的描述。現(xiàn)有DPO方法僅基于文本偏好，難以有效對齊圖像和文本的表示，也無法細(xì)粒度定位幻覺段落，限制了模型可信度與實用性。

3. 技術(shù)亮點

雙模態(tài)偏好對齊：引入視覺偏好優(yōu)化模塊，使模型可從圖像對比中學(xué)習(xí)更準(zhǔn)確的語義表達(dá)；
多粒度文本偏好優(yōu)化：創(chuàng)新性地在響應(yīng)、段落和token級別進(jìn)行分層優(yōu)化，更精細(xì)捕捉幻覺信息；
大幅降低幻覺率：在ObjHal數(shù)據(jù)集上，相比DPO，CHiP在Muffin和LLaVA模型上分別減少了52.7%和55.5%的幻覺率。

4. 方法框架

CHiP 包含兩個核心模塊：

? 視覺偏好優(yōu)化模塊：構(gòu)造視覺偏好圖像對（如原圖 vs. 旋轉(zhuǎn)圖），引導(dǎo)模型識別哪幅圖更能生成優(yōu)質(zhì)響應(yīng)，實現(xiàn)跨模態(tài)語義對齊；

? 分層文本偏好優(yōu)化模塊：

a.響應(yīng)級：優(yōu)化整個回答的偏好選擇；

b.段落級：關(guān)注實體詞和修改段的貢獻(xiàn)；

c.Token級：每個詞級別計算KL散度，引導(dǎo)模型逐詞去幻覺。

5. 實驗結(jié)果速覽

CHiP 在多項權(quán)威幻覺評測基準(zhǔn)上展現(xiàn)了顯著優(yōu)勢，尤其在與主流基線方法 DPO 進(jìn)行對比時表現(xiàn)尤為突出。在 Object HalBench 數(shù)據(jù)集上，CHiP 將基于 LLaVA 模型的響應(yīng)級幻覺率從原先的 42.7% 降低至 14.1%，提降幅度達(dá)到 55.5%；同時，基于 Muffin 模型的幻覺率也從 43.8% 降至 11%，顯示出強大的跨模型泛化能力。

在 MMHal-Bench 上，CHiP 顯著減少了由 GPT-4 評估判定的幻覺內(nèi)容，幻覺率從原先的 38.9% 降至僅 4.9%，大幅提升了多模態(tài)問答的可信度。

6. 實用價值與應(yīng)用

CHiP 作為統(tǒng)一的跨模態(tài)對齊方案，顯著增強了多模態(tài)大模型在以下場景的可信度與應(yīng)用能力：

? AI助手問答/多模態(tài)搜索：降低錯誤描述風(fēng)險；

? 醫(yī)療/安防等高可信場景：避免幻覺導(dǎo)致誤判；

? 對齊評估基準(zhǔn)建設(shè)：提供細(xì)粒度對齊訓(xùn)練方法，利于多模態(tài)訓(xùn)練范式優(yōu)化。

7. 開放問題

? 若視覺偏好圖像之間差異極?。ㄈ缥⑿⌒D(zhuǎn)），CHiP是否仍能有效學(xué)習(xí)？

? 分層文本偏好機制是否可遷移至音頻、多輪對話等其他模態(tài)任務(wù)？

? CHiP能否與RLHF等強化學(xué)習(xí)范式結(jié)合，進(jìn)一步提升對齊能力？

責(zé)任編輯：武曉燕來源：萍哥學(xué)AI

CHiP 視覺幻覺率

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="ecia0"><p id="ecia0"><li id="ecia0"></li></p></blockquote>

<xmp id="ecia0"><cite id="ecia0"><rp id="ecia0"></rp></cite></xmp>