自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

使用人工智能幻覺評估圖像真實感? 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2025-4-9 08:18

瀏覽

0收藏

本文提出了一種使用人工智能幻覺來評估圖像真實感的新方法，對此方法的實現(xiàn)原理進行詳細闡述，并給出詳細的實驗結果證明。

引言

最近，俄羅斯的一項新研究提出了通過一種非常規(guī)方法來檢測不切實際的人工智能生成的圖像。這種方法的主要思想是：不是通過提高大型視覺語言模型（LVLM）的準確性，而是通過有意利用它們??產(chǎn)生幻覺的傾向??。?

這種新方法使用LVLM提取有關圖像的多個“原子事實”，然后應用??自然語言推理??（NLI）系統(tǒng)地衡量這些陳述之間的矛盾，從而有效地將模型的缺陷轉(zhuǎn)化為檢測違背常識的圖像的診斷工具。?

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

WHOOPS!數(shù)據(jù)集中的兩幅圖像以及LVLM模型自動生成的語句（左側(cè)圖像非常逼真，因此可以產(chǎn)生一致的描述，而右側(cè)圖像則不同尋常，導致模型產(chǎn)生幻覺，產(chǎn)生矛盾或錯誤的語句。圖片來源：https://arxiv.org/pdf/2503.15948）

當被要求評估第二幅圖像的真實度時，LVLM發(fā)現(xiàn)有些不對勁，因為所描繪的駱駝有三個駝峰，這在??自然界中是未知的??。

然而，LVLM最初將大于2個駝峰與大于2只動物混為一談，因為這是你在一張“駱駝圖片”中看到三個駝峰的唯一方式。然后，它繼續(xù)產(chǎn)生幻覺，產(chǎn)生比三個駝峰更不可能的東西（即“兩個頭”），并且從未詳細描述似乎引發(fā)其懷疑的內(nèi)容——不太可能的額外駝峰。

這項新研究的研究人員發(fā)現(xiàn)，LVLM模型可以原生地執(zhí)行此類評估，并且與針對此類任務進行??微調(diào)???的模型相當（甚至更好）。由于微調(diào)復雜、昂貴且在下游適用性方面相當脆弱；因此，他們發(fā)現(xiàn)當前AI革命中??最大的障礙??之一的原生用途是對文獻中總體趨勢的一次令人耳目一新的轉(zhuǎn)變。?

開放式評估

作者斷言，上述方法的重要性在于它可以與開源框架一起部署。雖然像ChatGPT這樣的先進且高投資的模型（該論文承認）可能在這項任務中提供更好的結果，但對于我們大多數(shù)人（尤其是業(yè)余愛好者和VFX社區(qū)）來說，該文獻的真正價值在于有可能在本地實現(xiàn)中融入和開發(fā)新的突破；相反，所有注定要用于專有商業(yè)API系統(tǒng)的產(chǎn)品都可能被撤回、任意漲價和經(jīng)受審查——這些審查政策更有可能反映公司的企業(yè)關切，而不是用戶的需求和責任。

??這篇新論文???的標題為《不要對抗幻覺，而要利用它們：使用NLI而非原子事實估計圖像真實性》，該文由來自斯科爾科沃科學技術學院（Skoltech）、莫斯科物理技術學院以及俄羅斯公司MTSAI和AIRI的五名研究人員共同撰寫。該論文還提供了一個相應的??GitHub頁面??。?

研究方法

論文作者們使用以色列/美國??WHOOPS！數(shù)據(jù)集??研究這個項目：?

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

WHOOPS！數(shù)據(jù)集中不可能出現(xiàn)的圖像示例。值得注意的是，這些圖像如何組合合理的元素，并且它們的不可能性必須基于這些不兼容方面的串聯(lián)來計算。來源：https://whoops-benchmark.github.io/。

該數(shù)據(jù)集包含500張合成圖像和超過10,874條注釋，專門用于測試AI模型的常識推理和構圖理解。它是與設計師合作創(chuàng)建的，這些設計師的任務是通過文本到圖像系統(tǒng)（例如Midjourney和DALL-E系列）生成具有挑戰(zhàn)性的圖像——產(chǎn)生難以或不可能自然捕捉的場景：

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

WHOOPS!數(shù)據(jù)集中的更多示例。來源：https://huggingface.co/datasets/nlphuji/whoops

他們提出的新方法可劃分為三個階段：首先，LVLM（具體來說是??LLaVA-v1.6-mistral-7b???）被提示生成多個描述圖像的簡單語句（稱為“原子事實”）。這些語句是使用??多樣化集束搜索??生成的，確保輸出的可變性。?

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

多樣化集束搜索通過優(yōu)化多樣性增強目標，提供了更多種類的字幕選項（來源：https://arxiv.org/pdf/1610.02424）。

接下來，他們使用自然語言推理模型系統(tǒng)地將每個生成的語句與每個其他語句進行比較，該模型分配的分數(shù)反映了語句對是否相互包含、矛盾或中立。

矛盾的話，表明圖像中存在幻覺或不切實際的元素：

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

實驗中使用的檢測管道的架構

最后，他們將這些成對的NLI分數(shù)聚合為單個“現(xiàn)實分數(shù)”，以量化生成的語句的整體一致性。

研究人員探索了不同的聚合方法，發(fā)現(xiàn)基于聚類的方法效果最佳。他們應用k-means聚類算法將單個NLI分數(shù)分成兩個聚類，然后選擇值較低的聚類的質(zhì)心作為最終指標。

使用兩個聚類直接符合分類任務的二元性質(zhì)，即區(qū)分真實圖像和非真實圖像。其邏輯類似于簡單地選擇總體最低分；然而，聚類允許指標表示多個事實的平均矛盾，而不是依賴于單個異常值。

數(shù)據(jù)和測試

研究人員使用旋轉(zhuǎn)??測試分割???（即??交叉驗證???）在WHOOPS!基線基準上測試了他們的系統(tǒng)。測試的模型是分割的??BLIP2 FlanT5-XL???和??BLIP2 FlanT5-XXL??，以及零樣本格式的BLIP2 FlanT5-XXL（即無需額外訓練）。?

對于遵循指令的基線，作者用短語“Is this unusual? Please explain briefly with a short sentence（這不尋常嗎？請用一個簡短的句子簡要解釋一下）”提示LVLM，??先前的研究??發(fā)現(xiàn)這對發(fā)現(xiàn)不切實際的圖像很有效。?

評估的模型是??LLaVA 1.6 Mistral 7B???、??LLaVA 1.6 Vicuna 13B???和兩種大小（7/130億個參數(shù)）的??InstructBLIP??。?

測試過程圍繞102對真實和非真實（“怪異”）圖像展開。每對圖像由一張正常圖像和一張違背常理的圖像組成。

三位人類注釋者對圖像進行了標注，達成了92%的共識，表明人類對“怪異”的定義具有高度的認同感。評估方法的準確性是通過正確區(qū)分現(xiàn)實和非現(xiàn)實圖像的能力來衡量的。

該系統(tǒng)使用三重交叉驗證進行評估，使用固定種子隨機打亂數(shù)據(jù)。作者在訓練期間調(diào)整了蘊涵分數(shù)（邏輯上一致的陳述）和矛盾分數(shù)（邏輯上沖突的陳述）的權重，而“中性”分數(shù)固定為零。最終準確率計算為所有測試分割的平均值。

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

對五個生成事實的子集進行不同NLI模型和聚合方法的比較，以準確性作為衡量標準。

對于上面顯示的初步結果，論文指出：

“clust方法脫穎而出，成為表現(xiàn)最佳的方法之一。這意味著，匯總所有矛盾分數(shù)至關重要，而不是只關注極端值。此外，最大的NLI模型（nli-deberta-v3-large）在所有聚合方法中的表現(xiàn)優(yōu)于所有其他模型，這表明它更有效地抓住了問題的本質(zhì)。”

作者發(fā)現(xiàn)，最優(yōu)權重始終傾向于矛盾而非蘊涵，這表明矛盾對于區(qū)分不切實際的圖像更具參考價值。他們的方法優(yōu)于測試的所有其他零樣本方法，接近經(jīng)過微調(diào)的BLIP2模型的性能：

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

各種方法在WHOOPS!基準上的表現(xiàn)。微調(diào)（ft）方法顯示在頂部，而零樣本（zs）方法列在下面。其中，模型大小表示參數(shù)數(shù)量，準確率用作評估指標。

他們還指出，在同樣的提示下，InstructBLIP的表現(xiàn)優(yōu)于同類LLaVA模型，這多少有點出乎意料。在承認GPT-4o的卓越準確性的同時，該論文強調(diào)了作者傾向于展示實用的開源解決方案，而且似乎可以合理地宣稱在明確利用幻覺作為診斷工具方面具有新穎性。

結論

作者承認他們的項目得益于2024年??FaithScore??活動，這是德克薩斯大學達拉斯分校和約翰霍普金斯大學合作舉辦的活動。?

使用人工智能幻覺評估圖像真實感?-AI.x社區(qū)

FaithScore評估的工作原理說明。首先，識別LVLM生成的答案中的描述性陳述。接下來，將這些陳述分解為單個原子事實。最后，將原子事實與輸入圖像進行比較以驗證其準確性。其中，帶下劃線的文本突出顯示客觀描述內(nèi)容，而藍色文本表示幻覺陳述，從而使FaithScore能夠提供可解釋的事實正確性衡量標準。來源：https://arxiv.org/pdf/2311.01477。

FaithScore通過驗證與圖像內(nèi)容的一致性來衡量LVLM生成的描述的忠實度，而新論文中抽出的方法明確利用了LVLM幻覺，通過使用自然語言推理生成的事實中的矛盾來檢測不切實際的圖像。

新成果自然取決于當前語言模型的怪異之處，以及它們產(chǎn)生幻覺的傾向。如果模型開發(fā)最終產(chǎn)生一個完全不產(chǎn)生幻覺的模型，那么新成果的一般原理也將不再適用。然而，這仍然是一個充滿挑戰(zhàn)的前景。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Using AI Hallucinations to Evaluate Image Realism??，作者：Martin Anderson

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

已于2025-4-9 08:23:03修改

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

守護生成式人工智能之門，規(guī)避人工智能進化中的安全挑戰(zhàn)

51CTO內(nèi)容精選 ? 2681瀏覽 ? 0回復
利用人工智能對文本內(nèi)容進行自動摘要

51CTO內(nèi)容精選 ? 2759瀏覽 ? 0回復
合成數(shù)據(jù)：解鎖通用人工智能的“關鍵之鑰”？

Baihai_IDP ? 2116瀏覽 ? 0回復
超越靜態(tài)管道：使用LlamaIndex增強人工智能代理

51CTO內(nèi)容精選 ? 2361瀏覽 ? 0回復
使用人工智能增強 IaC以提高下一代基礎設施的效率

51CTO內(nèi)容精選 ? 1880瀏覽 ? 0回復
使用LangChain，上手開發(fā)我們第一個人工智能APP

ermulong ? 2279瀏覽 ? 0回復
采用RAG和知識圖譜克服人工智能幻覺問題

51CTO內(nèi)容精選 ? 2382瀏覽 ? 0回復
開發(fā)人員是否應該使用人工智能代碼審查工具？

51CTO內(nèi)容精選 ? 1888瀏覽 ? 0回復
用人工智能創(chuàng)造更美好的明天，20000美元現(xiàn)金等你來挑戰(zhàn)

AI.x社區(qū)活動小助手 ? 1707瀏覽 ? 0回復
免費使用！Claude 3.5 引領人工智能新時代的強大模型

丟翅膀的魚 ? 2313瀏覽 ? 0回復
AI賦能教育：人工智能在教育中的八大應用實例

風云2002_1 ? 9902瀏覽 ? 0回復
推進醫(yī)療人工智能：評估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 2196瀏覽 ? 0回復
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結與2025年展望

十一月雨_55 ? 8315瀏覽 ? 0回復
大語言模型邁向通用人工智能（AGI）征程全面綜述：四大核心要素必不可少！

十一月雨_55 ? 3206瀏覽 ? 0回復
字節(jié)等發(fā)布黑科技X-Dancer：零樣本音樂驅(qū)動，真實感碾壓3D方案

angel ? 1680瀏覽 ? 0回復
從大模型到智能體AI，邁向通用人工智能的新征程

十一月雨_55 ? 1355瀏覽 ? 0回復
60張圖深度剖析LLM Agents，逼近通用人工智能

CourseAI ? 1405瀏覽 ? 0回復
如何利用人工智能和事件驅(qū)動設計實現(xiàn)播客推廣的自動化

51CTO內(nèi)容精選 ? 732瀏覽 ? 0回復
內(nèi)部評估作用有限：通用人工智能需要第三方缺陷披露機制

上堵吟1 ? 832瀏覽 ? 0回復

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

OpenUI：從構思到UI僅需數(shù)秒 10h前發(fā)布
MCP安全噩夢終結者：Agent框架如何重構AI防護新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構建LangChain代理客戶端 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：大語言模型（LLM）是如何思考的？講講推動下一代人工智能推理的五種途徑

下一篇：三大AI超能力：分類式AI、預測式AI和生成式AI

社區(qū)精華內(nèi)容

目錄

^{<thead id="dg8dr"></thead>}

<cite id="dg8dr"><rp id="dg8dr"><form id="dg8dr"></form></rp></cite>

<sub id="dg8dr"></sub>