自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專抓AI“看圖說謊”,谷歌哥大用三類陷阱觸發(fā)幻覺,打造可隨技術(shù)發(fā)展動(dòng)態(tài)演進(jìn)的評(píng)估框架

人工智能 新聞
來自哥倫比亞大學(xué)和Google DeepMind的研究團(tuán)隊(duì)提出了一種創(chuàng)新的視覺問答數(shù)據(jù)集構(gòu)建方案。

幻覺(Hallucination),即生成事實(shí)錯(cuò)誤或不一致的信息,已成為視覺-語言模型 (VLMs)可靠性面臨的核心挑戰(zhàn)。隨著VLMs在自動(dòng)駕駛、醫(yī)療診斷等關(guān)鍵領(lǐng)域的廣泛應(yīng)用,幻覺問題因其潛在的重大后果而備受關(guān)注。

然而,當(dāng)前針對(duì)幻覺問題的研究面臨多重制約:圖像數(shù)據(jù)集的有限性、缺乏針對(duì)多樣化幻覺觸發(fā)因素的綜合評(píng)估體系,以及在復(fù)雜視覺問答任務(wù)中進(jìn)行開放式評(píng)估的固有困難。

為突破這些限制,來自哥倫比亞大學(xué)和Google DeepMind的研究團(tuán)隊(duì)提出了一種創(chuàng)新的視覺問答數(shù)據(jù)集構(gòu)建方案。

圖片

該方案通過整合真實(shí)圖像與合成生成圖像,利用基于提示的圖像生成技術(shù),克服了傳統(tǒng)數(shù)據(jù)集(如MS-COCO和Flickr)在圖像多樣性和特殊性方面的局限。這一名為HaloQuest的數(shù)據(jù)集采用”機(jī)器-人工”協(xié)同的數(shù)據(jù)生成流程,重點(diǎn)收集了三類針對(duì)當(dāng)前VLM模型固有弱點(diǎn)的挑戰(zhàn)性樣本,旨在系統(tǒng)性地觸發(fā)典型幻覺場景:

a. 基于錯(cuò)誤前提的誘導(dǎo)性問題;b. 缺乏充分上下文支持的模糊性問題;c. 其他具有高度復(fù)雜性的疑難問題;

此外,HaloQuest創(chuàng)新性地引入了基于大語言模型(LLM)的自動(dòng)評(píng)估系統(tǒng)(AutoEval),實(shí)現(xiàn)了開放式、動(dòng)態(tài)化的評(píng)估機(jī)制,并探索了合成圖像在VLM評(píng)估中的革命性應(yīng)用價(jià)值。傳統(tǒng)評(píng)估方法通常局限于多項(xiàng)選擇題或有限詞匯的封閉式回答,這種評(píng)估方式不僅限制了模型展現(xiàn)復(fù)雜推理和細(xì)微表達(dá)能力,也難以準(zhǔn)確評(píng)估模型在現(xiàn)實(shí)場景中的實(shí)際表現(xiàn)。

特別是在處理生成式幻覺預(yù)測時(shí),現(xiàn)有方法無法全面衡量模型生成連貫性、細(xì)節(jié)豐富度及上下文一致性等方面的能力。HaloQuest提出的AutoEval系統(tǒng)通過支持對(duì)模型響應(yīng)的細(xì)粒度、開放式評(píng)估,建立了一個(gè)可隨技術(shù)發(fā)展動(dòng)態(tài)演進(jìn)的評(píng)估框架,為VLMs的可靠性評(píng)估提供了新的范式。

HaloQuest 介紹

圖2展示了HaloQuest數(shù)據(jù)集的構(gòu)建流程,該流程通過整合真實(shí)圖像與合成圖像,確保了數(shù)據(jù)集的豐富性和多樣性。真實(shí)圖像選自O(shè)pen Images數(shù)據(jù)集的隨機(jī)樣本,而合成圖像則來源于Midjourney和Stable Diffusion在線畫廊。為確保圖像質(zhì)量,篩選過程優(yōu)先考慮高瀏覽量和正面評(píng)價(jià)的圖像,并結(jié)合精心設(shè)計(jì)的主題詞列表進(jìn)行搜索查詢。

圖片

在人類標(biāo)注階段,圖像需滿足兩個(gè)標(biāo)準(zhǔn):既需具備趣味性或獨(dú)特性,又需易于理解。例如,展示罕見場景、包含非常規(guī)物體組合(如圖2所示的“穿著報(bào)紙的狗”),或具有視覺沖擊力的圖像被視為“有趣”。同時(shí),這些圖像即使違背現(xiàn)實(shí)物理規(guī)律,也需保持視覺連貫性和清晰度,確保人類能夠理解其內(nèi)容。

這一兩重標(biāo)準(zhǔn)的設(shè)計(jì),旨在平衡生成具有挑戰(zhàn)性的場景與確保模型響應(yīng)的可解釋性,從而能夠準(zhǔn)確歸因于模型在推理或理解上的特定缺陷。

圖像篩選完成后,人類標(biāo)注者與大語言模型協(xié)作,圍繞圖像設(shè)計(jì)問題和答案,重點(diǎn)關(guān)注創(chuàng)造性、細(xì)微推理能力以及模型潛在偏見的檢測。HaloQuest包含三類旨在誘發(fā)幻覺的問題:

a. 錯(cuò)誤前提問題(False Premise Questions):這些問題包含與圖像內(nèi)容直接矛盾的陳述或假設(shè),用于測試模型是否能夠優(yōu)先考慮視覺證據(jù)而非誤導(dǎo)性語言線索。b. 視覺挑戰(zhàn)性問題(Visually Challenging Questions):這些問題要求模型深入理解圖像細(xì)節(jié),例如物體計(jì)數(shù)、空間關(guān)系判斷或被遮擋區(qū)域的推理,用于評(píng)估模型的復(fù)雜視覺分析能力。c. 信息不足問題(Insufficient Context Questions):這些問題無法僅憑圖像內(nèi)容得出明確答案,旨在探測模型是否會(huì)依賴固有偏見或無根據(jù)的推測,而非承認(rèn)信息的局限性。

在問題創(chuàng)建過程中,人類標(biāo)注者為每張圖像設(shè)計(jì)兩個(gè)問題及其答案。首先,他們需提出一個(gè)關(guān)于圖像中某個(gè)視覺元素的問題,但該問題無法僅通過圖像內(nèi)容回答。其次,標(biāo)注者需提出一個(gè)關(guān)于圖像中微妙細(xì)節(jié)的問題,該問題需有明確且客觀的答案,避免主觀偏見的干擾。

為提高效率,HaloQuest還利用LLMs(如IdealGPT框架,結(jié)合GPT-4和BLIP2)自動(dòng)生成圖像描述。這些描述被拆分為多個(gè)原子陳述(例如:“這是一只金毛獵犬的特寫”,“狗的背上披著報(bào)紙”)。人類標(biāo)注者評(píng)估每個(gè)陳述的真實(shí)性(是/否),隨后LLMs基于這些評(píng)估結(jié)果生成對(duì)應(yīng)的問答對(duì)。

為進(jìn)一步提升數(shù)據(jù)質(zhì)量,HaloQuest采用篩選機(jī)制:首先,高性能VQA模型對(duì)初始問題池進(jìn)行預(yù)回答;隨后,經(jīng)驗(yàn)豐富的人類標(biāo)注者審查問題及模型回答,確保問題的挑戰(zhàn)性和答案的清晰性。過于簡單的問題會(huì)被修改或丟棄,模棱兩可的答案會(huì)被標(biāo)記,以確保每個(gè)問題都具有足夠的難度和明確的解答。

通過這一嚴(yán)謹(jǐn)?shù)牧鞒?,HaloQuest構(gòu)建了一個(gè)高質(zhì)量、高挑戰(zhàn)性的數(shù)據(jù)集,為VLM的評(píng)估提供了更可靠的基準(zhǔn)。下圖展示了HaloQuest的部分?jǐn)?shù)據(jù)樣本,并與其他數(shù)據(jù)集進(jìn)行了對(duì)比,凸顯了其在多樣性和復(fù)雜性方面的優(yōu)勢(shì)。

圖片圖片

自動(dòng)評(píng)估

為了大規(guī)模支持自由格式和開放式視覺-語言模型(VLM)幻覺評(píng)估,HaloQuest 開發(fā)了一種基于大語言模型(LLM)的自動(dòng)評(píng)估方法。盡管原則上任何LLM只需基礎(chǔ)提示即可執(zhí)行此類評(píng)估,但HaloQuest提出了一種更為高效和精準(zhǔn)的評(píng)估框架。

具體而言,HaloQuest引入了Langfun結(jié)構(gòu),該方法通過結(jié)構(gòu)化提示設(shè)計(jì),幫助Gemini模型準(zhǔn)確提取模型響應(yīng)與參考答案的核心內(nèi)容,并判斷二者之間的一致性。圖7展示了用于實(shí)現(xiàn)自動(dòng)評(píng)估的Gemini提示詞及其結(jié)構(gòu),而圖8則提供了Auto-Eval評(píng)估的具體示例。

圖片圖片

如圖所示,Gemini模型需要根據(jù)輸入的問題、模型回答和參考答案,填充PredictionEvaluation類的相關(guān)屬性。通過Langfun結(jié)構(gòu),HaloQuest不僅解決了VLM幻覺評(píng)估中的技術(shù)挑戰(zhàn),還為未來更廣泛的AI模型評(píng)估提供了創(chuàng)新思路和實(shí)踐經(jīng)驗(yàn)。

實(shí)驗(yàn)與分析

研究發(fā)現(xiàn),現(xiàn)有視覺-語言模型(VLMs)在 HaloQuest數(shù)據(jù)集上的表現(xiàn)不盡如人意,幻覺率較高。這一結(jié)果揭示了模型在理解和推理能力上的顯著不足,同時(shí)也凸顯了開發(fā)更穩(wěn)健的幻覺緩解方法的迫切需求。

圖片圖片圖片圖片關(guān)鍵發(fā)現(xiàn):

a. 模型規(guī)模與幻覺率的關(guān)系

研究發(fā)現(xiàn),更大的模型規(guī)模并不一定能夠降低幻覺率。出乎意料的是,較小的 BEiT-3 模型在多個(gè)任務(wù)上表現(xiàn)優(yōu)于更大的模型。這一發(fā)現(xiàn)表明,單純依賴模型擴(kuò)展并不能有效解決幻覺問題,數(shù)據(jù)驅(qū)動(dòng)的幻覺緩解策略可能更具潛力。

b. Auto-Eval 的可靠性

Auto-Eval 與人工評(píng)估結(jié)果具有較高的相關(guān)性。這一結(jié)果表明,在人工評(píng)估不可行或成本過高的情況下,Auto-Eval可以作為一種可靠的替代方案,為大規(guī)模模型評(píng)估提供支持。

c. 微調(diào)的有效性

在 HaloQuest 上進(jìn)行微調(diào)顯著降低了VLMs的幻覺率,同時(shí)并未影響模型在其他基準(zhǔn)測試上的表現(xiàn)。這證明了HaloQuest在提升模型安全性方面的潛力,且不會(huì)削弱其整體有效性。

d. 跨數(shù)據(jù)集的泛化能力

表6展示了各模型在POPE幻覺基準(zhǔn)測試上的表現(xiàn)。結(jié)果顯示,經(jīng)過HaloQuest訓(xùn)練的模型在新數(shù)據(jù)集上的表現(xiàn)也有所提升,進(jìn)一步驗(yàn)證了HaloQuest能夠幫助模型在新環(huán)境中避免幻覺。

合成圖像與真實(shí)圖像的對(duì)比

研究還按照真實(shí)圖像和合成圖像分別評(píng)估了模型的表現(xiàn)。盡管大多數(shù)模型在真實(shí)圖像上的幻覺率更高,但合成圖像上的幻覺率仍然顯著。值得注意的是,合成圖像在數(shù)據(jù)集構(gòu)建中具有獨(dú)特優(yōu)勢(shì)

  • 低成本與可擴(kuò)展性:合成圖像提供了一種經(jīng)濟(jì)高效的解決方案,有助于快速擴(kuò)展數(shù)據(jù)集規(guī)模。
  • 降低幻覺率:實(shí)驗(yàn)結(jié)果表明,訓(xùn)練數(shù)據(jù)加入合成圖像有助于降低模型的幻覺率(見表5和表7)。
  • 技術(shù)進(jìn)步的潛力:盡管目前合成圖像的難度略低于真實(shí)圖像,但隨著圖像生成技術(shù)的進(jìn)步,這一差距有望縮小。
  • 實(shí)際應(yīng)用的重要性:隨著圖像生成技術(shù)的廣泛應(yīng)用,確保模型在合成圖像上具備抗幻覺能力將變得愈發(fā)重要。

圖片

幻覺成因與模型表現(xiàn)

研究進(jìn)一步分析了模型在 HaloQuest 三類問題上的表現(xiàn):

  • 錯(cuò)誤前提問題(False Premise Questions):開源模型在處理此類問題時(shí)表現(xiàn)較差,但GPT-4展現(xiàn)出一定優(yōu)勢(shì)。
  • 信息不足問題(Insufficient Context Questions):模型普遍表現(xiàn)不佳,表明其在處理模糊信息時(shí)容易依賴偏見或無根據(jù)的推測。
  • 視覺挑戰(zhàn)性問題(Visually Challenging Questions):模型表現(xiàn)略有提升,但GPT-4在此類任務(wù)上的表現(xiàn)不如其他模型。

圖片

這些發(fā)現(xiàn)為未來研究提供了新的方向,包括:

  • 數(shù)據(jù)集優(yōu)化:通過改進(jìn)數(shù)據(jù)集構(gòu)建方法,進(jìn)一步提升模型的抗幻覺能力。
  • 受控圖像生成:利用更先進(jìn)的圖像生成技術(shù),創(chuàng)建更具挑戰(zhàn)性的合成圖像。
  • 標(biāo)注偏差緩解:減少數(shù)據(jù)標(biāo)注過程中的偏差,提高數(shù)據(jù)集的多樣性和公平性。
  • 針對(duì)性優(yōu)化:針對(duì)不同模型的特定弱點(diǎn),開發(fā)定制化的幻覺緩解策略。

結(jié)論

HaloQuest是一個(gè)創(chuàng)新的視覺問答基準(zhǔn)數(shù)據(jù)集,通過整合真實(shí)世界圖像和合成圖像,結(jié)合受控的圖像生成技術(shù)和針對(duì)特定幻覺類型設(shè)計(jì)的問題,為分析VLMs的幻覺觸發(fā)因素提供了更精準(zhǔn)的工具。實(shí)驗(yàn)結(jié)果表明,當(dāng)前最先進(jìn)的模型在HaloQuest上的表現(xiàn)普遍不佳,暴露了其能力與實(shí)際應(yīng)用需求之間的顯著差距。

在HaloQuest上進(jìn)行微調(diào)的VLMs顯著降低了幻覺率,同時(shí)保持了其在常規(guī)推理任務(wù)上的性能,這證明了該數(shù)據(jù)集在提升模型安全性和可靠性方面的潛力。此外,研究提出了一種基于大語言模型(LLM)的Auto-Eval評(píng)估機(jī)制,能夠?qū)LMs的回答進(jìn)行開放式、細(xì)粒度的評(píng)估。與傳統(tǒng)方法相比,Auto-Eval克服了限制模型表達(dá)能力或難以評(píng)估復(fù)雜幻覺的局限性,實(shí)現(xiàn)了評(píng)估效率和準(zhǔn)確性的顯著優(yōu)化。

HaloQuest不僅為VLMs的幻覺問題研究提供了新的基準(zhǔn),還通過其創(chuàng)新的數(shù)據(jù)集構(gòu)建方法和評(píng)估機(jī)制,為未來多模態(tài)AI的發(fā)展指明了方向。隨著圖像生成技術(shù)和評(píng)估方法的不斷進(jìn)步,HaloQuest有望在推動(dòng)更安全、更可靠的視覺-語言模型研究中發(fā)揮重要作用。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-02-25 08:42:10

微隔離零信任網(wǎng)絡(luò)安全

2010-07-30 16:06:41

2024-11-04 10:20:00

模型數(shù)據(jù)

2021-01-18 10:52:55

谷歌AI人工智能

2019-08-01 13:34:44

容器趨勢(shì)Kubernetes

2020-03-05 18:32:52

NFV網(wǎng)絡(luò)5G

2022-04-18 17:06:17

人工智能AI

2011-04-12 09:46:46

光纖

2013-05-06 14:04:29

PON通信技術(shù)無源光網(wǎng)絡(luò)

2009-04-30 15:22:25

JDBCODBCAPI

2015-03-23 10:40:19

Docker容器軟件DockerREST

2010-08-25 09:07:03

2013-12-31 09:34:02

2009-11-18 15:58:05

PHP技術(shù)

2018-03-21 06:47:02

移動(dòng)通信5G互聯(lián)網(wǎng)

2010-07-19 13:49:52

autoTelnet

2009-11-06 11:03:02

EPON接入技術(shù)

2009-02-26 16:05:23

Java手機(jī)終端J2ME

2009-11-03 10:53:25

光纖接入技術(shù)

2016-12-23 14:43:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)