自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI

發(fā)布于 2024-10-21 13:31
瀏覽
0收藏

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

?文章鏈接:  https://arxiv.org/pdf/2410.09732
項目鏈接:  https://opendatalab.github.io/LOKI/
數(shù)據(jù)&代碼:https://github.com/opendatalab/LOKI

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

總結(jié)速覽

引入了LOKI基準(zhǔn),以全面評估LMMs在區(qū)分合成數(shù)據(jù)上的表現(xiàn)。LOKI基準(zhǔn)的亮點(diǎn)包括:

  • 全面模態(tài)評估。收集了近期熱門合成模型生成的高質(zhì)量多模態(tài)數(shù)據(jù),涵蓋視頻,圖像,3D數(shù)據(jù),文本,音頻等多個模態(tài)。
  • 異構(gòu)數(shù)據(jù)覆蓋。數(shù)據(jù)集中包括28個不同模態(tài)的細(xì)致分類,包括有專業(yè)的衛(wèi)星,醫(yī)學(xué)等圖像,哲學(xué),文言文等文本作品,環(huán)境音,音樂等音頻。
  • 多層次標(biāo)注。基準(zhǔn)包括了生成/真實標(biāo)簽,可用于判斷題,多選題等基礎(chǔ)問題設(shè)置。還包含了細(xì)粒度異常注釋,可用于原因解釋等探究LMMs在可解釋合成數(shù)據(jù)檢測方面的題目。
  • 多模態(tài)合成數(shù)據(jù)評測框架。我們提出了一種全面的多模態(tài)評測框架,支持目前主流多模態(tài)大模型使用多種數(shù)據(jù)格式輸入,包括視頻,圖像,文本,音頻,點(diǎn)云等。

評估結(jié)果

在 LOKI 基準(zhǔn)測試中,評估了 22 個開源 LMMs、6個 閉源LMMs 和幾個專家合成檢測模型。

主要發(fā)現(xiàn)總結(jié)如下:
對于合成數(shù)據(jù)檢測任務(wù):

  • LMM 在合成數(shù)據(jù)檢測任務(wù)中表現(xiàn)出中等能力,具有一定程度的可解釋性和泛化能力,但與人類表現(xiàn)相比仍然存在差距;
  • 與專家合成檢測模型相比,LMM 表現(xiàn)出更高的可解釋性,并且與人類相比,可以檢測到肉眼看不見的特征,顯示出良好的發(fā)展前景。

對于LMMs能力:

  • 大多數(shù) LMM 表現(xiàn)出一定的模型偏差,傾向于在其響應(yīng)中偏向合成或真實數(shù)據(jù);
  • LMM 缺乏專業(yè)領(lǐng)域知識,在衛(wèi)星和醫(yī)學(xué)圖像等專業(yè)圖像類型上表現(xiàn)不佳;
  • 當(dāng)前的 LMM 表現(xiàn)出不平衡的多模態(tài)能力,在圖像和文本任務(wù)中表現(xiàn)出色,但在 3D 和音頻任務(wù)中表現(xiàn)不佳;
  • 思路鏈提示增強(qiáng)了 LMM 在合成數(shù)據(jù)檢測中的表現(xiàn),而簡單的少量提示無法提供必要的推理支持。?

動機(jī)

隨著擴(kuò)散模型和大型語言模型(LLM)的快速發(fā)展,人工智能生成內(nèi)容 (AIGC) 技術(shù)合成多模態(tài)數(shù)據(jù)已越來越多地將融入我們的日常生活。例如,SORA可以制作高度逼真的視頻,Suno可以創(chuàng)作出與專業(yè)藝術(shù)家相當(dāng)水平的音樂。然而,合成多模態(tài)數(shù)據(jù)也帶來了重大風(fēng)險,包括潛在的濫用和社會風(fēng)險,包括使用LLM生成虛假新聞、使用擴(kuò)散模型合成人臉以進(jìn)行詐騙,以及互聯(lián)網(wǎng)訓(xùn)練數(shù)據(jù)的潛在污染風(fēng)險。由于人工智能綜合的便利性,未來的互聯(lián)網(wǎng)可能會充斥著人工智能生成的內(nèi)容,使得辨別多模態(tài)數(shù)據(jù)的真實性和可信度的任務(wù)變得越來越具有挑戰(zhàn)性。

為了應(yīng)對此類威脅,合成數(shù)據(jù)檢測領(lǐng)域近年來引起了廣泛關(guān)注。然而,目前大多數(shù)合成數(shù)據(jù)檢測方法主要側(cè)重于真實性評估,對預(yù)測結(jié)果的人為可解釋性存在一定的局限。多模態(tài)大模型 (LMMs) 近年來的快速發(fā)展引發(fā)了人們對其在檢測合成多模態(tài)數(shù)據(jù)方面性能的好奇。一方面,對于合成數(shù)據(jù)檢測任務(wù),LMMs 可以用自然語言提供真實性判斷背后的推理,為增強(qiáng)可解釋性鋪平了道路。另一方面,區(qū)分真實數(shù)據(jù)和合成數(shù)據(jù)的任務(wù)涉及多模態(tài)數(shù)據(jù)的感知、知識和推理能力,本身就是對 LMM 能力的良好測試。因此,本文的重點(diǎn)是評估 LMM 在合成數(shù)據(jù)檢測任務(wù)中的性能。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

LOKI基準(zhǔn)構(gòu)建

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

多模態(tài)合成數(shù)據(jù)檢測基準(zhǔn)LOKI,專門用于全面評估 LMM 檢測合成數(shù)據(jù)的能力。如下圖所示,LOKI 涵蓋了多種模態(tài),包括視頻、圖像、3D、文本和音頻,擁有超過 26 個特定的數(shù)據(jù)子類別。該基準(zhǔn)利用細(xì)粒度異常注釋來構(gòu)建各種分層的問題類型,包括判斷問題、多項選擇題、異常細(xì)節(jié)選擇和異常解釋問題,總計超過 18,000 個問題。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

視頻: 收集了SORA、Keling、Open_sora等閉源和開源模型收集了500+高質(zhì)量文本生成片段及其對應(yīng)的真實領(lǐng)域樣本數(shù)據(jù)。對于 AI 生成的視頻片段,使用 LabelU工具來注釋異常細(xì)節(jié),包括異常片段及其描述、異常關(guān)鍵幀和全局異常描述。如下圖所示,視頻中的“違反自然物理”和“幀閃爍”等異常也得到了全局注釋。此外,還突出顯示了從 02:54 到 06:27 的異常片段,并由人類注釋者解釋了相應(yīng)的異常原因。此外,每個異常片段都包含一個異常關(guān)鍵幀,以便后續(xù)的 LMM 在處理視頻數(shù)據(jù)時準(zhǔn)確讀取異常幀。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

圖像:通過現(xiàn)有數(shù)據(jù)集提取、互聯(lián)網(wǎng)收集和新合成等方式,收集了來自 7 個子類別的 2,200 多幅圖像。圖像合成方法包括 FLUX、Midjourney、Stable Diffusion等,以確保數(shù)據(jù)的高質(zhì)量和多樣性。對于合成的圖像數(shù)據(jù),除了整體注釋外,我們還執(zhí)行了異常區(qū)域標(biāo)記和解釋,區(qū)域異常注釋允許更細(xì)粒度和更具體的標(biāo)記,可用于生成后續(xù)的異常細(xì)節(jié)問題。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

3D:基于OmniObject3D進(jìn)行了全面分析,選擇同一域內(nèi)的掃描實例作為地面實況。通過構(gòu)建提示文本,合成了三個 Nerf 模型和三個 3D GS 模型,并使用來自高級商業(yè)模型 Clay 的結(jié)果和來自 GPTEval3D 的一些基于 Nerf 的結(jié)果對其進(jìn)行了補(bǔ)充。我們總共收集了來自十種不同合成方法的 1,200 多個 3D 模型,包括合成數(shù)據(jù)和真實掃描數(shù)據(jù)。此外,我們對合成的 3D 數(shù)據(jù)的 RGB 四個視圖執(zhí)行了紋理異常描述注釋,以及正常異常描述注釋。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

音頻:收集了各種類別的音頻,包括語音、歌聲、環(huán)境聲音和音樂。語音和歌聲數(shù)據(jù)確保了說話者音色的一致性,來源于ASVSpoof2019和CtrSVDD Benchmark,涵蓋四個生成范式:TTS、VC、SVS 和 SVC。環(huán)境音頻數(shù)據(jù)來自 DCASE 2023 Task 7,其中真實音頻來自開發(fā)集,合成音頻使用多種方法從 Track A 生成。音樂數(shù)據(jù)來源于MusicCaps,合成音樂根據(jù)描述使用MusicGen、AudioLDM2-Music和 Suno生成。

?

文本:基于主流LLM模型(如 GPT-4、Qwen-Max、Llama 3.1-405B),使用總結(jié)再生方法生成了與原文相似的偽造文本。我們收集了八類文本數(shù)據(jù),每個樣本與一段真實文本和一段模型生成的相似文本配對,共計 3,359篇文本。我們的文本數(shù)據(jù)按長度和語言分類,包括短文本(50-100 字)、中文本(100-200 字)和長文本(200 字以上),中文和英文數(shù)據(jù)比例為 1:1。

題目概覽

判斷題: 此任務(wù)需要大型語言模型 (LMM) 來確定輸入數(shù)據(jù)是合成的還是真實的。例如“提供的音頻是由 AI 生成的嗎?”

多選題: 

異常細(xì)節(jié)選擇: 基于來自視頻、圖像和 3D 等模態(tài)的細(xì)粒度異常注釋數(shù)據(jù),有效地設(shè)計提示并利用 GPT-4o 生成異常細(xì)節(jié)選擇問題。例如,于視頻內(nèi)容的細(xì)節(jié)異常,提問“哪些元素可以是不連續(xù)的?”


異常解釋:要求 LMM 獨(dú)立識別異常并解釋其原因。例如,提問“為什么提供的圖像是 AI 生成的?”

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

LMMs評估結(jié)果

下表展示了 LOKI 中各種模型在判斷和多項選擇題上的表現(xiàn)。對于合成數(shù)據(jù)判斷任務(wù),閉源模型 GPT-4o 取得了最好的結(jié)果,總體準(zhǔn)確率(不包括音頻)為 63.9%。當(dāng)在多項選擇題中加入真實配對數(shù)據(jù)進(jìn)行比較時,準(zhǔn)確率進(jìn)一步提高到 73.7%。在文本模態(tài)中,Claude-3.5 的表現(xiàn)優(yōu)于其他 LMM 和 LLM,準(zhǔn)確率超過 70%。在音頻 LMM 類別中,開源和閉源模型都表現(xiàn)出與隨機(jī)選擇相當(dāng)?shù)男阅堋Ρ炔煌P驮诋惓<?xì)節(jié)選擇和異常原因解釋任務(wù)上的表現(xiàn)。GPT-4o 在異常細(xì)節(jié)選擇中的準(zhǔn)確率超過 75%,在異常原因解釋中的得分超過 70%。這表明像 GPT-4o 這樣的高級 LMM 已經(jīng)展示了強(qiáng)大的細(xì)節(jié)理解能力,有效地分析和解釋“合成痕跡”。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

人類在判斷任務(wù)中的平均表現(xiàn)為 76%,在多項選擇題中的平均表現(xiàn)為 86.4%,均比 LMM 方法高 10%。值得注意的是,如果 LMM 工具要應(yīng)用于生產(chǎn),其在判斷任務(wù)中的決策性能必須超過 90% 才能令人信服。隨著合成技術(shù)的進(jìn)步,合成數(shù)據(jù)的明顯“痕跡”變得越來越微妙。然而,LMM 可以捕捉到微小的細(xì)節(jié),例如人眼無法察覺的圖像特征,顯示出超越人類的潛力。同時LMM 在大多數(shù)任務(wù)中都表現(xiàn)出優(yōu)于專家模型的性能。這主要是因為 LOKI 收集的合成數(shù)據(jù)來源豐富多樣,與現(xiàn)有數(shù)據(jù)域存在顯著差異,導(dǎo)致專家模型的泛化性能不佳。使用類似數(shù)據(jù)訓(xùn)練的專家模型進(jìn)行合成檢測的準(zhǔn)確率應(yīng)該會顯著提高。目前,LMM 在合成數(shù)據(jù)檢測中表現(xiàn)中等,但在泛化能力上超越專家模型。與傳統(tǒng)專家模型不同,LMM 具有解釋異常背后原因的能力,凸顯了其作為合成檢測器的獨(dú)特優(yōu)勢。

矛盾之爭,AI合成數(shù)據(jù)可以騙過大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI-AI.x社區(qū)

模型偏差。 LOKI基于召回率計算的歸一化偏差指數(shù)熱圖用于分析模型偏差。結(jié)果表明,大多數(shù)模型在合成數(shù)據(jù)檢測任務(wù)中表現(xiàn)出顯著的偏差,傾向于將數(shù)據(jù)錯誤地歸類為真實或合成。例如,GPT-4o 傾向于將文本數(shù)據(jù)歸類為真實,而傾向于將 3D 數(shù)據(jù)判斷為 AI 生成的。盡管實施了多種提問技巧來最大限度地減少提示效應(yīng),但大多數(shù)模型仍然存在明顯的偏差。


專家領(lǐng)域知識匱乏。 LOKI展示了 GPT-4o 在不同圖像子類別中的不同性能。實驗結(jié)果清楚地表明,GPT 對物體和風(fēng)景等常見圖像類型表現(xiàn)出強(qiáng)大的識別能力,甚至超越了人類用戶。然而,GPT-4o 在衛(wèi)星和醫(yī)學(xué)成像等專業(yè)領(lǐng)域以及文檔等較少訓(xùn)練的圖像類型上的表現(xiàn)顯著下降。這表明當(dāng)前的 LMM 仍然缺乏某些專家領(lǐng)域知識。


多模態(tài)能力不均衡。 通過比較各種 LMM 在不同模態(tài)下的性能。結(jié)果表明,目前的模型在圖像和文本等經(jīng)常訓(xùn)練的模態(tài)上表現(xiàn)出色,甚至在某些測試中超越了人類的表現(xiàn)。然而,它們在 3D 和音頻任務(wù)上的性能顯著下降,大多數(shù)開源模型缺乏相應(yīng)的能力。未來的 AGI 要發(fā)展成為一個多功能的助手,需要具備更均衡的多模態(tài)能力。

結(jié)論

本文介紹了 LOKI,旨在評估大型多模態(tài)模型在檢測各種模態(tài)合成數(shù)據(jù)方面的性能。對 LMM 在視頻、圖像、3D、音頻、文本和專門子域上的性能進(jìn)行了全面研究,還分析了 LMM 解釋合成數(shù)據(jù)中詳細(xì)異常的能力。實驗結(jié)果表明,LMM 在檢測合成數(shù)據(jù)方面具有一定的能力,并具有初步的解釋異常的能力。合成數(shù)據(jù)檢測任務(wù)還有效地評估了 LMM 在開發(fā)過程中的各種能力。這些發(fā)現(xiàn)突出了 LOKI 任務(wù)的挑戰(zhàn)性和綜合性,以及 LMM 在未來合成數(shù)據(jù)檢測任務(wù)中的潛力。我們旨在通過 LOKI 激發(fā)更強(qiáng)大、更可解釋的合成數(shù)據(jù)檢測方法,以應(yīng)對快速發(fā)展的 AI 合成技術(shù)帶來的潛在風(fēng)險。此外,合成和檢測之間的關(guān)系是對抗發(fā)展的,但它們是互惠互利的;更好、更可解釋的合成檢測器將進(jìn)一步推動 AI 合成技術(shù)的發(fā)展。

本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/tMhiwd_FKjy5qT8Dr4vqag??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦