自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval

發(fā)布于 2025-4-16 10:29
瀏覽
0收藏

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.02782 
代碼&數(shù)據(jù)集:https://github.com/PicoTrex/GPT-ImgEval

亮點(diǎn)直擊

  • GPT-ImgEval,首個(gè)通過(guò)三個(gè)成熟基準(zhǔn)(包括文本到圖像生成、編輯和理解引導(dǎo)生成)定量和定性評(píng)估GPT-4o圖像生成能力的基準(zhǔn)測(cè)試。全面結(jié)果突顯了GPT-4o在圖像生成和理解能力上優(yōu)于先前模型的卓越表現(xiàn)。
  • 基于測(cè)試結(jié)果深入分析,包括:(1)通過(guò)基于分類(lèi)器的圖像分析研究GPT-4o的潛在底層架構(gòu);(2)對(duì)其弱點(diǎn)的系統(tǒng)性實(shí)證研究,包括常見(jiàn)失敗模式和生成偽影。
  • 提供了GPT-4o與Gemini 2.0 Flash在多輪圖像編輯能力上的對(duì)比研究。通過(guò)使用現(xiàn)有SOTA圖像取證模型評(píng)估GPT-4o生成圖像的可檢測(cè)性,探討了AIGC安全問(wèn)題,表明由上采樣過(guò)程中引入的可見(jiàn)偽影,此類(lèi)輸出仍可被區(qū)分。

總結(jié)速覽

解決的問(wèn)題

  • 缺乏系統(tǒng)評(píng)測(cè):當(dāng)前對(duì)GPT-4o在圖像生成、編輯及知識(shí)驅(qū)動(dòng)的語(yǔ)義合成能力的系統(tǒng)性評(píng)估不足。
  • 架構(gòu)不透明:GPT-4o的內(nèi)部圖像解碼架構(gòu)(如擴(kuò)散模型vs.自回歸模型)尚未明確。
  • 局限性分析:需揭示GPT-4o在生成控制、編輯一致性、多語(yǔ)言支持等方面的具體缺陷。
  • 安全與檢測(cè):評(píng)估生成圖像的可檢測(cè)性及潛在安全風(fēng)險(xiǎn)。

提出的方案

  • 評(píng)測(cè)基準(zhǔn)GPT-ImgEval
  • 生成質(zhì)量(GenEval數(shù)據(jù)集)
  • 編輯能力(Reason-Edit數(shù)據(jù)集)
  • 知識(shí)驅(qū)動(dòng)合成(WISE數(shù)據(jù)集)
  • 架構(gòu)推測(cè)方法
  • 訓(xùn)練二分類(lèi)器區(qū)分?jǐn)U散模型與自回歸模型生成圖像,驗(yàn)證GPT-4o的解碼方式。
  • 結(jié)合生成圖像特征,推測(cè)其完整架構(gòu)(如視覺(jué)編碼器+擴(kuò)散頭)。
  • 多維度對(duì)比實(shí)驗(yàn)
  • 與Gemini 2.0 Flash比較多輪編輯的指令理解、一致性、響應(yīng)速度等。
  • 安全分析
  • 利用現(xiàn)有圖像取證模型檢測(cè)生成圖像的偽造痕跡(如插值偽影、水印特征)。

應(yīng)用的技術(shù)

  • 評(píng)測(cè)框架:基于現(xiàn)有數(shù)據(jù)集(GenEval、Reason-Edit、WISE)構(gòu)建多任務(wù)評(píng)估流程。
  • 分類(lèi)模型:通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練擴(kuò)散/自回歸生成圖像的判別器,反推GPT-4o架構(gòu)。
  • 可視化分析:人工與自動(dòng)化結(jié)合,識(shí)別生成圖像的常見(jiàn)偽影(如比例失調(diào)、色彩偏差)。
  • 跨模型對(duì)比:定量(指標(biāo))與定性(案例)分析GPT-4o與Gemini 2.0 Flash的差異。
  • 取證工具:應(yīng)用SOTA圖像偽造檢測(cè)模型(如基于插值偽影或頻域特征的方法)。

達(dá)到的效果

  • 性能優(yōu)勢(shì)
  • GPT-4o在生成質(zhì)量、編輯控制、知識(shí)推理上顯著優(yōu)于現(xiàn)有方法。
  • 支持細(xì)粒度屬性控制與復(fù)雜場(chǎng)景合成(如多對(duì)象組合)。
  • 架構(gòu)推測(cè)
  • 實(shí)證表明GPT-4o可能采用擴(kuò)散模型頭(非VAR類(lèi)架構(gòu))進(jìn)行圖像解碼。
  • 局限性揭示
  • 編輯時(shí)內(nèi)容保留不穩(wěn)定、比例控制困難、高分辨率過(guò)平滑、非英文文本生成不足等。
  • 安全發(fā)現(xiàn)
  • 生成圖像易被現(xiàn)有取證模型檢測(cè)(可能因超分插值偽影或隱式水?。?/li>
  • 行業(yè)影響
  • 提供可復(fù)現(xiàn)的基準(zhǔn),推動(dòng)生成模型研究;為實(shí)際應(yīng)用(如內(nèi)容創(chuàng)作)提供改進(jìn)方向。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

GPT-ImgEval 的總體工作流程,包括 GPT-4o 圖像生成、評(píng)估和分析

GPT-ImgEval評(píng)估基準(zhǔn)

GPT-4o圖像生成設(shè)置

數(shù)據(jù)集本文使用三個(gè)核心數(shù)據(jù)集評(píng)估GPT-4o的圖像生成能力:GenEval、Reason-Edit和WISE。傳統(tǒng)自動(dòng)評(píng)估指標(biāo)(如FID或CLIPScore)主要衡量整體圖像質(zhì)量或圖文對(duì)齊度,但無(wú)法勝任細(xì)粒度或?qū)嵗?jí)分析。(1) GenEval采用以物體為中心的框架評(píng)估構(gòu)圖屬性,包括物體共現(xiàn)、空間排列、計(jì)數(shù)和色彩一致性,適合評(píng)估GPT-4o基于文本輸入的圖像合成控制能力;(2) Reason-Edit是專(zhuān)為基于文本指令的圖像編輯設(shè)計(jì)的數(shù)據(jù)集,涵蓋七類(lèi)編輯挑戰(zhàn),測(cè)試模型的空間理解、尺寸調(diào)整、色彩修改和常識(shí)推理能力;(3) WISE作為世界知識(shí)驅(qū)動(dòng)的語(yǔ)義評(píng)估基準(zhǔn),超越簡(jiǎn)單的詞到像素映射,要求模型生成基于現(xiàn)實(shí)知識(shí)(如文化背景、時(shí)空推理和科學(xué)理解)的圖像。


自動(dòng)化腳本截至2025年4月3日,GPT-4o尚未提供官方的圖像生成API。為此,研究者們開(kāi)發(fā)了直接與GPT-4o網(wǎng)頁(yè)界面交互的定制自動(dòng)化腳本。這些腳本通過(guò)模擬用戶輸入自動(dòng)提交提示詞并獲取生成圖像,支持大規(guī)??芍貜?fù)的模型能力評(píng)估。為減少同窗口上下文對(duì)模型能力的干擾,每個(gè)提示詞對(duì)應(yīng)的圖像合成均在新窗口完成。

文本到圖像生成

定量結(jié)果下表1匯總了GenEval上文本到圖像(T2I)生成的評(píng)估結(jié)果,涵蓋兩類(lèi)模型:(1) 使用凍結(jié)文本編碼器的直接擴(kuò)散方法;(2) 利用LLM/MLLM增強(qiáng)生成的方法。數(shù)據(jù)顯示,GPT-4o以0.84的總分顯著優(yōu)于凍結(jié)文本編碼器方法和LLM/MLLM增強(qiáng)方法。與最先進(jìn)的基于推理的方法GoT相比,GPT-4o在計(jì)數(shù)任務(wù)(0.85)、色彩識(shí)別(0.92)、空間定位(0.75)和屬性綁定(0.61)上均表現(xiàn)突出,彰顯了其在空間推理和屬性綁定上的優(yōu)勢(shì)。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

定性結(jié)果下圖3展示了GPT-4o在GenEval基準(zhǔn)六類(lèi)核心任務(wù)中的生成示例:

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

  • 單物體雙物體任務(wù)中,GPT-4o準(zhǔn)確生成符合提示的清晰物體(如"香蕉照片"或"兩個(gè)時(shí)鐘照片");
  • 計(jì)數(shù)任務(wù)成功渲染正確數(shù)量的物品(如"三個(gè)運(yùn)動(dòng)球"或"三個(gè)手提包"),體現(xiàn)可靠的數(shù)值理解;
  • 色彩示例顯示模型能將特定顏色與物體正確關(guān)聯(lián)(如"藍(lán)色電視照片"和"黑色背包照片");
  • 位置示例(如"胡蘿卜在橙子左側(cè)"和"奶牛在停止標(biāo)志左側(cè)")凸顯其空間推理與物體布局能力;
  • 屬性綁定任務(wù)中,模型有效關(guān)聯(lián)多物體屬性,生成如"電腦鼠標(biāo)和勺子照片"等無(wú)實(shí)體錯(cuò)位的合理場(chǎng)景。

這些案例共同證明GPT-4o能解析復(fù)雜構(gòu)圖提示,生成語(yǔ)義準(zhǔn)確、視覺(jué)連貫的圖像,反映強(qiáng)大的多模態(tài)推理與規(guī)劃能力。

圖像編輯

定量結(jié)果本文使用Reason-Edit基準(zhǔn)評(píng)估GPT-4o在圖像編輯任務(wù)上的表現(xiàn),這是一個(gè)用于定性評(píng)估圖像編輯性能的基準(zhǔn)。本文采用GPT Score來(lái)評(píng)估圖像編輯任務(wù)中的指令遵循程度和非編輯區(qū)域的一致性。


如下圖4柱狀圖所示,GPT-4o在Reason-Edit基準(zhǔn)上顯著優(yōu)于所有現(xiàn)有圖像編輯方法,取得了0.929的優(yōu)異成績(jī)。這相比2025年前最佳方法SmartEdit(0.572)提升了+0.357,突顯了模型強(qiáng)大的指令遵循能力和細(xì)粒度編輯控制。與GoT(0.561)、CosXL-Edit(0.325)和MagicBrush(0.334)等先進(jìn)模型相比,GPT-4o為文本引導(dǎo)的圖像編輯設(shè)立了新標(biāo)準(zhǔn)。GPT-4o在指令遵循和圖像生成質(zhì)量?jī)煞矫娑颊宫F(xiàn)出強(qiáng)勁性能。這一性能的顯著提升展示了將大型多模態(tài)語(yǔ)言模型整合到圖像編輯任務(wù)中的潛力。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

GPT-4o的圖像編輯過(guò)程經(jīng)常在尺寸、色調(diào)等全局屬性上表現(xiàn)出不一致性。然而,這些差異在GPT-eval Score評(píng)估框架下往往被掩蓋,可能導(dǎo)致無(wú)法充分捕捉這些變化,從而在評(píng)估模型真實(shí)性能時(shí)引入偏差。


定性結(jié)果下圖5中展示了圖像編輯的定性比較,說(shuō)明了GPT-4o在一系列復(fù)雜圖像編輯指令中的質(zhì)量?jī)?yōu)勢(shì)。對(duì)于諸如物體替換("將含維生素最多的食物替換為橙子")、物體移除和屬性特定替換("將中間的熊貓改成貓")等任務(wù),GPT-4o始終能生成語(yǔ)義準(zhǔn)確、視覺(jué)連貫且符合上下文的結(jié)果。與InstructPix2Pix、MagicBrush和SmartEdit-7B等方法相比,GPT-4o展現(xiàn)出更高的空間一致性、更好的編輯定位能力以及最小的附帶修改。此外,GPT-4o生成的圖像整體質(zhì)量顯著超越所有先前方法。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

在"鏡子里的貓"示例中,只有GPT-4o成功編輯了反射效果——在保留現(xiàn)實(shí)背景的同時(shí),在鏡中生成了姿勢(shì)匹配的老虎。這一任務(wù)需要對(duì)語(yǔ)義和場(chǎng)景結(jié)構(gòu)的細(xì)粒度理解。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

世界知識(shí)引導(dǎo)的語(yǔ)義合成

由于現(xiàn)有研究和評(píng)估標(biāo)準(zhǔn)主要關(guān)注圖像真實(shí)性和淺層文本-圖像對(duì)齊,缺乏對(duì)文本到圖像生成中復(fù)雜語(yǔ)義理解和世界知識(shí)整合的綜合評(píng)估,除了上述兩個(gè)基準(zhǔn)外,本文還在最新的WISE基準(zhǔn)上進(jìn)一步評(píng)估了GPT-4o。此類(lèi)任務(wù)要求圖像生成模型在生成前具備足夠的世界知識(shí)和推理能力。例如,給定提示"章魚(yú)面對(duì)危險(xiǎn)時(shí)的行為",模型必須理解章魚(yú)釋放墨汁的生物學(xué)反應(yīng)。同樣,提示"巴西的一座巨型雕塑,張開(kāi)雙臂俯瞰下方的城市"要求模型識(shí)別并生成標(biāo)志性的巴西地標(biāo)——科爾科瓦多山頂?shù)幕较瘛?/p>


定量結(jié)果如下表2所示,GPT-4o在整體WiScore上顯著優(yōu)于現(xiàn)有的專(zhuān)業(yè)T2I生成方法和基于統(tǒng)一MLLM的方法。GPT-4o將卓越的世界知識(shí)理解能力與高保真圖像生成相結(jié)合,在多模態(tài)生成任務(wù)中展現(xiàn)出雙重優(yōu)勢(shì)。這一性能差距可歸因于GPT-4o強(qiáng)大的世界知識(shí)保持和推理能力,使其能夠在圖像生成過(guò)程中有效整合知識(shí)。結(jié)果表明,在當(dāng)前統(tǒng)一的多模態(tài)生成框架中,理解和推理世界知識(shí)的能力并不自動(dòng)轉(zhuǎn)化為以足夠保真度和準(zhǔn)確性視覺(jué)呈現(xiàn)這些知識(shí)的能力——而GPT-4o恰恰實(shí)現(xiàn)了這一點(diǎn)。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

定性結(jié)果下圖6中進(jìn)行了定性比較,展示了GPT-4o在世界知識(shí)引導(dǎo)語(yǔ)義合成的多個(gè)子領(lǐng)域中的卓越表現(xiàn)。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

例如,當(dāng)輸入提示"美國(guó)的國(guó)家象征猛禽"時(shí),GPT-4o能正確生成白頭海雕圖像。對(duì)于"中世紀(jì)騎士在比武大會(huì)中佩戴的特殊頭盔樣式"的提示,它準(zhǔn)確生成了帶有狹窄眼縫的全封閉式中世紀(jì)頭盔。在"孩子和樹(shù)葉分別站在蹺蹺板兩端"的案例中,GPT-4o通過(guò)生成合理傾斜的蹺蹺板,展現(xiàn)出對(duì)重量不平衡的理解??傮w而言,GPT-4o能有效推斷提示背后的語(yǔ)義意圖,并生成高質(zhì)量、語(yǔ)義對(duì)齊的圖像。

GPT-4o的潛在架構(gòu)

本文提出三種可能的圖像生成架構(gòu)假設(shè)(下圖1),這些假設(shè)受到現(xiàn)有統(tǒng)一架構(gòu)的啟發(fā)。學(xué)界爭(zhēng)論焦點(diǎn)在于生成頭(圖像解碼器)的選擇,即架構(gòu)(a)與架構(gòu)(b)之間的抉擇。下面將詳細(xì)分析這兩種架構(gòu),并提供我們的判別依據(jù)。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

假設(shè)1:基于自回歸的漸進(jìn)式預(yù)測(cè)架構(gòu)該假設(shè)認(rèn)為GPT-4o采用圖1(b)所示的自回歸(AR)架構(gòu),其通過(guò)"next-scale prediction"策略逐步優(yōu)化圖像:首先生成低分辨率模糊基底,再漸進(jìn)增強(qiáng)為高清輸出。這種設(shè)計(jì)受到近期AR生成方法的啟發(fā),與GPT-4o生成界面中觀察到的圖像逐步清晰化現(xiàn)象相符。


假設(shè)2:結(jié)合擴(kuò)散頭的混合架構(gòu)此假設(shè)推測(cè)GPT-4o采用圖1(a)的混合設(shè)計(jì):基于Transformer的AR主干網(wǎng)絡(luò)配合擴(kuò)散生成頭。在該框架中,AR模型首先生成中間視覺(jué)標(biāo)記或潛在表示,隨后作為條件輸入傳遞給擴(kuò)散模型進(jìn)行最終圖像解碼(流程:token→[Transformer]→[擴(kuò)散模型]→像素)。這一假設(shè)與OpenAI系統(tǒng)卡片中的描述一致,也符合當(dāng)前結(jié)合AR語(yǔ)義優(yōu)勢(shì)與擴(kuò)散模型視覺(jué)保真度的研究趨勢(shì)。下圖8中發(fā)現(xiàn)OpenAI官方提供的"彩蛋證據(jù)",明確標(biāo)注了"token→[Transformer]→[擴(kuò)散模型]→像素"的生成流程。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

混合架構(gòu)能合理解釋GPT-4o的多個(gè)特性:既具備擴(kuò)散模型標(biāo)志性的高畫(huà)質(zhì)、豐富紋理和自然場(chǎng)景表現(xiàn)力,又保持與提示詞的強(qiáng)語(yǔ)義對(duì)齊(表明存在基于語(yǔ)言的AR階段)。該結(jié)構(gòu)也解釋了局部編輯時(shí)的"全局偏移"問(wèn)題——當(dāng)條件信號(hào)較弱或較粗糙時(shí),擴(kuò)散模型難以將修改約束在小范圍內(nèi)。


架構(gòu)驗(yàn)證實(shí)驗(yàn)為探究GPT-4o的實(shí)際架構(gòu),本文設(shè)計(jì)了基于分類(lèi)模型的判別方法(下圖9),通過(guò)實(shí)證研究驗(yàn)證視覺(jué)解碼器類(lèi)型,并基于生成圖像特征推斷其視覺(jué)編碼器組件。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

視覺(jué)解碼器分析從GenEval基準(zhǔn)選取相同提示詞,分別用AR頭和擴(kuò)散頭各生成10,000張圖像,訓(xùn)練二分類(lèi)器進(jìn)行區(qū)分。當(dāng)輸入GPT-4o生成圖像時(shí),分類(lèi)器持續(xù)判定為擴(kuò)散模型輸出,為"假設(shè)2"提供了強(qiáng)實(shí)證支持。


視覺(jué)編碼器推測(cè)根據(jù)UniTok的研究,圖像向量量化(VQ)會(huì)損害模型理解能力,因此我們推測(cè)GPT-4o可能采用類(lèi)似MAR的連續(xù)標(biāo)記方案。盡管無(wú)法獲取確切架構(gòu),本文提出了圖7所示的四種可能結(jié)構(gòu)。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

局限性分析

基于評(píng)估結(jié)果及對(duì)GPT-4o生成圖像的定性檢查,我們發(fā)現(xiàn)了該模型在圖像生成與編輯過(guò)程中反復(fù)出現(xiàn)的缺陷,這些缺陷揭示了其當(dāng)前的技術(shù)局限。以下總結(jié)GPT-4o圖像生成過(guò)程中暴露的主要問(wèn)題類(lèi)別,重點(diǎn)指出該模型在保真度、一致性和可控性方面未達(dá)預(yù)期的領(lǐng)域。本總結(jié)不限于前文三個(gè)數(shù)據(jù)集的評(píng)估結(jié)果,我們將逐類(lèi)詳細(xì)解析這些缺陷現(xiàn)象。


圖像生成不一致性GPT-4o在生成圖像時(shí)往往難以完美復(fù)現(xiàn)未要求修改的輸入圖像。即使提示詞明確要求"不作更改",模型仍可能引入細(xì)微變動(dòng),這種現(xiàn)象在圖像尺寸方面尤為突出——輸出圖像可能出現(xiàn)不可預(yù)測(cè)的寬高比變化、自動(dòng)邊緣裁剪或重新縮放。此類(lèi)行為嚴(yán)重限制了需要基于原圖尺寸進(jìn)行精確構(gòu)圖或空間對(duì)齊的應(yīng)用場(chǎng)景。


高分辨率與過(guò)度細(xì)化局限如下圖10(b)所示,GPT-4o存在明顯的超分辨率或圖像增強(qiáng)操作傾向。即便提示詞明確要求生成模糊或低分辨率圖像,模型仍頻繁輸出清晰度與細(xì)節(jié)被強(qiáng)化的結(jié)果。這種行為反映出其對(duì)高頻視覺(jué)信息的優(yōu)先處理傾向,可能源于內(nèi)部上采樣模塊或訓(xùn)練數(shù)據(jù)偏差。因此,GPT-4o難以主動(dòng)生成模糊、失焦或低細(xì)節(jié)圖像,在還原特定藝術(shù)風(fēng)格或預(yù)期視覺(jué)效果時(shí)存在局限。此外,模型常為圖像添加過(guò)量細(xì)節(jié)(例如精確呈現(xiàn)愛(ài)因斯坦面部的每道皺紋),進(jìn)一步凸顯其追求高細(xì)節(jié)合成的內(nèi)在偏好。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

筆刷工具局限盡管GPT-4o集成了用于局部編輯的筆刷工具,但其底層流程仍涉及整圖重新生成。因此即使僅編輯微小區(qū)域,輸出圖像也可能在紋理、色彩或細(xì)節(jié)等全局屬性上出現(xiàn)非預(yù)期變化。相比之下,ComfyUI等工具支持真正的局部修復(fù),在實(shí)際編輯應(yīng)用中能提供更穩(wěn)定的控制。此外,GPT-4o生成圖像常呈現(xiàn)明顯的暖色調(diào)偏差——在缺乏明確提示約束時(shí),模型傾向于使用以黃、橙色為主導(dǎo)的暖調(diào)色板。雖然這類(lèi)輸出在某些場(chǎng)景下具有視覺(jué)吸引力,但這種偏差限制了生成圖像的風(fēng)格多樣性,該傾向可能源于訓(xùn)練數(shù)據(jù)中不平衡的色彩分布或大規(guī)模數(shù)據(jù)集固有的風(fēng)格偏好。


復(fù)雜場(chǎng)景生成失敗盡管GPT-4o在生成復(fù)雜場(chǎng)景方面表現(xiàn)卓越,但在處理多人交互場(chǎng)景及人物-物體互動(dòng)時(shí)仍存在顯著問(wèn)題。如圖10(d)所示,黃框標(biāo)出的人物姿態(tài)或解剖結(jié)構(gòu)異常,紅框則標(biāo)示出空間關(guān)系不合邏輯的物體重疊。這些局限反映出模型在高視覺(jué)復(fù)雜度下進(jìn)行空間推理和保持圖像一致性的困難。


非英語(yǔ)文本生成局限GPT-4o在文本生成方面優(yōu)勢(shì)顯著,尤其在英語(yǔ)字體渲染的清晰度與一致性上遠(yuǎn)超同類(lèi)模型。但其在復(fù)雜場(chǎng)景中生成中文文本的能力仍然有限。如圖10(e)所示,模型在生成中文標(biāo)識(shí)時(shí)常出現(xiàn)字體錯(cuò)誤或誤用繁體字等問(wèn)題。這表明GPT-4o在非英語(yǔ)文本生成方面仍面臨挑戰(zhàn),這種差距可能源于訓(xùn)練數(shù)據(jù)中英文與中文的不平衡分布,以及漢字本身更高的結(jié)構(gòu)復(fù)雜性和語(yǔ)境依賴性。

更多討論

GPT-4o 與 Gemini 2.0 Flash 的多輪圖像生成對(duì)比分析

為了與另一款強(qiáng)大的商業(yè)生成模型進(jìn)行比較,對(duì) GPT-4o 和 Gemini 2.0 Flash 進(jìn)行了評(píng)估,重點(diǎn)考察圖像編輯的一致性、指令理解能力、多輪圖像編輯能力以及計(jì)算效率。

GPT-4o圖像生成能力全揭秘:背后竟藏自回歸+擴(kuò)散架構(gòu)?北大&中山等開(kāi)源GPT-ImgEval-AI.x社區(qū)

以下是主要發(fā)現(xiàn):

  • 編輯一致性:隨著編輯次數(shù)的增加,兩種模型在一致性方面的表現(xiàn)均有所下降,但 GPT-4o 的表現(xiàn)顯著優(yōu)于 Gemini。例如,在僅要求更改椅子顏色的任務(wù)中,GPT-4o 能準(zhǔn)確地僅改變顏色,而 Gemini 則可能錯(cuò)誤地修改椅子的形狀,甚至位置。
  • 指令理解能力:兩種模型在理解并準(zhǔn)確執(zhí)行指令方面都未達(dá)到 100% 的準(zhǔn)確率。在一個(gè)涉及電腦桌的測(cè)試中,當(dāng) GPT-4o 被要求修改椅子時(shí),它卻誤刪了墻上的裝飾板。而 Gemini 的表現(xiàn)更為嚴(yán)重:它不僅刪除了裝飾板,還誤刪了場(chǎng)景中的其他物體。
  • 多輪圖像編輯對(duì)話:GPT-4o 支持多輪圖像編輯對(duì)話,允許在多個(gè)圖像狀態(tài)之間持續(xù)互動(dòng)與細(xì)化。相比之下,Gemini 2.0 Flash 似乎不原生支持該功能,每一步都需要手動(dòng)重新上傳上一張圖像。
  • 計(jì)算效率:在生成速度方面,Gemini 2.0 Flash 明顯快于 GPT-4o,因此在對(duì)響應(yīng)速度要求較高的應(yīng)用場(chǎng)景中更具優(yōu)勢(shì)。

安全性:GPT-4o 生成的圖像是否可檢測(cè)?

GPT-4o 展現(xiàn)了出色的圖像生成能力,往往能生成高度逼真的圖像,甚至肉眼難以分辨。然而,我們的分析表明,這些圖像仍然可以被當(dāng)前的圖像取證檢測(cè)器識(shí)別出來(lái)。如表 3 所示,大多數(shù)現(xiàn)有的 AI 圖像檢測(cè)模型——包括兩個(gè)當(dāng)前最先進(jìn)(SOTA)的方法 Effort與 FakeVLM——在識(shí)別 GPT-4o 生成圖像方面的準(zhǔn)確率均超過(guò) 95%。這說(shuō)明盡管 GPT-4o 的圖像逼真度很高,其生成結(jié)果依然在現(xiàn)有 SOTA 檢測(cè)模型的識(shí)別范圍之內(nèi)。


GPT-4o 圖像可檢測(cè)性的一個(gè)潛在來(lái)源在于其內(nèi)部的超分辨率處理機(jī)制。觀察到,即便在明確要求保留圖像模糊或低清晰度的前提下,GPT-4o 仍然會(huì)持續(xù)輸出清晰、高分辨率的圖像。例如,當(dāng)輸入一張模糊圖片并要求“保持不變”時(shí),GPT-4o 卻返回了一張被銳化、分辨率更高的版本。這表明模型內(nèi)部可能存在內(nèi)置的超分辨率機(jī)制。進(jìn)一步支持這一結(jié)論的是,專(zhuān)為檢測(cè)上采樣偽影設(shè)計(jì)的取證模型 NPR 在檢測(cè) GPT-4o 圖像樣本時(shí)達(dá)到了 99% 的準(zhǔn)確率。這意味著 GPT-4o 生成的圖像中可能包含一些由于后處理(如圖像放大)引入的、易被識(shí)別的偽影特征。


除了技術(shù)特征外,GPT-4o 還實(shí)施了嚴(yán)格的安全防護(hù)機(jī)制。該模型堅(jiān)決避免生成涉及兒童、可識(shí)別人物面孔或受版權(quán)保護(hù)內(nèi)容(如品牌標(biāo)志)等內(nèi)容,這與 OpenAI 強(qiáng)化的圖像安全政策保持一致。這些限制不僅增強(qiáng)了用戶的使用安全性,也體現(xiàn)了在生成式 AI 應(yīng)用中負(fù)責(zé)任的設(shè)計(jì)實(shí)踐。

結(jié)論

本文介紹了GPT-ImgEval——首個(gè)全面評(píng)估GPT-4o圖像生成能力的基準(zhǔn)測(cè)試體系,涵蓋三大關(guān)鍵維度:(1) 生成質(zhì)量(通過(guò)GenEval評(píng)估);(2) 基于指令的編輯能力(通過(guò)Reason-Edit評(píng)估);(3) 理解引導(dǎo)生成能力(通過(guò)WISE評(píng)估)?;谶@些評(píng)估,我們提出基于模型的分析方法以推斷GPT-4o的底層架構(gòu),并通過(guò)詳細(xì)研究揭示其缺陷與常見(jiàn)失敗模式。本文進(jìn)一步在多輪圖像編輯任務(wù)中將GPT-4o與Gemini 2.0 Flash進(jìn)行對(duì)比,并評(píng)估GPT-4o生成圖像的檢測(cè)難度。本研究旨在提供有價(jià)值的洞見(jiàn)和標(biāo)準(zhǔn)化基準(zhǔn),以啟發(fā)未來(lái)研究、增強(qiáng)可復(fù)現(xiàn)性,并推動(dòng)圖像生成及其他領(lǐng)域的創(chuàng)新發(fā)展。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/1MiWh-xamcXn_tWzttyr-w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄