自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法! 精華

發(fā)布于 2025-4-15 09:38
瀏覽
0收藏

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.18775 Git鏈接:https://github.com/Shilin-LU/VINE

亮點(diǎn)直擊

  • 提出了W-Bench,這是首個(gè)綜合性基準(zhǔn)測試,旨在評(píng)估11 種代表性水印模型在多種圖像編輯方法下的表現(xiàn):圖像再生、全局編輯、局部編輯和圖像到視頻生成。
  • 該評(píng)估涵蓋了7種廣泛使用的編輯模型和算法,并表明當(dāng)前的水印模型在面對(duì)這些編輯時(shí)表現(xiàn)脆弱。
  • 圖像編輯主要會(huì)去除高頻波段的水印信息,而低頻波段的水印受影響較小。這一現(xiàn)象在某些模糊失真(blurring distortion)中同樣存在。因此,這些失真可以作為替代攻擊手段,以規(guī)避訓(xùn)練時(shí)直接使用 T2I 模型的挑戰(zhàn),并增強(qiáng)水印的魯棒性。
  • 將水印編碼器視為條件生成模型,并引入兩種技術(shù)來適配SDXL-Turbo(一種預(yù)訓(xùn)練的單步文生圖模型),使其適用于水印任務(wù)。這一強(qiáng)大的生成先驗(yàn)不僅提升了水印圖像的感知質(zhì)量,還增強(qiáng)了其對(duì)各種圖像編輯的魯棒性。實(shí)驗(yàn)結(jié)果表明,本文的模型VINE在多種圖像編輯方法下均保持魯棒性,同時(shí)維持高圖像質(zhì)量,優(yōu)于現(xiàn)有水印模型。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

W-Bench 評(píng)估程序的流程圖,水印表現(xiàn)

總結(jié)速覽

解決的問題

當(dāng)前圖像水印技術(shù)面臨大型文本到圖像(T2I)模型支持的先進(jìn)圖像編輯技術(shù)的威脅,這些技術(shù)會(huì)在編輯過程中破壞嵌入的水印,嚴(yán)重挑戰(zhàn)版權(quán)保護(hù)的有效性?,F(xiàn)有水印方法在應(yīng)對(duì)圖像再生、全局編輯、局部編輯及圖像到視頻生成等多樣化編輯操作時(shí)表現(xiàn)不佳,導(dǎo)致水印難以檢測。

提出的方案

  • W-Bench基準(zhǔn):首個(gè)全面評(píng)估水印方法魯棒性的基準(zhǔn),涵蓋四類圖像編輯技術(shù)(圖像再生、全局/局部編輯、圖像到視頻生成),并對(duì)11種代表性水印方法進(jìn)行測試。
  • VINE水印方法
  • 頻率特性分析:通過分析圖像編輯的頻率特性,發(fā)現(xiàn)其與模糊失真(如像素化、散焦模糊)具有相似的高頻模式衰減特性,遂將模糊失真作為訓(xùn)練中的替代攻擊以提升魯棒性。
  • 預(yù)訓(xùn)練擴(kuò)散模型適配:基于SDXL-Turbo大模型構(gòu)建水印編碼器,利用其強(qiáng)大的生成先驗(yàn)實(shí)現(xiàn)更隱蔽且魯棒的水印嵌入。

應(yīng)用的技術(shù)

  • 頻率域分析:識(shí)別圖像編輯與模糊失真在頻域的共性,指導(dǎo)噪聲層設(shè)計(jì)。
  • 生成模型適配:將SDXL-Turbo擴(kuò)散模型遷移至水印任務(wù),通過條件生成實(shí)現(xiàn)高質(zhì)量水印嵌入。
  • 替代攻擊訓(xùn)練:在訓(xùn)練階段引入多種模糊失真模擬編輯攻擊,避免直接反向傳播T2I模型的內(nèi)存問題。

達(dá)到的效果

  1. 魯棒性提升:VINE在W-Bench測試中顯著優(yōu)于現(xiàn)有方法,能抵抗多種編輯操作(如Instruct-Pix2Pix全局編輯、ControlNet局部修改),水印提取成功率更高。
  2. 圖像質(zhì)量保持:結(jié)合SDXL-Turbo的生成能力,水印圖像在PSNR、SSIM等指標(biāo)上表現(xiàn)優(yōu)異,平衡了隱蔽性與魯棒性。
  3. 基準(zhǔn)貢獻(xiàn):W-Bench為水印研究提供標(biāo)準(zhǔn)化評(píng)估框架,揭示現(xiàn)有方法在T2I時(shí)代的技術(shù)短板。

方法

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

圖像編輯的頻率特性

為開發(fā)抗圖像編輯的魯棒水印模型,直接方法是在訓(xùn)練時(shí)將圖像編輯模型集成到編碼器與解碼器之間的噪聲層中。然而,主流圖像編輯方法基于擴(kuò)散模型,通常需多步采樣生成編輯后圖像,這會(huì)導(dǎo)致在去噪過程中反向傳播時(shí)出現(xiàn)內(nèi)存問題。替代方法(如梯度截?cái)啵┬Ч患?,而直通估?jì)器在從頭訓(xùn)練時(shí)難以收斂。因此,尋求訓(xùn)練中的替代攻擊手段。


我們首先分析圖像編輯方法如何影響圖像頻譜。在低頻、中頻和高頻波段分別插入對(duì)稱圖案進(jìn)行三組實(shí)驗(yàn)。下圖2展示了低頻波段圖案的分析流程:

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

下圖3表明,圖像編輯方法通常會(huì)去除中高頻波段圖案,而低頻圖案相對(duì)不受影響。這是因?yàn)門2I模型傾向于捕捉圖像整體語義(低頻成分)以對(duì)齊文本提示,導(dǎo)致高頻細(xì)節(jié)在生成過程中被平滑。因此,魯棒水印模型需學(xué)會(huì)將信息嵌入低頻波段。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

為尋找有效替代攻擊,我們探索與圖像編輯相似的圖像失真方法T(.) 。如上圖3所示,某些模糊失真(如像素化和散焦模糊)與圖像編輯具有相似趨勢,而JPEG壓縮和飽和度調(diào)整則無此特性。由于模糊失真計(jì)算高效,我們將其按不同強(qiáng)度納入訓(xùn)練噪聲層,迫使模型在低頻波段嵌入信息。如下表2的消融實(shí)驗(yàn)所示,此舉顯著提升了抗編輯魯棒性。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

噪聲層包含的完整失真集包括:

  • 傳輸退化對(duì)抗:飽和度、對(duì)比度、亮度調(diào)整、JPEG壓縮、高斯噪聲、散粒噪聲、脈沖噪聲、斑點(diǎn)噪聲;

水印編碼的生成先驗(yàn)

盡管在噪聲層中引入圖像畸變可以增強(qiáng)對(duì)抗圖像編輯的魯棒性,但這種改進(jìn)是以犧牲水印圖像質(zhì)量為代價(jià)的,而圖像質(zhì)量受限于水印編碼器的能力。水印編碼器可視為條件生成模型,其條件不僅包含水印信息,還包含完整圖像細(xì)節(jié)(而非深度圖、Canny邊緣或涂鴉等簡化表征)。假設(shè)強(qiáng)大的生成先驗(yàn)?zāi)軌蛞愿[蔽的方式嵌入信息,同時(shí)提升魯棒性。因此,我們嘗試將大規(guī)模文生圖(T2I)模型改造為水印編碼器?,F(xiàn)有大規(guī)模T2I模型分為兩類:多步生成與單步生成。多步模型會(huì)導(dǎo)致水印提取損失的反向傳播過程復(fù)雜化,且推理速度緩慢,故選用單步預(yù)訓(xùn)練模型SDXL-Turbo。


要將SDXL-Turbo轉(zhuǎn)化為水印編碼器,關(guān)鍵在于有效融合輸入圖像與水印信息。擴(kuò)散模型中常用的條件控制策略是添加適配器分支。但單步生成模型的UNet輸入——噪聲圖會(huì)直接決定最終圖像布局,這與多步擴(kuò)散模型逐步構(gòu)建圖像布局的特性截然不同。在單步模型中添加額外條件分支會(huì)導(dǎo)致UNet同時(shí)接收兩組表征不同結(jié)構(gòu)的殘差特征,這不僅大幅增加訓(xùn)練難度(如上表2消融實(shí)驗(yàn)所示),還會(huì)導(dǎo)致性能下降。


如下圖4所示,采用條件適配器來融合輸入圖像與水印信息(結(jié)構(gòu)詳見下圖11),再將融合數(shù)據(jù)輸入VAE編碼器獲取潛在特征,最后通過UNet和VAE解碼器生成水印圖像。我們也嘗試通過文本提示輸入水印并微調(diào)文本編碼器,但該方法無法收斂,因此訓(xùn)練時(shí)將文本提示設(shè)為空值。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

盡管SDXL-Turbo的VAE通常表現(xiàn)良好,但其架構(gòu)并不完全適配水印任務(wù)。標(biāo)準(zhǔn)VAE需要在重建能力與壓縮能力之間取得平衡,因此會(huì)犧牲部分重建精度以獲得更平滑的潛在空間和更好的壓縮性。但在水印任務(wù)中,重建能力對(duì)保證水印圖像與輸入圖像的視覺一致性至關(guān)重要。為此,在VAE編碼器與解碼器之間添加跳躍連接(圖4):在編碼器每個(gè)下采樣塊后提取四組中間激活值,通過零卷積層傳遞至解碼器對(duì)應(yīng)的上采樣塊。如表2所示,這一改進(jìn)顯著提升了水印圖像的視覺保真度。水印解碼采用ConvNeXt-B作為解碼器,并添加全連接層輸出100位水印信息。

目標(biāo)函數(shù)與訓(xùn)練策略

目標(biāo)函數(shù)采用標(biāo)準(zhǔn)訓(xùn)練方案,平衡水印圖像質(zhì)量與各種圖像操作下的水印提取效果??倱p失函數(shù)為:

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

分辨率縮放?,F(xiàn)有水印模型通常采用固定輸入分辨率訓(xùn)練,導(dǎo)致測試時(shí)僅能處理固定分辨率輸入。但實(shí)際應(yīng)用中,支持原始分辨率水印對(duì)保持圖像質(zhì)量至關(guān)重要。Bui等人提出一種方法,可使任意水印模型適配不同分辨率,且不損害水印圖像質(zhì)量與固有魯棒性。實(shí)驗(yàn)中,我們對(duì)所有方法應(yīng)用該分辨率縮放技術(shù),使其統(tǒng)一在512×512分辨率下運(yùn)行(該分辨率與圖像編輯模型兼容)。

實(shí)驗(yàn)

在W-Bench中,本文評(píng)估了11種代表性水印模型對(duì)多種圖像編輯方法的魯棒性,包括圖像再生、全局編輯、局部編輯和圖像到視頻生成。

圖像編輯方法

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

全局和局部編輯。盡管全局編輯通常涉及風(fēng)格化,也考慮僅由文本提示引導(dǎo)的編輯方法。在這些情況下,無論請(qǐng)求的編輯是添加、替換或移除對(duì)象,改變動(dòng)作,更改顏色,修改文本或圖案,還是調(diào)整對(duì)象數(shù)量,經(jīng)常會(huì)出現(xiàn)非預(yù)期的背景變化。盡管編輯后的背景在感知上通常與原始背景相似,但這些非預(yù)期的改變可能會(huì)損害嵌入的水印。相比之下,局部編輯指的是使用區(qū)域掩碼作為輸入的編輯模型,確保編輯圖像中掩碼外的區(qū)域保持不變。本文采用Instruct-Pix2Pix、MagicBrush和UltraEdit進(jìn)行全局編輯,而ControlNet-Inpainting和UltraEdit用于局部編輯。值得注意的是,UltraEdit可以接受區(qū)域掩碼或不使用掩碼運(yùn)行,這使得我們可以將該模型用于全局和局部編輯。我們使用每個(gè)模型的默認(rèn)采樣器,并執(zhí)行50個(gè)采樣步驟來生成編輯后的圖像。全局編輯的難度由文本提示的無分類器引導(dǎo)尺度控制,范圍為5到9,而圖像引導(dǎo)固定為1.5。對(duì)于局部編輯,難度由編輯區(qū)域占整個(gè)圖像的百分比(即區(qū)域掩碼的大?。Q定,區(qū)間設(shè)置為10-20%、20-30%、30-40%、40-50%和50-60%。在所有局部編輯的情況下,圖像和文本引導(dǎo)值分別固定為1.5和7.5。


圖像到視頻生成。在實(shí)驗(yàn)中,使用SVD從單張圖像生成視頻。本文評(píng)估水印是否在生成的視頻幀中仍可檢測到。由于初始幀與輸入圖像非常相似,從第5幀開始分析,直到第19幀,每隔兩幀選擇一幀。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。本文使用OpenImage數(shù)據(jù)集以256×256分辨率訓(xùn)練VINE。訓(xùn)練細(xì)節(jié)見附錄F。為評(píng)估,本文從UltraEdit數(shù)據(jù)集隨機(jī)采樣10,000個(gè)實(shí)例,每個(gè)實(shí)例包含源圖像、編輯提示和區(qū)域掩碼。UltraEdit數(shù)據(jù)集中的圖像來自COCO、Flickr和ShareGPT4V等數(shù)據(jù)集。這10,000個(gè)樣本中,1,000個(gè)用于隨機(jī)再生,1,000個(gè)用于確定性再生,1,000個(gè)用于全局編輯。對(duì)于局部編輯,指定5,000個(gè)樣本,分為五組,每組1,000張圖像,分別對(duì)應(yīng)10-20%、20-30%、30-40%、40-50%和50-60%的圖像區(qū)域掩碼大小。此外,我們還包含1,000個(gè)樣本用于圖像到視頻生成,1,000個(gè)用于測試傳統(tǒng)失真,從而完成整個(gè)評(píng)估集。


基線方法。本文將VINE與11種水印基線方法進(jìn)行比較,均使用其官方發(fā)布的檢查點(diǎn)。這些基線包括MBRS、CIN、PIMoG、RivaGAN、SepMark、TrustMark、DWTDCT、DWTDCTSVD、SSL、StegaStamp和EditGuard。盡管基線方法在不同固定分辨率下訓(xùn)練,但應(yīng)用分辨率縮放將其統(tǒng)一標(biāo)準(zhǔn)化為512×512分辨率。


評(píng)估指標(biāo)。本文使用PSNR、SSIM、LPIPS和FID等標(biāo)準(zhǔn)指標(biāo)評(píng)估水印模型的不可感知性。對(duì)于水印提取,必須嚴(yán)格控制誤報(bào)率(FPR),因?yàn)閷⒎撬D像錯(cuò)誤標(biāo)記為水印圖像可能有害——這一關(guān)注點(diǎn)在過去研究中常被忽視。無論是高比特準(zhǔn)確率還是AUROC單獨(dú)都不能保證在低FPR下獲得高真陽性率(TPR)。因此,本文主要關(guān)注TPR@0.1%FPR和TPR@1%FPR作為主要指標(biāo)。相應(yīng)地,水印圖像和原始圖像都被輸入水印解碼器進(jìn)行評(píng)估。本文還提供比特準(zhǔn)確率和AUROC作為參考。請(qǐng)注意,所有報(bào)告的基線比特準(zhǔn)確率均未包含BCH(Bose & Ray-Chaudhuri,1960)等糾錯(cuò)方法,這些方法可應(yīng)用于所有水印模型。

基準(zhǔn)測試結(jié)果與分析

下表1總結(jié)了整體評(píng)估結(jié)果。如上所述,以TPR@0.1%FPR作為主要指標(biāo),下圖5中提供了其他補(bǔ)充指標(biāo)。每個(gè)報(bào)告的TPR@0.1%FPR值是m×1,000張圖像的平均結(jié)果,其中m代表特定圖像編輯任務(wù)的難度級(jí)別數(shù)量。質(zhì)量指標(biāo)——PSNR、SSIM、LPIPS和FID——通過計(jì)算每對(duì)水印圖像與輸入圖像的差異后,在所有10,000對(duì)圖像上取平均值得出。MBRS和StegaStamp在圖像再生和局部編輯任務(wù)中表現(xiàn)良好,但其圖像質(zhì)量較低。此外,MBRS的編碼容量僅限30比特。雖然SepMark、PIMoG和TrustMark在圖像質(zhì)量與檢測準(zhǔn)確率之間取得了更好平衡,但其檢測準(zhǔn)確率仍不理想。相比之下,本文的方法VINE-B和VINE-R實(shí)現(xiàn)了最佳權(quán)衡:VINE-B在圖像編輯下提供更優(yōu)的圖像質(zhì)量和略低的檢測準(zhǔn)確率,而VINE-R通過犧牲部分圖像質(zhì)量獲得更強(qiáng)魯棒性。EditGuard并非針對(duì)抗圖像編輯的魯棒水印設(shè)計(jì)(其訓(xùn)練采用輕度退化),而是提供篡改定位功能以識(shí)別編輯區(qū)域。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

定性對(duì)比

圖5展示了不同圖像編輯方法在各難度級(jí)別下的水印性能。圖中顯示了對(duì)代表性編輯模型的評(píng)估結(jié)果,如下圖18。對(duì)于圖像再生,VINE-R和MBRS在各難度級(jí)別均保持較高TPR@0.1%FPR;VINE-B、StegaStamp和PIMoG在輕微擾動(dòng)下表現(xiàn)良好。需注意大噪聲步長的隨機(jī)再生會(huì)顯著改變圖像,如下圖12,13。雖然SSL比TrustMark具有更高比特準(zhǔn)確率和AUROC,但其TPR@0.1%FPR較低。進(jìn)一步研究發(fā)現(xiàn)SSL存在高誤報(bào)率,對(duì)無水印圖像常產(chǎn)生超過0.7的比特準(zhǔn)確率,因此單靠比特準(zhǔn)確率和AUROC不足以評(píng)估水印性能。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

在全局編輯和局部編輯任務(wù)中,VINE-B、VINE-R和StegaStamp在不同無分類器引導(dǎo)尺度下均實(shí)現(xiàn)較高TPR@0.1%FPR。值得注意的是,本文也將UltraEdit用于全局編輯——相比instruct-Pix2Pix和MagicBrush,它能更好地對(duì)齊編輯圖像與編輯指令(編輯模型的定量分析見下表4,5,圖14,15)。但如上圖18(b)所示,在局部編輯中表現(xiàn)良好的方法,當(dāng)應(yīng)用于同一模型的全局編輯時(shí)效果欠佳,這表明全局編輯對(duì)水印的破壞更顯著。圖像到視頻生成雖非傳統(tǒng)圖像編輯,但我們關(guān)注水印能否在生成幀中持續(xù)存在。如圖18(e)所示,整體檢測率不高。通過頻域分析發(fā)現(xiàn),該過程會(huì)顯著降低所有頻段模式的強(qiáng)度(使其不可被人眼察覺),我們推斷這是因?yàn)樯傻囊曨l幀會(huì)隨物體或相機(jī)移動(dòng)而改變圖像布局。這種情況下,水印模式的強(qiáng)度需大幅提升,至少應(yīng)超過圖7所示水平。

ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)!水印技術(shù)重大突破:VINE模型全面碾壓舊方法!-AI.x社區(qū)

消融實(shí)驗(yàn)

本節(jié)通過一系列消融實(shí)驗(yàn)(前表2)展示了本文設(shè)計(jì)方案的有效性。從配置 A 開始,這是一個(gè)基線模型,使用一個(gè)簡單的 UNet 作為水印編碼器,并僅包含常見擾動(dòng)。在此基礎(chǔ)上,配置 B 在噪聲層中引入了模糊擾動(dòng),顯著增強(qiáng)了對(duì)圖像編輯的魯棒性,但犧牲了一定的圖像質(zhì)量。配置 C 對(duì)配置 B 進(jìn)行了進(jìn)一步優(yōu)化,使用直通估計(jì)器(straight-through estimator)結(jié)合 Instruct-Pix2Pix 進(jìn)行微調(diào),進(jìn)一步提升了魯棒性,但圖像質(zhì)量略有下降。


配置 D 用預(yù)訓(xùn)練的 SDXL-Turbo 替代了 UNet 主干,并通過 ControlNet整合了圖像與水印條件,提升了魯棒性,但由于額外分支引入的沖突,圖像質(zhì)量下降。配置 E 將 ControlNet 替換為我們提出的條件適配器(condition adaptor),在保持配置 D 的魯棒性的同時(shí),將圖像質(zhì)量恢復(fù)到了與配置 B 相當(dāng)?shù)乃健?/p>


配置 F(VINE-B)在配置 E 的基礎(chǔ)上引入了跳躍連接(skip connections)和零卷積層(zero-convolution layers),進(jìn)一步提升了圖像質(zhì)量和魯棒性。配置 G(VINE-R)使用直通估計(jì)器結(jié)合 Instruct-Pix2Pix 對(duì)配置 F 進(jìn)行微調(diào),增強(qiáng)了魯棒性但犧牲了一部分圖像質(zhì)量。值得注意的是,與配置 C 相比,配置 G 借助更大的模型和強(qiáng)大的生成先驗(yàn),不僅在圖像質(zhì)量上有了顯著提升,在魯棒性方面也有了小幅改進(jìn)。


最后,配置 H 在保留配置 G 的所有設(shè)置的前提下,使用隨機(jī)初始化的權(quán)重進(jìn)行訓(xùn)練,而非預(yù)訓(xùn)練模型,導(dǎo)致圖像質(zhì)量(尤其是在 FID 指標(biāo)上)下降,但魯棒性沒有變化。

總結(jié)

本研究提出了W-Bench,這是第一個(gè)整合四種基于大規(guī)模生成模型的圖像編輯方式的全面評(píng)估基準(zhǔn),用于評(píng)估水印模型的魯棒性。選取了 11 種具有代表性的水印方法,并在 W-Bench 上進(jìn)行了測試。展示了圖像編輯如何普遍影響圖像的傅里葉頻譜,并在訓(xùn)練過程中識(shí)別出一種高效的替代方法來模擬這些影響。


提出的模型 VINE 在面對(duì)各種圖像編輯技術(shù)時(shí)展現(xiàn)出卓越的水印表現(xiàn),優(yōu)于現(xiàn)有方法,在圖像質(zhì)量和魯棒性方面都取得了領(lǐng)先。這些結(jié)果表明,單步預(yù)訓(xùn)練模型可以作為強(qiáng)大且通用的水印主干,同時(shí),強(qiáng)大的生成先驗(yàn)有助于以更隱蔽且更魯棒的方式嵌入信息。

局限性:雖然本文的方法在常見的由生成模型驅(qū)動(dòng)的圖像編輯任務(wù)中表現(xiàn)優(yōu)異,但在圖像轉(zhuǎn)視頻(I2V)生成方面的有效性仍有限。此外,本文的模型相較于基線模型更大,因此需要更多的內(nèi)存,推理速度也略慢(詳見下表7)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/4-TYvUM8znqBbAQmuguHjQ??


標(biāo)簽
已于2025-4-15 09:39:46修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦