自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)

發(fā)布于 2025-3-10 10:34
瀏覽
0收藏

論文鏈接:https://arxiv.org/pdf/2503.03651 
Git鏈接:https://github.com/showlab/DoraCycle

亮點(diǎn)直擊

  • 無配對數(shù)據(jù)的領(lǐng)域適應(yīng):DoraCycle通過循環(huán)一致性學(xué)習(xí),首次實(shí)現(xiàn)了僅使用無配對數(shù)據(jù)進(jìn)行生成模型的領(lǐng)域適應(yīng),顯著降低了數(shù)據(jù)獲取成本。
  • 跨模態(tài)對齊的自監(jiān)督學(xué)習(xí):通過雙向映射和同一模態(tài)內(nèi)的損失計算,實(shí)現(xiàn)了視覺和語言之間的跨模態(tài)對齊,無需成對數(shù)據(jù)監(jiān)督。
  • 訓(xùn)練穩(wěn)定性增強(qiáng):引入EMA模型和梯度裁剪技術(shù),解決了多步推理中的梯度爆炸問題,提升了訓(xùn)練過程的穩(wěn)定性和偽數(shù)據(jù)生成的質(zhì)量。
  • 靈活的任務(wù)適應(yīng)性:DoraCycle既能處理無需成對知識的任務(wù)(如風(fēng)格化),也能有效結(jié)合少量配對數(shù)據(jù)完成需要新知識的任務(wù)(如身份生成),具有廣泛的應(yīng)用潛力。

總結(jié)速覽

解決的問題

  • 復(fù)雜領(lǐng)域適應(yīng)性問題:生成模型在適應(yīng)復(fù)雜領(lǐng)域時,通常需要大量成對的文本-圖像數(shù)據(jù),但這類數(shù)據(jù)難以獲取且成本高昂。
  • 無配對數(shù)據(jù)的利用:現(xiàn)有的生成模型難以有效利用單模態(tài)(如視覺或語言)的無配對數(shù)據(jù)進(jìn)行領(lǐng)域適應(yīng)。
  • 跨模態(tài)對齊的挑戰(zhàn):在無配對數(shù)據(jù)的情況下,如何實(shí)現(xiàn)視覺和語言之間的跨模態(tài)對齊,以支持生成模型的領(lǐng)域適應(yīng)。

提出的方案

  • DoraCycle框架:提出了一種基于無配對數(shù)據(jù)的循環(huán)一致性學(xué)習(xí)框架,通過雙向映射(文本-圖像-文本和圖像-文本-圖像)實(shí)現(xiàn)跨模態(tài)對齊。
  • 自監(jiān)督學(xué)習(xí):通過計算同一模態(tài)內(nèi)的交叉熵?fù)p失,避免了成對數(shù)據(jù)的需求,實(shí)現(xiàn)了模型的自進(jìn)化。
  • 訓(xùn)練穩(wěn)定性增強(qiáng):引入EMA(指數(shù)移動平均)模型和梯度裁剪技術(shù),提升訓(xùn)練穩(wěn)定性,避免梯度爆炸和優(yōu)化方向沖突。

應(yīng)用的技術(shù)

  • 多模態(tài)生成模型:利用預(yù)訓(xùn)練的統(tǒng)一生成模型(如視覺-語言對齊模型)進(jìn)行跨模態(tài)映射。
  • 循環(huán)一致性學(xué)習(xí):通過文本-圖像-文本(T cycle)和圖像-文本-圖像(I cycle)兩個循環(huán)路徑,實(shí)現(xiàn)無配對數(shù)據(jù)的領(lǐng)域適應(yīng)。
  • 梯度優(yōu)化技術(shù):采用梯度裁剪和EMA模型,確保訓(xùn)練過程的穩(wěn)定性和偽數(shù)據(jù)生成的質(zhì)量。

####- 達(dá)到的效果

  • 無配對數(shù)據(jù)的領(lǐng)域適應(yīng):對于風(fēng)格化等不需要成對知識的任務(wù),DoraCycle僅使用無配對數(shù)據(jù)即可有效適應(yīng)目標(biāo)領(lǐng)域。
  • 小規(guī)模配對數(shù)據(jù)的有效利用:對于需要新配對知識的任務(wù)(如特定身份生成),DoraCycle結(jié)合少量配對數(shù)據(jù)和大規(guī)模無配對數(shù)據(jù),實(shí)現(xiàn)了高效的領(lǐng)域適應(yīng)。
  • 減少對配對數(shù)據(jù)的依賴:相比現(xiàn)有方法,DoraCycle顯著減少了對成對數(shù)據(jù)的需求,同時達(dá)到了可比甚至更優(yōu)的性能。

方法

本文所提出的 DoraCycle 框架,如下圖2所示,建立在為涉及視覺和語言的多模態(tài)任務(wù)設(shè)計的統(tǒng)一生成模型之上。統(tǒng)一模型使用單個transformer來學(xué)習(xí)視覺和語言之間的雙向映射,提供了一個強(qiáng)大的骨干網(wǎng)絡(luò),能夠處理和生成不同的模態(tài)。對于描述生成,模型接收圖像 token 并預(yù)測相應(yīng)的文本 token,而對于圖像生成,它接收文本 token 并預(yù)測圖像 token。這種多功能性使得統(tǒng)一模型非常適合作為我們提出的框架的基礎(chǔ)。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

多模態(tài)循環(huán)

為了使用無配對數(shù)據(jù)適應(yīng)統(tǒng)一模型以進(jìn)行面向領(lǐng)域的適應(yīng),本文設(shè)計了兩個多模態(tài)循環(huán):圖像-文本-圖像循環(huán)(I 循環(huán))和文本-圖像-文本循環(huán)(T 循環(huán))。每個循環(huán)利用單一模態(tài)的數(shù)據(jù),使模型能夠在不依賴配對數(shù)據(jù)的情況下進(jìn)行適應(yīng)。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

通過利用這兩個循環(huán),本文框架迫使模型優(yōu)化其對圖像和文本表示的生成理解,確保輸入和輸出之間的一致性,同時有效利用無配對數(shù)據(jù)將統(tǒng)一模型適應(yīng)到目標(biāo)域。


高效訓(xùn)練:在兩個循環(huán)的中間步驟中,生成中間表示(即字幕或圖像)需要多次前向傳遞。這是因?yàn)樯蛇^程涉及多次預(yù)測下一個 token 或被掩碼的 token。通過所有這些步驟反向傳播梯度的計算成本極高。因此,我們首先使用推理模式下的模型生成中間結(jié)果作為偽配對數(shù)據(jù),然后在教師強(qiáng)制方案(teacher-forcing scheme)中將其用作前半部分循環(huán)的真實(shí)值。通過這種方式,我們將前向傳遞的次數(shù)減少到兩次,即一次用于生成中間結(jié)果,一次用于生成最終輸出,從而使整個訓(xùn)練過程更加內(nèi)存高效。


Token 可微性:由于每個循環(huán)中的中間輸出是離散的 token,無法直接傳播梯度,因此我們采用 Gumbel-Softmax 使這些 token 表示可微。

優(yōu)化穩(wěn)定性

每個循環(huán)在前向傳遞中兩次使用相同的統(tǒng)一模型,這會導(dǎo)致優(yōu)化不穩(wěn)定。為了穩(wěn)定訓(xùn)練過程,我們采用了指數(shù)移動平均(Exponential Moving Average, EMA)訓(xùn)練技術(shù)。維護(hù)一個模型的影子版本,稱為 EMA 模型,該模型使用主模型參數(shù)的指數(shù)衰減平均值進(jìn)行更新。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

在每次訓(xùn)練步驟中,EMA 版本的模型用于生成中間表示 token(例如偽圖像或文本 token),這些 token 在訓(xùn)練期間充當(dāng)偽真實(shí)值。通過使用來自更新較慢的 EMA 模型的穩(wěn)定目標(biāo),我們可以減輕優(yōu)化不穩(wěn)定的風(fēng)險。因此,主模型能夠從更一致和可靠的中間目標(biāo)中學(xué)習(xí),而不是受到訓(xùn)練早期階段波動的影響。

平衡兩個循環(huán)

T 循環(huán)往往比 I 循環(huán)收斂得更快,主要是因?yàn)槲谋緮?shù)據(jù)本質(zhì)上是單維的,并且比圖像更容易學(xué)習(xí)。這種優(yōu)化不平衡會導(dǎo)致模型的一種崩潰,即模型傾向于為圖像生成無關(guān)但自一致的描述,最終降低圖像-文本對齊能力。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

Show-o 是目前唯一完全開源的統(tǒng)一生成模型,具有完整的預(yù)訓(xùn)練權(quán)重和訓(xùn)練代碼,包括其理解和生成能力。因此,將 DoraCycle 基于Show-o 并進(jìn)行了相應(yīng)的實(shí)驗(yàn)。基礎(chǔ)模型是一個統(tǒng)一的 transformer 模型,通過預(yù)測離散的文本和視覺 token 來執(zhí)行理解和圖像生成任務(wù)。我們在注意力層的第 7 到 24 層的 Q 投影和 V 投影中插入了可訓(xùn)練的低秩適應(yīng)(LoRA)模塊。LoRA 的秩設(shè)置為 32。 設(shè)置為 0.1,以平衡兩個循環(huán)的優(yōu)化。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

面向領(lǐng)域的適應(yīng)

無配對訓(xùn)練:對于不需要強(qiáng)相關(guān)配對知識的任務(wù),DoraCycle 可以完全使用無配對數(shù)據(jù)學(xué)習(xí)目標(biāo)領(lǐng)域。例如,為了學(xué)習(xí)賽博朋克風(fēng)格,收集了 300 張賽博朋克風(fēng)格的圖像作為 I 循環(huán)的輸入,并使用基礎(chǔ)模型預(yù)訓(xùn)練數(shù)據(jù)集中的文本數(shù)據(jù)作為 T 循環(huán)的輸入,同時自動將關(guān)鍵詞“賽博朋克風(fēng)格”注入文本中,提示模型我們希望的目標(biāo)風(fēng)格。


實(shí)驗(yàn)結(jié)果如下圖 3 所示。給定相同的文本提示以生成賽博朋克風(fēng)格的圖像,圖3 (a) 顯示了未經(jīng)額外訓(xùn)練的基礎(chǔ)模型生成的圖像??梢杂^察到,基礎(chǔ)模型添加了一些賽博朋克元素,例如霓虹燈,但整體氛圍與目標(biāo)風(fēng)格不太一致。圖 3 (d) 顯示了使用 DoraCycle 訓(xùn)練的適應(yīng)模型生成的圖像,其與目標(biāo)風(fēng)格很好地契合。傳統(tǒng)的文本到圖像定制或適應(yīng)方法,例如 DreamBooth,依賴于配對數(shù)據(jù)進(jìn)行訓(xùn)練。因此,我們通過為收集的圖像添加字幕來模擬用戶創(chuàng)建的配對數(shù)據(jù),并將其分為兩組。一組僅包含 10 個配對示例,這對用戶來說是可接受的工作量,而另一組包含所有 300 張圖像的字幕,這對用戶來說是勞動密集型且不切實(shí)際的。圖 3 (b) 顯示了在 10 個配對示例上訓(xùn)練的模型生成的圖像。該模型難以生成良好的風(fēng)格化圖像,可能是因?yàn)槭覂?nèi)書架與賽博朋克風(fēng)格的結(jié)合對模型來說過于新穎,無法從有限的配對數(shù)據(jù)中很好地泛化。圖 3 (c) 顯示了在 300 個配對示例上訓(xùn)練的模型生成的圖像,其輸出效果更好。相比之下,使用 DoraCycle 訓(xùn)練的模型不需要手動添加字幕,顯著減少了用戶的工作量。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

圖 3 (e) 展示了通過 DoraCycle 訓(xùn)練的適應(yīng)模型通過圖像-文本-圖像轉(zhuǎn)換保持了語義一致性。輸入圖像被轉(zhuǎn)換為文本描述,然后重建為圖像。結(jié)果表明,適應(yīng)模型在整個多模態(tài)循環(huán)中成功捕捉并保留了原始圖像中的關(guān)鍵視覺組件。值得注意的是,角色的身份和環(huán)境的細(xì)節(jié)都得到了保留,表明在目標(biāo)領(lǐng)域中具有有效的雙向理解和生成能力。此外,新生成的圖像結(jié)合了從目標(biāo)領(lǐng)域?qū)W習(xí)到的風(fēng)格,展示了所學(xué)知識對野外圖像的泛化能力。


學(xué)習(xí)配對知識對于需要學(xué)習(xí)某些配對知識的任務(wù),例如將身份名稱與其視覺外觀關(guān)聯(lián)起來,DoraCycle 可以結(jié)合少量配對數(shù)據(jù)來學(xué)習(xí)這種關(guān)聯(lián),同時利用大量無配對數(shù)據(jù)全面學(xué)習(xí)目標(biāo)領(lǐng)域的一般特征。具體來說,在每批數(shù)據(jù)中,對于具有配對真實(shí)值的數(shù)據(jù),我們計算 token 預(yù)測損失,并將其包含在循環(huán)中,使用真實(shí)值作為偽中間生成結(jié)果,并計算循環(huán)損失。對于無配對數(shù)據(jù),我們計算無配對循環(huán)損失。


例如,當(dāng)將模型適應(yīng)到領(lǐng)域 1:《黑神話:悟空》和領(lǐng)域 2:《哆啦A夢》時,我們?yōu)槊總€獨(dú)特身份標(biāo)注 1-3 張圖像,并在字幕中指定身份名稱。對于每個領(lǐng)域,收集了 2k 張圖像(主要從在線視頻中采樣),并獨(dú)立收集了文本描述,這些描述通過 ChatGPT 進(jìn)一步擴(kuò)展到 1k。最終使用 DoraCycle 訓(xùn)練的適應(yīng)模型在文本到圖像生成和圖像到文本生成方面表現(xiàn)出色,如圖 4 所示。


在文本到圖像結(jié)果方面,使用 DoraCycle 訓(xùn)練的模型有效地生成了與目標(biāo)領(lǐng)域高度一致的圖像。在領(lǐng)域1(《黑神話:悟空》)中,生成的圖像準(zhǔn)確地描繪了領(lǐng)域特定的視覺元素,例如角色外觀的復(fù)雜細(xì)節(jié)和整體奇幻氛圍。這表明模型成功學(xué)會了從文本提示中泛化視覺特征,生成目標(biāo)領(lǐng)域內(nèi)的逼真圖像。同樣,在領(lǐng)域2(《哆啦A夢》)中,生成的圖像保留了標(biāo)志性的卡通美學(xué),并捕捉到了角色和場景的關(guān)鍵視覺細(xì)節(jié),展示了有效的領(lǐng)域適應(yīng)能力。


在圖像到文本任務(wù)中,模型在生成上下文準(zhǔn)確的描述方面表現(xiàn)良好。在領(lǐng)域1中,生成的描述提供了對角色、其屬性和背景的豐富描述,有效地反映了輸入圖像中的視覺元素。在領(lǐng)域2中,描述簡潔地描述了角色、其行為及其環(huán)境,保持了與視覺風(fēng)格的一致性。模型生成準(zhǔn)確描述的能力突顯了其對領(lǐng)域視覺組件的強(qiáng)大理解。


此外,可以觀察到模型在處理未標(biāo)注配對數(shù)據(jù)的視覺元素時的一個有趣現(xiàn)象。例如,在下圖4(w) 中,模型將銅鑼燒(一種甜豆沙餡的煎餅)描述為“甜甜圈”。這可能是由于銅鑼燒的動漫風(fēng)格表現(xiàn)形式較為新穎,基礎(chǔ)模型和無配對訓(xùn)練均未提供關(guān)于它的特定文本-視覺配對知識。另一方面,在圖4(x) 所示的示例中,我們使用特殊 token 將白貓標(biāo)注為具有配對文本和視覺數(shù)據(jù)的角色,其名稱為“<soc> 白貓 <eoc>”。有趣的是,盡管沒有為黑貓?zhí)峁┡鋵?biāo)注,模型在生成描述時仍為其預(yù)測了特殊 token “<soc> 黑貓 <eoc>”。這表明模型在學(xué)習(xí)目標(biāo)領(lǐng)域時自主將黑貓歸類為角色,表明其可能嘗試將學(xué)到的知識從一種實(shí)體泛化到類似實(shí)體。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

使用特殊 token 增強(qiáng)學(xué)習(xí)如下圖5所示,通過實(shí)驗(yàn)發(fā)現(xiàn)模型經(jīng)?;煜繕?biāo)領(lǐng)域中的多個新概念。圖5(a) 顯示了未經(jīng)訓(xùn)練的基礎(chǔ)模型生成的圖像,輸入為角色名稱。圖5(b) 顯示了訓(xùn)練后模型生成的角色。在訓(xùn)練過程中,角色名稱直接包含在文本中而未進(jìn)行特殊處理,導(dǎo)致角色之間的屬性混淆。角色名稱的 token 化長度不一也增加了學(xué)習(xí)難度。為了解決這個問題,引入了一個簡單而高效的解決方案:在角色名稱周圍添加特殊 token。引入了角色開始(<soc>)和角色結(jié)束(<eoc>)token 來包圍角色名稱,這顯著增強(qiáng)了對新概念的學(xué)習(xí)。如圖 5 (c) 所示,引入特殊 token 改善了角色與其名稱之間的對齊。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

對比實(shí)驗(yàn)

使用 Storyboard20K數(shù)據(jù)集進(jìn)行定量對比實(shí)驗(yàn)。來自同一數(shù)據(jù)源的故事板被分組形成一個領(lǐng)域,包含圖像和描述性文本。數(shù)據(jù)在三種不同設(shè)置下使用,即完全無配對、僅配對以及配對加無配對數(shù)據(jù),如下表 1 所示。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

對比方法包括 DreamBooth 和 ITIT。將 DreamBooth 實(shí)現(xiàn)為配對訓(xùn)練的基線方法,通過在統(tǒng)一模型上應(yīng)用 LoRA 微調(diào)。ITIT 的原始設(shè)計不同,其圖像和文本解碼器是分離的模型,且其代碼尚未公開。對其進(jìn)行了調(diào)整并重新實(shí)現(xiàn),以適用于我們的統(tǒng)一模型架構(gòu)。

使用自動評估和人工評估來比較不同方法的性能。對于自動評估,使用 FID 來衡量生成圖像與目標(biāo)領(lǐng)域圖像之間的分布差異,并使用 CIDEr 計算生成文本與真實(shí)值之間的誤差。對于人工評估,我們?yōu)槟P偷纳山Y(jié)果創(chuàng)建了 100 個問題,每個問題由三位不同的人工評分者評分。評分者被要求評估圖像與文本之間的對齊程度,評分范圍為 1 到 5,其中 1 表示完全不相關(guān),5 表示完全對齊。


前面表 1 中的實(shí)驗(yàn)結(jié)果表明,所提出的DoraCycle在多種數(shù)據(jù)設(shè)置下表現(xiàn)優(yōu)異。具體來說,當(dāng)結(jié)合使用配對和無配對數(shù)據(jù)時,DoraCycle 優(yōu)于 ITIT。與嚴(yán)重依賴配對數(shù)據(jù)的 DreamBooth 相比,DoraCycle 在使用相同比例的配對數(shù)據(jù)(即 10% 配對數(shù)據(jù))時表現(xiàn)更好,這表明 90% 無配對數(shù)據(jù)帶來的優(yōu)勢。雖然使用 100% 配對數(shù)據(jù)的 DreamBooth 獲得了最佳評估分?jǐn)?shù),但使用 10% 配對數(shù)據(jù)和 90% 無配對數(shù)據(jù)的 DoraCycle 的分?jǐn)?shù)與之相當(dāng)。


表1還顯示了 DoraCycle 在不同循環(huán)設(shè)置下的性能差異。結(jié)果表明,在沒有 T 循環(huán)且僅使用 I 循環(huán)的情況下,適應(yīng)模型的字幕生成能力顯著下降。相反,如果僅使用 T 循環(huán)而不使用 I 循環(huán),F(xiàn)ID 分?jǐn)?shù)顯著增加,表明生成的圖像分布與目標(biāo)分布不匹配。

消融實(shí)驗(yàn)

下表 2 顯示,從 DoraCycle 中移除關(guān)鍵組件會顯著影響性能。在沒有 EMA 的情況下,F(xiàn)ID 分?jǐn)?shù)從 25.37 增加到 27.19,表明由于訓(xùn)練穩(wěn)定性降低,圖像質(zhì)量下降。移除梯度手術(shù)(Gradient Surgery, GS)會降低 CIDEr 分?jǐn)?shù)并增加 FID,表明性能變差。這證明了減輕兩個循環(huán)優(yōu)化方向之間干擾的重要性。完整的 DoraCycle 框架,包含 EMA 和 GS,在所有指標(biāo)上表現(xiàn)最佳,證明了這些組件在實(shí)現(xiàn)更好優(yōu)化中的重要性。

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

數(shù)據(jù)集樣例

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

CVPR 2025 | 數(shù)據(jù)荒漠終結(jié)者!DoraCycle跨模態(tài)自循環(huán)算法:讓生成不再依賴配對數(shù)據(jù)-AI.x社區(qū)

結(jié)論

DoraCycle,通過多模態(tài)循環(huán)將統(tǒng)一生成模型適應(yīng)到目標(biāo)領(lǐng)域。通過利用圖像-文本-圖像和文本-圖像-文本循環(huán),DoraCycle 將學(xué)習(xí)目標(biāo)轉(zhuǎn)換為同一模態(tài),從而能夠使用無配對數(shù)據(jù)進(jìn)行有效優(yōu)化。實(shí)驗(yàn)表明,DoraCycle 可以僅使用無配對數(shù)據(jù)將統(tǒng)一模型適應(yīng)到目標(biāo)域,或在必要時結(jié)合少量配對數(shù)據(jù)以學(xué)習(xí)特定概念。結(jié)果表明,DoraCycle 在各種設(shè)置下實(shí)現(xiàn)了先進(jìn)或可比的性能。利用無配對數(shù)據(jù)拓寬了DoraCycle的應(yīng)用潛力,使其非常適合配對數(shù)據(jù)稀缺或難以收集的領(lǐng)域適應(yīng)任務(wù)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/7cVncFNGJQmkdIDO7cUN2g??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦