自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3

發(fā)布于 2024-8-29 10:05
瀏覽
0收藏

谷歌DeepMind發(fā)布了全新文生圖模型Imagen 3,在文本語義還原、色彩搭配、文本嵌入、圖像細節(jié)、光影效果等方面相比第二代大幅度提升。


Imagen 3的評測效果也比SD3、DALL?E-3、Midjourney等知名開閉源模型更好。目前,Imagen 3已經(jīng)可以在美國地區(qū)使用,未來谷歌會持續(xù)擴大使用范圍。

論文地址:https://arxiv.org/abs/2408.07009

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

傳統(tǒng)的擴散模型通常從隨機噪聲開始,然后通過一系列迭代步驟逐步恢復圖像的真實細節(jié)。但在處理高維復雜數(shù)據(jù)、圖像質量和多樣性以及訓練穩(wěn)定性方面有一些缺點,同時開發(fā)成本也比較高,而谷歌的Imagen 3使用了潛空間擴散模型。


潛空間是指一個被壓縮的表示形式,模型可以在這個表示形式中進行操作,而不是直接在原始圖像像素上進行。使得Imagen 3 更容易處理高分辨率圖像,因為它避免了直接在像素級進行復雜的計算,而是專注于學習圖像的高級特征表示。


所以,在Imagen 3模型中,數(shù)據(jù)不再是靜態(tài)的實體,而是被視為一個動態(tài)的、隨時間演變的過程。這個過程從數(shù)據(jù)的清晰狀態(tài)開始,逐漸向混沌狀態(tài)過渡,將數(shù)據(jù)點推向一個模糊不清的潛空間。然后,模型需要逆轉這一過程,從充滿噪聲的潛空間中,逐步恢復出清晰的數(shù)據(jù)圖像。

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

簡單來說,就像一位藝術家在創(chuàng)作一幅畫,首先在畫布上隨意涂抹顏料,然后逐漸勾勒出清晰的輪廓和細節(jié)。潛空間擴散模型正是以這樣的逆過程,從混沌中尋找秩序,從噪聲中提煉出有意義的信息。


潛空間擴散模型為Imagen 3帶來了三大顯著的技術優(yōu)勢:1)極大地提升了圖像的生成質量。傳統(tǒng)模型在生成高分辨率圖像時,往往難以平衡圖像的細節(jié)和整體的一致性。而Imagen 3通過潛空間的逆向過程,能夠在保持圖像細節(jié)的同時,生成高分辨率、高清晰度的圖像。


2)潛空間擴散模型在處理復雜文本提示時表現(xiàn)出了卓越的能力。不僅能夠理解文本的基本含義,還能夠捕捉到文本中隱含的細微差別和深層含義,從而生成與文本描述高度一致的圖像。


3)潛空間擴散模型的逆向生成過程為模型提供了更多的創(chuàng)新空間。在逆擴散過程中,模型可以探索不同的圖像生成路徑,從而生成出更加多樣化和具有創(chuàng)新性的圖像。這種創(chuàng)新性不僅體現(xiàn)在圖像的多樣性上,還體現(xiàn)在模型能夠根據(jù)文本描述創(chuàng)造出全新的視覺內容。

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

訓練過程方面,Imagen 3在大規(guī)模且豐富的數(shù)據(jù)集上進行了預訓練,使得模型能夠學習到圖像內容和文本描述之間的復雜關聯(lián)。隨后,模型通過多階段的擴散過程,學習如何在潛空間中表示這些圖像和文本,包括學習如何將圖像和文本映射到一個共同的潛在空間,并在引入噪聲后,如何將數(shù)據(jù)點從清晰狀態(tài)轉變?yōu)槟:隣顟B(tài),最終在逆向過程中從噪聲中恢復出清晰的圖像。

以下是Imagen 3生成的圖片欣賞。

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

為了評估 Imagen 3 的性能,團隊將其與其他先進的模型進行了對比,包括 Imagen 2、DALL?E-3、Midjourney v6、SD3和 Stable Diffusion XL 1.0。通過廣泛的人類評估和基準測試評估,Imagen 3 在多個方面展現(xiàn)出了卓越的性能。


例如,在 GenAI - Bench 數(shù)據(jù)集上,Imagen 3 明顯比 DALL?E 3、Midjourney v6、SD3和SDXL 1等模型更受用戶青睞。

谷歌發(fā)布Imagen 3,超過SD3、DALL?E-3-AI.x社區(qū)

在提示 - 圖像對齊方面,Imagen 3 表現(xiàn)出了極強的能力,能夠準確地將輸入的文本提示轉化為相應的圖像內容。與DALL?E-3等他模型相比,對提示的理解更為精準,生成的圖像能夠更緊密地貼合提示的意圖,無論是對于簡單明了的提示,還是復雜詳細的提示,Imagen 3 都能展現(xiàn)出較強的理解和生成能力。


本文轉自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/AiTUnbsWOIwdGdt8wFXQrQ??

標簽
收藏
回復
舉報
回復
相關推薦