Google Imagen 3 ——它會(huì)是最強(qiáng)的 AI 圖像生成模型嗎?
在 Google I/O 2024 宣布 5 個(gè)月后,Google 迄今為止功能最強(qiáng)的 AI 圖像生成器 Imagen 3,終于在 Gemini 平臺(tái)上與大家見(jiàn)面。
“Imagen 3 是我們質(zhì)量最高的文本生成圖像模型,能生成更細(xì)致的細(xì)節(jié)、更豐富的光影效果,并顯著減少雜亂偽影?!?nbsp;——Google
這次更新最重要的改進(jìn)之一,是模型對(duì)提示詞(Prompt)的理解能力更強(qiáng)。不僅能處理更長(zhǎng)、更復(fù)雜的描述,還能呈現(xiàn)多樣化風(fēng)格,并捕捉更多細(xì)微細(xì)節(jié)。
什么是 Imagen 3?
Imagen 3 是 Google 最新、最高質(zhì)量的文本生成圖像模型,它具備:
- 更精細(xì)的細(xì)節(jié):輸出中光影層次更豐富,干擾偽影更少
- 自然語(yǔ)言支持:對(duì)日常語(yǔ)言描述的場(chǎng)景,更易生成符合預(yù)期的圖像
- 多種風(fēng)格:從超寫實(shí)風(fēng)光到油畫、黏土動(dòng)畫等多種視覺(jué)效果
- 更好的文本渲染:在圖像中生成文字時(shí),不再像其他模型那樣容易出錯(cuò)
Google 一向重視安全性。Imagen 3 在數(shù)據(jù)與模型開發(fā)過(guò)程中,采用了嚴(yán)格的篩選與標(biāo)注來(lái)減少有害內(nèi)容,同時(shí)也能降低不當(dāng)輸出的風(fēng)險(xiǎn)。
如何體驗(yàn) Imagen 3
可以通過(guò) Google 的 Gemini 聊天機(jī)器人來(lái)試用,登錄后輸入你想生成的描述即可。
注意:要選擇 “Gemini Advanced” 作為語(yǔ)言模型。如果看不到該選項(xiàng),說(shuō)明需要升級(jí)至付費(fèi)賬號(hào)。
image.png
例子
Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow
提示詞:
三位女性并肩而立,笑容滿面。其中一人略微虛化在前景,身后夕陽(yáng)西下,鏡頭出現(xiàn)鏡頭光暈,色調(diào)溫暖
image.png
生成的圖像非常逼真。鏡頭光暈、環(huán)境光線都能準(zhǔn)確呈現(xiàn),人物神態(tài)也很自然。
下載:模型默認(rèn)顯示的預(yù)覽圖是 512×512,右上角可點(diǎn)擊“Download full size”下載 2048×2048 的完整版(JFIF 格式)。
image.png
如果結(jié)果與你想要的效果不符,可以在提示詞中添加更多細(xì)節(jié)。描述越具體,Imagen 3 才能更好契合你的期望。
一些示例
1. 生成編織玩偶
Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background
提示詞:
大象毛線玩偶漫步在稀樹草原的照片,背景模糊
image.png
Imagen 3 呈現(xiàn)了非常細(xì)膩的針織紋理,背景虛化效果也很接近專業(yè)攝影的水準(zhǔn)。
2. 生成文字
Prompt: Word “l(fā)ight” made from various colorful feathers, black background
提示詞:
在黑色背景上,用各色羽毛拼成單詞 “l(fā)ight”
文字渲染一直是許多生成模型的短板,但 Imagen 3 在該示例中文字非常清晰,羽毛細(xì)節(jié)也沒(méi)被扭曲。
image.png
3. 更長(zhǎng)的文字
Prompt: Word “Google’s Imagen 3 is amazing!” made from various colorful stones, background are gray stones
提示詞:
用彩色石頭拼寫 “Google’s Imagen 3 is amazing!” ,背景是灰色石頭
圖片
雖然需求更復(fù)雜,模型仍然清晰呈現(xiàn)整句英文,不同顏色的石頭字母與灰色背景區(qū)分明顯。
現(xiàn)存局限:缺少圖像編輯能力
在 Gemini 上使用 Imagen 3 時(shí),目前不能自由調(diào)節(jié)分辨率或畫幅比例,也不支持風(fēng)格化濾鏡、局部修補(bǔ)(inpainting/outpainting)等功能。所有圖都是 1:1 方形。如果你更需要精細(xì)調(diào)整,Midjourney 或 Flux Labs 等平臺(tái)可能更靈活。
與 Midjourney、Flux 等對(duì)比
很多人關(guān)心 Imagen 3 與其他熱門模型(如 Midjourney、Dall·E 3、Flux)誰(shuí)更勝一籌。從測(cè)試來(lái)看,圖像質(zhì)量和對(duì)提示詞的匹配度都很高,很難說(shuō)誰(shuí)是絕對(duì)贏家。
Prompt: photo of a smiling energetic positive mood woman laying in the sofa and reading book, realistic, photo made on iphone 11
提示:一位面帶微笑、精力充沛、心情積極向上的女士躺在沙發(fā)上看書的照片,寫實(shí),照片由 iPhone 11 制作
圖片
Prompt: in the style of Anthony Burrill, party, portrait of british shorthair blowing bubble gum, white background
提示:安東尼-伯里爾風(fēng)格,派對(duì),吹泡泡糖的英國(guó)短毛貓肖像,白色背景
圖片
Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying “Imagen 3”
提示:帶有 VSCO 濾鏡的寶麗來(lái)照片,1990 年,美女,夜晚,閃光燈照片,金發(fā),可愛(ài),年輕的臉,美麗的陰影,熱帶植物,城市服裝,公寓內(nèi),單反相機(jī),拿著一個(gè)用圓珠筆寫在筆記本上的牌子,上面寫著 "Imagen 3"。
圖片
總結(jié)
雖然外界對(duì) Imagen 3 抱有極高期待,但實(shí)際使用下來(lái),既有驚艷的地方,也有些遺憾。Google 將它集成在 Gemini 等平臺(tái),但還沒(méi)有一個(gè)專門的網(wǎng)站供大家深度使用或測(cè)試,這在某種程度上限制了它的普及度和可控度。
但從圖像質(zhì)量上看,Imagen 3 對(duì)細(xì)節(jié)與文字渲染的能力確實(shí)有長(zhǎng)足進(jìn)步。未來(lái)若能開放更多編輯功能(如不同分辨率、風(fēng)格轉(zhuǎn)換、inpainting 等),它或許能在 AI 繪圖界占據(jù)更顯著位置。
對(duì)于開發(fā)者,目前僅在早期訪問(wèn)階段,可以通過(guò) Vertex AI 或 Test Kitchen 試用,也可跟著官方指引使用 Python 調(diào)用 API 生成圖像。
Imagen 3 能否稱得上“最強(qiáng)”?
就圖像質(zhì)量和自然語(yǔ)言理解而言,它確實(shí)走在前列。然而,功能限制和可用性方面還留有遺憾,還不足以全面超越所有對(duì)手。隨著后續(xù)版本和更多功能開放,或許 Imagen 能更上一層樓,屆時(shí)我們?cè)賮?lái)評(píng)判也不遲。