谷歌文生圖巔峰之作Imagen 2登場(chǎng),實(shí)測(cè)暴打DALL·E 3和Midjourney!
提問(wèn):下面這張圖,是AI生圖還是照片?
如果不是這么問(wèn),絕大多數(shù)人大概都不會(huì)想到,這居然不是一張照片。
是的,只要在谷歌最新AI生圖神器Imagen 2中輸入這樣的提示詞——
A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位32歲的年輕女性自然保護(hù)主義者,正在叢林中探險(xiǎn)。她體格健壯,一頭短卷發(fā),面帶親切的微笑
就能得到開(kāi)頭那張無(wú)比逼真寫(xiě)實(shí)、比照片還像照片的圖像了!
雖然圣誕節(jié)已經(jīng)臨近,但谷歌還在卷個(gè)不?!?hào)稱(chēng)DALL·E 3最強(qiáng)競(jìng)品的文生圖模型Imagen 2,終于重磅上線(xiàn)了。
剛用Gemini和OpenAI卷完GPT-4,立馬又放出Imagen 2來(lái)卷DALL·E 3了,2023年底的「卷王」稱(chēng)號(hào),谷歌是實(shí)至名歸。
不僅手指逼真,而且拿筷子的姿勢(shì)也很標(biāo)準(zhǔn)
可以說(shuō),Imagen 2是目前文本轉(zhuǎn)圖像技術(shù)的巔峰之作,已經(jīng)突破了AI生圖的界限。
在機(jī)器學(xué)習(xí)算法強(qiáng)大功能的加持下,Imagen 2可以將文本描述轉(zhuǎn)換為生動(dòng)清晰的高分辨率圖像。
Imagen 2最與眾不同之處在于,它能夠以驚人的準(zhǔn)確性,理解復(fù)雜抽象的概念,然后把這個(gè)概念可視化,細(xì)膩之程度令人驚嘆!
Imagen 2的核心,還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。經(jīng)過(guò)微調(diào)的Transformer模型,在文本理解和圖像合成上,都表現(xiàn)出了無(wú)與倫比的性能。
現(xiàn)在,在文生圖領(lǐng)域,谷歌又豎立了新的標(biāo)桿。
用自然語(yǔ)言就能生圖的模型,又多了一個(gè)
現(xiàn)在,除了DALL·E 3之外,我們又有了一個(gè)僅憑自然語(yǔ)言就能生圖的模型!
相比之下,Midjourney必須用復(fù)雜、專(zhuān)業(yè)的提示詞,在易使用性上已經(jīng)被兩位競(jìng)爭(zhēng)者甩出了很遠(yuǎn)。
僅憑簡(jiǎn)單文本,就能生存多樣化的復(fù)雜圖像,這類(lèi)AI生圖模型對(duì)于內(nèi)容創(chuàng)作的影響是極其深遠(yuǎn)的。
對(duì)于依賴(lài)視覺(jué)內(nèi)容的行業(yè)來(lái)說(shuō),這徹底改變了游戲規(guī)則,大大減少了傳統(tǒng)內(nèi)容制作所需的時(shí)間,內(nèi)容創(chuàng)作者可以以前所未有的速度,制作高質(zhì)量的視覺(jué)效果。
同時(shí),Imagen 2還具有無(wú)可比擬的圖像質(zhì)量和多功能性。
Imagen 2用到了谷歌最先進(jìn)的文本到圖像擴(kuò)散技術(shù),生圖質(zhì)量極高、效果逼真,而且和用戶(hù)的提示具有高度的一致性。
原因在于,它是使用訓(xùn)練數(shù)據(jù)的自然分布來(lái)生成更逼真的圖像,而非采用預(yù)先編程的樣式。
A jellyfish on a dark blue background
水母在深藍(lán)色的背景下悠然漂浮
可以看到,Imagen 2的圖像生成能力非常驚人。
無(wú)論是渲染錯(cuò)綜復(fù)雜的風(fēng)景、詳細(xì)的物體,還是奇幻的場(chǎng)景,生成的圖像都具有如此高的保真度,以至于它們可以與人類(lèi)藝術(shù)家創(chuàng)作的圖像相媲美,甚至直接超越。
Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes
一小幅油畫(huà),描繪了擺放在砧板上的橙子。陽(yáng)光穿過(guò)橙子的切片,柔和的橙色光線(xiàn)灑在砧板上。畫(huà)的背景是一塊藍(lán)白相間的布,畫(huà)面巧妙地捕捉了光的折射、反射效果,同時(shí)展示了畫(huà)家富有感情的筆觸
有網(wǎng)友表示,看到Imagen的這張橙子圖,真是讓我大吃一驚。燈光穿過(guò)橙子后的投影,和提示中描述的意境非常吻合!
有人用同樣的提示,讓DALL·E 3生成了同樣的橙子油畫(huà)圖,效果比起Imagen 3來(lái)說(shuō),的確弱了不少。
類(lèi)似的,Midjourney生成的橙子,在真實(shí)感和意境層面,也要差上一截。
詩(shī)中意境,一鍵逼真還原
以往的「文本到圖像」模型,通常是根據(jù)訓(xùn)練數(shù)據(jù)集的圖像和標(biāo)題中的詳細(xì)信息,來(lái)生成與用戶(hù)提示匹配的圖像的。
但是它們有一個(gè)bug:對(duì)于每張圖像和配對(duì)的標(biāo)題,在細(xì)節(jié)質(zhì)量和準(zhǔn)確性上可能會(huì)有很大差異。
為了幫助創(chuàng)建更高質(zhì)量和更準(zhǔn)確的圖像、更好地符合用戶(hù)的提示,Imagen 2的訓(xùn)練數(shù)據(jù)集中添加了更多描述,幫助Imagen 2學(xué)習(xí)不同的標(biāo)題風(fēng)格,并更好地理解廣泛的用戶(hù)提示。
這種圖像標(biāo)題配對(duì),就有助于Imagen 2更好地理解圖像和文字之間的關(guān)系,大大提高了它對(duì)上下文和細(xì)微差別的理解。
就比如,美國(guó)作家Phillis Wheatley《晚間贊美詩(shī)》中的一句話(huà)「溪流潺潺,鳥(niǎo)兒啁啾,空中飄蕩著它們混合的音樂(lè)」。
詩(shī)中絕美的意境,Imagen 2把要點(diǎn)全抓住了。
"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)
相比之下,Midjourney似乎對(duì)于文學(xué)描述的內(nèi)容把握還是欠缺一些,大概率會(huì)在圖中自動(dòng)添加一個(gè)人物。不過(guò)整體畫(huà)面效果還是不錯(cuò)的。
而到了DALL·E 3這里,它居然在圖像上加了幾行字,生成了一張「賀卡」?
在著名的小說(shuō)《白鯨記》中,Herman Melville曾寫(xiě)下「想象一下大海的微妙之處,最可怕的地方在于生物如何在水下滑行,卻在大多數(shù)情況下不易察覺(jué),并且詭譎地隱藏在最可愛(ài)的蔚藍(lán)色調(diào)下」。
Imagen 2也是很懂「海洋文學(xué)」的特點(diǎn)。
"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)
相比之下,Midjourney和DALL·E 3一到深海,就瞬間就克蘇魯了起來(lái)……
Midjourney
DALL·E 3
兒童文學(xué)大家Frances Hodgson Burnett所著的《秘密花園》中,對(duì)知更鳥(niǎo)有這樣一句描述:
知更鳥(niǎo)從纏繞的常春藤上飛到墻頭,張開(kāi)嘴巴,唱出了一個(gè)響亮而甜美的顫音,只是為了炫耀自己。世界上就沒(méi)有什么東西能比它更惹人喜愛(ài)了——它們幾乎總是這樣做。
快看,Imagen 2生成的這幅畫(huà),把常春藤、墻頭、唱歌等暗藏的細(xì)節(jié),悉數(shù)呈現(xiàn)了出來(lái)。
"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)
同樣的提示詞,Midjourney在真實(shí)感上還要差上幾分。
而DALL·E 3相比上面兩家,就更遜色了,尤其在植物和羽毛的細(xì)節(jié)上。
風(fēng)格復(fù)刻,隨意變換,更懂人類(lèi)美學(xué)
一直以來(lái),圖像生成飽受詬病的問(wèn)題之一,便是人物的手指生成。
這次,Imagen 2的數(shù)據(jù)集和模型進(jìn)步,在許多領(lǐng)域取得了改進(jìn)。
其中就包括渲染逼真的手部和人臉,以及保持圖像不受干擾的視覺(jué)偽影。
同時(shí),谷歌DeepMind根據(jù)人類(lèi)對(duì)光線(xiàn)、取景、曝光、清晰度等特質(zhì)的偏好,訓(xùn)練了一個(gè)專(zhuān)門(mén)的「圖像美學(xué)模型」。
每張圖像都被給予一個(gè)美學(xué)分?jǐn)?shù),這有助于調(diào)節(jié)Imagen 2在其訓(xùn)練數(shù)據(jù)集中賦予人類(lèi)偏好的圖像更多的權(quán)重。
這樣一來(lái),就提高了Imagen 2生成更高質(zhì)量圖像的能力。
使用提示「花」的AI生成的圖像,美學(xué)分?jǐn)?shù)從低(左)到高(右)
Imagen 2的擴(kuò)散技術(shù)提供了高度的靈活性,使得更容易控制和調(diào)整圖像的風(fēng)格。
通過(guò)提供參考風(fēng)格圖像并結(jié)合文本提示,可以訓(xùn)練Imagen 2生成遵循相同風(fēng)格的新圖像。
通過(guò)使用參考圖像和文本提示,Imagen 2可以更輕松地控制輸出樣式
更強(qiáng)的「修復(fù)」和「擴(kuò)圖」
此外,Imagen 2還支持圖像編輯功能,如「修復(fù)」(inpainting)和「擴(kuò)圖」(outpainting)。
通過(guò)提供參考圖像和圖像掩碼,我們可以用inpainting技術(shù)直接在原始圖像中生成新內(nèi)容。
在下面這幅原始圖中,只要輸入「綠色墻上有一個(gè)架子,架子上放著幾本書(shū)和花瓶」,對(duì)應(yīng)內(nèi)容就在原圖中生成了!
新內(nèi)容毫不突兀,完美融入原圖,渾然天成。
另外,我們還可以使用outpainting功能,給原始圖像擴(kuò)圖。
夕陽(yáng)下非洲大草原上長(zhǎng)頸鹿和斑馬的雙人大頭貼,一下子就擴(kuò)成了全身照。
全面加持企業(yè)級(jí)場(chǎng)景,logo文案一鍵生成,中文也支持
現(xiàn)在,谷歌已經(jīng)Imagen 2下放到開(kāi)發(fā)者平臺(tái)Vertex AI。
在Vertex AI平臺(tái)上,客戶(hù)可以使用直觀的工具來(lái)自定義和部署Imagen 2,享受全面管理的基礎(chǔ)設(shè)施和內(nèi)置的隱私與安全保護(hù)。
在谷歌DeepMind的技術(shù)加持下,Imagen 2在圖像質(zhì)量上實(shí)現(xiàn)了顯著提升,幫助開(kāi)發(fā)者根據(jù)特定需求創(chuàng)造圖像,其中包括:
- 根據(jù)自然語(yǔ)言的提示生成高質(zhì)量、逼真、高分辨率且精美的圖像;
- 支持多語(yǔ)言文本渲染,能夠在圖像中準(zhǔn)確添加文本內(nèi)容;
- 可以設(shè)計(jì)公司或產(chǎn)品的Logo,并將其嵌入到圖像中;
- 提供視覺(jué)問(wèn)題解答功能,可以從圖像中生成標(biāo)注,或就圖像細(xì)節(jié)提出的問(wèn)題給出具有信息性的文本回答。
高質(zhì)量圖像:借助于改進(jìn)的圖像和文本理解,以及多種創(chuàng)新的訓(xùn)練和建模技術(shù),Imagen 2能夠生成精準(zhǔn)、高品質(zhì)且逼真的圖像。
文本渲染支持:可以根據(jù)提示內(nèi)容,精準(zhǔn)地渲染出正確的文本。
Imagen 2可以在生成含有特定文字或短語(yǔ)的物體圖像時(shí),確保輸出圖像中包含正確短語(yǔ)。
Logo設(shè)計(jì):Imagen 2能為品牌、產(chǎn)品等生成多種創(chuàng)意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。
標(biāo)注和問(wèn)答:利用增強(qiáng)的圖像理解能力,Imagen 2能夠創(chuàng)建詳細(xì)的長(zhǎng)文標(biāo)注,并對(duì)圖像內(nèi)元素提出的問(wèn)題給出詳細(xì)答案。
多語(yǔ)言提示:除了英語(yǔ),Imagen 2還支持其他6種語(yǔ)言(中文、印地語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)),并計(jì)劃在2024年初增加更多語(yǔ)言。這項(xiàng)功能還包括提示與輸出之間的翻譯能力,比如,可以用西班牙語(yǔ)提示,但指定輸出為葡萄牙語(yǔ)。
圖像加水印,生成更安全
為了幫助降低文本到圖像生成技術(shù)的潛在風(fēng)險(xiǎn)和挑戰(zhàn),谷歌從設(shè)計(jì)和開(kāi)發(fā)到產(chǎn)品部署都設(shè)置了強(qiáng)大的護(hù)欄。
Imagen 2 集成了SynthID——用于加水印和識(shí)別 AI 生成內(nèi)容的尖端工具包。
這樣,Google Cloud平臺(tái)的客戶(hù)可以直接在圖像中添加數(shù)字水印,同時(shí)不會(huì)降低圖像質(zhì)量。
不過(guò),即使在對(duì)圖像進(jìn)行過(guò)濾、裁剪或使用有損壓縮方案保存后,SynthID仍然可以檢測(cè)出。
除此之外,在向所有用戶(hù)推出之前,谷歌會(huì)進(jìn)行強(qiáng)大的安全測(cè)試,以最大限度地降低傷害風(fēng)險(xiǎn)。
從一開(kāi)始,谷歌團(tuán)隊(duì)就投入對(duì)Imagen 2的數(shù)據(jù)安全訓(xùn)練,并添加了技術(shù)護(hù)欄來(lái)限制有問(wèn)題的輸出,如暴力、冒犯或色情內(nèi)容。
同時(shí),谷歌還對(duì)訓(xùn)練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出進(jìn)行安全檢查。比如正在應(yīng)用全面的安全過(guò)濾器,以避免生成名人圖像等有潛在問(wèn)題的內(nèi)容。
網(wǎng)友驚呼:真·最強(qiáng)文生圖模型來(lái)了!
Google DeepMind研究副總裁兼深度學(xué)習(xí)主管Oriol Vinyals嘗試用Imagen 2為Gemini生成徽標(biāo)。
另一位谷歌科學(xué)家用Imagen 2生成的圖像如下。
下面是一只網(wǎng)友實(shí)測(cè)生成的藍(lán)貓。
有網(wǎng)友認(rèn)為,Imagen 2是同類(lèi)產(chǎn)品中最好的。就像Gemini Ultra一樣,看手和文字就足夠了。
不過(guò),他還吐槽了谷歌不向所有人開(kāi)放產(chǎn)品的問(wèn)題。
「像往常一樣,谷歌宣布了一款大多數(shù)人無(wú)法使用的產(chǎn)品,這有什么意義?!」