自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌文生圖巔峰之作Imagen 2登場(chǎng),實(shí)測(cè)暴打DALL·E 3和Midjourney!

人工智能 新聞
卷瘋了卷瘋了,谷歌剛剛放出了文生圖AI模型的巔峰之作Imagen 2,實(shí)測(cè)效果逼真細(xì)膩,生成的美女圖仿佛真人照片,對(duì)于提示的還原程度已經(jīng)打敗了DALL·E 3和Midjourney!最強(qiáng)文生圖大模型這是要易主了?

提問(wèn):下面這張圖,是AI生圖還是照片?

圖片

如果不是這么問(wèn),絕大多數(shù)人大概都不會(huì)想到,這居然不是一張照片。

是的,只要在谷歌最新AI生圖神器Imagen 2中輸入這樣的提示詞——

A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile

一位32歲的年輕女性自然保護(hù)主義者,正在叢林中探險(xiǎn)。她體格健壯,一頭短卷發(fā),面帶親切的微笑

就能得到開(kāi)頭那張無(wú)比逼真寫(xiě)實(shí)、比照片還像照片的圖像了!

雖然圣誕節(jié)已經(jīng)臨近,但谷歌還在卷個(gè)不?!?hào)稱(chēng)DALL·E 3最強(qiáng)競(jìng)品的文生圖模型Imagen 2,終于重磅上線(xiàn)了。

剛用Gemini和OpenAI卷完GPT-4,立馬又放出Imagen 2來(lái)卷DALL·E 3了,2023年底的「卷王」稱(chēng)號(hào),谷歌是實(shí)至名歸。

不僅手指逼真,而且拿筷子的姿勢(shì)也很標(biāo)準(zhǔn)

可以說(shuō),Imagen 2是目前文本轉(zhuǎn)圖像技術(shù)的巔峰之作,已經(jīng)突破了AI生圖的界限。

在機(jī)器學(xué)習(xí)算法強(qiáng)大功能的加持下,Imagen 2可以將文本描述轉(zhuǎn)換為生動(dòng)清晰的高分辨率圖像。

Imagen 2最與眾不同之處在于,它能夠以驚人的準(zhǔn)確性,理解復(fù)雜抽象的概念,然后把這個(gè)概念可視化,細(xì)膩之程度令人驚嘆!

Imagen 2的核心,還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。經(jīng)過(guò)微調(diào)的Transformer模型,在文本理解和圖像合成上,都表現(xiàn)出了無(wú)與倫比的性能。

現(xiàn)在,在文生圖領(lǐng)域,谷歌又豎立了新的標(biāo)桿。

用自然語(yǔ)言就能生圖的模型,又多了一個(gè)

現(xiàn)在,除了DALL·E 3之外,我們又有了一個(gè)僅憑自然語(yǔ)言就能生圖的模型!

相比之下,Midjourney必須用復(fù)雜、專(zhuān)業(yè)的提示詞,在易使用性上已經(jīng)被兩位競(jìng)爭(zhēng)者甩出了很遠(yuǎn)。

僅憑簡(jiǎn)單文本,就能生存多樣化的復(fù)雜圖像,這類(lèi)AI生圖模型對(duì)于內(nèi)容創(chuàng)作的影響是極其深遠(yuǎn)的。

對(duì)于依賴(lài)視覺(jué)內(nèi)容的行業(yè)來(lái)說(shuō),這徹底改變了游戲規(guī)則,大大減少了傳統(tǒng)內(nèi)容制作所需的時(shí)間,內(nèi)容創(chuàng)作者可以以前所未有的速度,制作高質(zhì)量的視覺(jué)效果。

同時(shí),Imagen 2還具有無(wú)可比擬的圖像質(zhì)量和多功能性。

Imagen 2用到了谷歌最先進(jìn)的文本到圖像擴(kuò)散技術(shù),生圖質(zhì)量極高、效果逼真,而且和用戶(hù)的提示具有高度的一致性。

原因在于,它是使用訓(xùn)練數(shù)據(jù)的自然分布來(lái)生成更逼真的圖像,而非采用預(yù)先編程的樣式。

A jellyfish on a dark blue background

水母在深藍(lán)色的背景下悠然漂浮

可以看到,Imagen 2的圖像生成能力非常驚人。

無(wú)論是渲染錯(cuò)綜復(fù)雜的風(fēng)景、詳細(xì)的物體,還是奇幻的場(chǎng)景,生成的圖像都具有如此高的保真度,以至于它們可以與人類(lèi)藝術(shù)家創(chuàng)作的圖像相媲美,甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油畫(huà),描繪了擺放在砧板上的橙子。陽(yáng)光穿過(guò)橙子的切片,柔和的橙色光線(xiàn)灑在砧板上。畫(huà)的背景是一塊藍(lán)白相間的布,畫(huà)面巧妙地捕捉了光的折射、反射效果,同時(shí)展示了畫(huà)家富有感情的筆觸

有網(wǎng)友表示,看到Imagen的這張橙子圖,真是讓我大吃一驚。燈光穿過(guò)橙子后的投影,和提示中描述的意境非常吻合!

有人用同樣的提示,讓DALL·E 3生成了同樣的橙子油畫(huà)圖,效果比起Imagen 3來(lái)說(shuō),的確弱了不少。

圖片

類(lèi)似的,Midjourney生成的橙子,在真實(shí)感和意境層面,也要差上一截。

圖片

詩(shī)中意境,一鍵逼真還原

以往的「文本到圖像」模型,通常是根據(jù)訓(xùn)練數(shù)據(jù)集的圖像和標(biāo)題中的詳細(xì)信息,來(lái)生成與用戶(hù)提示匹配的圖像的。

但是它們有一個(gè)bug:對(duì)于每張圖像和配對(duì)的標(biāo)題,在細(xì)節(jié)質(zhì)量和準(zhǔn)確性上可能會(huì)有很大差異。

為了幫助創(chuàng)建更高質(zhì)量和更準(zhǔn)確的圖像、更好地符合用戶(hù)的提示,Imagen 2的訓(xùn)練數(shù)據(jù)集中添加了更多描述,幫助Imagen 2學(xué)習(xí)不同的標(biāo)題風(fēng)格,并更好地理解廣泛的用戶(hù)提示。

這種圖像標(biāo)題配對(duì),就有助于Imagen 2更好地理解圖像和文字之間的關(guān)系,大大提高了它對(duì)上下文和細(xì)微差別的理解。

就比如,美國(guó)作家Phillis Wheatley《晚間贊美詩(shī)》中的一句話(huà)「溪流潺潺,鳥(niǎo)兒啁啾,空中飄蕩著它們混合的音樂(lè)」。

詩(shī)中絕美的意境,Imagen 2把要點(diǎn)全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下,Midjourney似乎對(duì)于文學(xué)描述的內(nèi)容把握還是欠缺一些,大概率會(huì)在圖中自動(dòng)添加一個(gè)人物。不過(guò)整體畫(huà)面效果還是不錯(cuò)的。

圖片

而到了DALL·E 3這里,它居然在圖像上加了幾行字,生成了一張「賀卡」?

圖片

在著名的小說(shuō)《白鯨記》中,Herman Melville曾寫(xiě)下「想象一下大海的微妙之處,最可怕的地方在于生物如何在水下滑行,卻在大多數(shù)情況下不易察覺(jué),并且詭譎地隱藏在最可愛(ài)的蔚藍(lán)色調(diào)下」。

Imagen 2也是很懂「海洋文學(xué)」的特點(diǎn)。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下,Midjourney和DALL·E 3一到深海,就瞬間就克蘇魯了起來(lái)……

圖片

Midjourney

圖片

DALL·E 3

兒童文學(xué)大家Frances Hodgson Burnett所著的《秘密花園》中,對(duì)知更鳥(niǎo)有這樣一句描述:

知更鳥(niǎo)從纏繞的常春藤上飛到墻頭,張開(kāi)嘴巴,唱出了一個(gè)響亮而甜美的顫音,只是為了炫耀自己。世界上就沒(méi)有什么東西能比它更惹人喜愛(ài)了——它們幾乎總是這樣做。

快看,Imagen 2生成的這幅畫(huà),把常春藤、墻頭、唱歌等暗藏的細(xì)節(jié),悉數(shù)呈現(xiàn)了出來(lái)。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同樣的提示詞,Midjourney在真實(shí)感上還要差上幾分。

圖片

而DALL·E 3相比上面兩家,就更遜色了,尤其在植物和羽毛的細(xì)節(jié)上。

圖片

風(fēng)格復(fù)刻,隨意變換,更懂人類(lèi)美學(xué)

一直以來(lái),圖像生成飽受詬病的問(wèn)題之一,便是人物的手指生成。

這次,Imagen 2的數(shù)據(jù)集和模型進(jìn)步,在許多領(lǐng)域取得了改進(jìn)。

其中就包括渲染逼真的手部和人臉,以及保持圖像不受干擾的視覺(jué)偽影。

同時(shí),谷歌DeepMind根據(jù)人類(lèi)對(duì)光線(xiàn)、取景、曝光、清晰度等特質(zhì)的偏好,訓(xùn)練了一個(gè)專(zhuān)門(mén)的「圖像美學(xué)模型」。

每張圖像都被給予一個(gè)美學(xué)分?jǐn)?shù),這有助于調(diào)節(jié)Imagen 2在其訓(xùn)練數(shù)據(jù)集中賦予人類(lèi)偏好的圖像更多的權(quán)重。

這樣一來(lái),就提高了Imagen 2生成更高質(zhì)量圖像的能力。

使用提示「花」的AI生成的圖像,美學(xué)分?jǐn)?shù)從低(左)到高(右)

Imagen 2的擴(kuò)散技術(shù)提供了高度的靈活性,使得更容易控制和調(diào)整圖像的風(fēng)格。

通過(guò)提供參考風(fēng)格圖像并結(jié)合文本提示,可以訓(xùn)練Imagen 2生成遵循相同風(fēng)格的新圖像。

通過(guò)使用參考圖像和文本提示,Imagen 2可以更輕松地控制輸出樣式

更強(qiáng)的「修復(fù)」和「擴(kuò)圖」

此外,Imagen 2還支持圖像編輯功能,如「修復(fù)」(inpainting)和「擴(kuò)圖」(outpainting)。

通過(guò)提供參考圖像和圖像掩碼,我們可以用inpainting技術(shù)直接在原始圖像中生成新內(nèi)容。

在下面這幅原始圖中,只要輸入「綠色墻上有一個(gè)架子,架子上放著幾本書(shū)和花瓶」,對(duì)應(yīng)內(nèi)容就在原圖中生成了!

新內(nèi)容毫不突兀,完美融入原圖,渾然天成。

另外,我們還可以使用outpainting功能,給原始圖像擴(kuò)圖。

夕陽(yáng)下非洲大草原上長(zhǎng)頸鹿和斑馬的雙人大頭貼,一下子就擴(kuò)成了全身照。

全面加持企業(yè)級(jí)場(chǎng)景,logo文案一鍵生成,中文也支持

現(xiàn)在,谷歌已經(jīng)Imagen 2下放到開(kāi)發(fā)者平臺(tái)Vertex AI。

在Vertex AI平臺(tái)上,客戶(hù)可以使用直觀的工具來(lái)自定義和部署Imagen 2,享受全面管理的基礎(chǔ)設(shè)施和內(nèi)置的隱私與安全保護(hù)。

在谷歌DeepMind的技術(shù)加持下,Imagen 2在圖像質(zhì)量上實(shí)現(xiàn)了顯著提升,幫助開(kāi)發(fā)者根據(jù)特定需求創(chuàng)造圖像,其中包括:

- 根據(jù)自然語(yǔ)言的提示生成高質(zhì)量、逼真、高分辨率且精美的圖像;

- 支持多語(yǔ)言文本渲染,能夠在圖像中準(zhǔn)確添加文本內(nèi)容;

- 可以設(shè)計(jì)公司或產(chǎn)品的Logo,并將其嵌入到圖像中;

- 提供視覺(jué)問(wèn)題解答功能,可以從圖像中生成標(biāo)注,或就圖像細(xì)節(jié)提出的問(wèn)題給出具有信息性的文本回答。

高質(zhì)量圖像:借助于改進(jìn)的圖像和文本理解,以及多種創(chuàng)新的訓(xùn)練和建模技術(shù),Imagen 2能夠生成精準(zhǔn)、高品質(zhì)且逼真的圖像。

文本渲染支持:可以根據(jù)提示內(nèi)容,精準(zhǔn)地渲染出正確的文本。

Imagen 2可以在生成含有特定文字或短語(yǔ)的物體圖像時(shí),確保輸出圖像中包含正確短語(yǔ)。

Logo設(shè)計(jì):Imagen 2能為品牌、產(chǎn)品等生成多種創(chuàng)意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。

標(biāo)注和問(wèn)答:利用增強(qiáng)的圖像理解能力,Imagen 2能夠創(chuàng)建詳細(xì)的長(zhǎng)文標(biāo)注,并對(duì)圖像內(nèi)元素提出的問(wèn)題給出詳細(xì)答案。

多語(yǔ)言提示:除了英語(yǔ),Imagen 2還支持其他6種語(yǔ)言(中文、印地語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)),并計(jì)劃在2024年初增加更多語(yǔ)言。這項(xiàng)功能還包括提示與輸出之間的翻譯能力,比如,可以用西班牙語(yǔ)提示,但指定輸出為葡萄牙語(yǔ)。

圖像加水印,生成更安全

為了幫助降低文本到圖像生成技術(shù)的潛在風(fēng)險(xiǎn)和挑戰(zhàn),谷歌從設(shè)計(jì)和開(kāi)發(fā)到產(chǎn)品部署都設(shè)置了強(qiáng)大的護(hù)欄。

Imagen 2 集成了SynthID——用于加水印和識(shí)別 AI 生成內(nèi)容的尖端工具包。

這樣,Google Cloud平臺(tái)的客戶(hù)可以直接在圖像中添加數(shù)字水印,同時(shí)不會(huì)降低圖像質(zhì)量。

不過(guò),即使在對(duì)圖像進(jìn)行過(guò)濾、裁剪或使用有損壓縮方案保存后,SynthID仍然可以檢測(cè)出。

除此之外,在向所有用戶(hù)推出之前,谷歌會(huì)進(jìn)行強(qiáng)大的安全測(cè)試,以最大限度地降低傷害風(fēng)險(xiǎn)。

從一開(kāi)始,谷歌團(tuán)隊(duì)就投入對(duì)Imagen 2的數(shù)據(jù)安全訓(xùn)練,并添加了技術(shù)護(hù)欄來(lái)限制有問(wèn)題的輸出,如暴力、冒犯或色情內(nèi)容。

同時(shí),谷歌還對(duì)訓(xùn)練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出進(jìn)行安全檢查。比如正在應(yīng)用全面的安全過(guò)濾器,以避免生成名人圖像等有潛在問(wèn)題的內(nèi)容。

網(wǎng)友驚呼:真·最強(qiáng)文生圖模型來(lái)了!

Google DeepMind研究副總裁兼深度學(xué)習(xí)主管Oriol Vinyals嘗試用Imagen 2為Gemini生成徽標(biāo)。

另一位谷歌科學(xué)家用Imagen 2生成的圖像如下。

下面是一只網(wǎng)友實(shí)測(cè)生成的藍(lán)貓。

圖片

有網(wǎng)友認(rèn)為,Imagen 2是同類(lèi)產(chǎn)品中最好的。就像Gemini Ultra一樣,看手和文字就足夠了。

不過(guò),他還吐槽了谷歌不向所有人開(kāi)放產(chǎn)品的問(wèn)題。

「像往常一樣,谷歌宣布了一款大多數(shù)人無(wú)法使用的產(chǎn)品,這有什么意義?!」

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-03-06 13:58:00

測(cè)評(píng)模型

2024-02-02 21:51:19

數(shù)據(jù)訓(xùn)練

2024-03-01 13:31:06

2023-10-04 18:30:52

MetaAI

2023-10-30 14:43:32

2023-01-07 12:53:44

模型效果Muse

2015-01-12 09:32:03

E人E本平板電腦

2024-01-07 13:09:42

Midjourney文本渲染DALL·E 3

2023-10-13 22:01:42

谷歌模型

2023-11-01 14:12:00

數(shù)據(jù)AI

2024-02-19 00:09:49

開(kāi)源模型

2023-04-06 10:30:33

AI工具

2023-10-04 10:33:58

OpenAI

2023-11-08 15:52:18

2024-11-06 13:30:00

2023-09-21 10:31:06

人工智能模型

2023-03-29 10:04:18

圖像AI

2024-04-03 13:33:43

2023-10-09 12:44:19

2022-08-31 08:54:57

AIDALL-E 2OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)