自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="fhbvi"><li id="fhbvi"></li></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌文生圖巔峰之作Imagen 2登場(chǎng)，實(shí)測(cè)暴打DALL·E 3和Midjourney！

作者：新智元 2023-12-14 12:46:54

人工智能新聞

卷瘋了卷瘋了，谷歌剛剛放出了文生圖AI模型的巔峰之作Imagen 2，實(shí)測(cè)效果逼真細(xì)膩，生成的美女圖仿佛真人照片，對(duì)于提示的還原程度已經(jīng)打敗了DALL·E 3和Midjourney！最強(qiáng)文生圖大模型這是要易主了？

提問(wèn)：下面這張圖，是AI生圖還是照片？

如果不是這么問(wèn)，絕大多數(shù)人大概都不會(huì)想到，這居然不是一張照片。

是的，只要在谷歌最新AI生圖神器Imagen 2中輸入這樣的提示詞——

A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位32歲的年輕女性自然保護(hù)主義者，正在叢林中探險(xiǎn)。她體格健壯，一頭短卷發(fā)，面帶親切的微笑

就能得到開(kāi)頭那張無(wú)比逼真寫(xiě)實(shí)、比照片還像照片的圖像了！

雖然圣誕節(jié)已經(jīng)臨近，但谷歌還在卷個(gè)不?！?hào)稱(chēng)DALL·E 3最強(qiáng)競(jìng)品的文生圖模型Imagen 2，終于重磅上線(xiàn)了。

剛用Gemini和OpenAI卷完GPT-4，立馬又放出Imagen 2來(lái)卷DALL·E 3了，2023年底的「卷王」稱(chēng)號(hào)，谷歌是實(shí)至名歸。

不僅手指逼真，而且拿筷子的姿勢(shì)也很標(biāo)準(zhǔn)

可以說(shuō)，Imagen 2是目前文本轉(zhuǎn)圖像技術(shù)的巔峰之作，已經(jīng)突破了AI生圖的界限。

在機(jī)器學(xué)習(xí)算法強(qiáng)大功能的加持下，Imagen 2可以將文本描述轉(zhuǎn)換為生動(dòng)清晰的高分辨率圖像。

Imagen 2最與眾不同之處在于，它能夠以驚人的準(zhǔn)確性，理解復(fù)雜抽象的概念，然后把這個(gè)概念可視化，細(xì)膩之程度令人驚嘆！

Imagen 2的核心，還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。經(jīng)過(guò)微調(diào)的Transformer模型，在文本理解和圖像合成上，都表現(xiàn)出了無(wú)與倫比的性能。

現(xiàn)在，在文生圖領(lǐng)域，谷歌又豎立了新的標(biāo)桿。

用自然語(yǔ)言就能生圖的模型，又多了一個(gè)

現(xiàn)在，除了DALL·E 3之外，我們又有了一個(gè)僅憑自然語(yǔ)言就能生圖的模型！

相比之下，Midjourney必須用復(fù)雜、專(zhuān)業(yè)的提示詞，在易使用性上已經(jīng)被兩位競(jìng)爭(zhēng)者甩出了很遠(yuǎn)。

僅憑簡(jiǎn)單文本，就能生存多樣化的復(fù)雜圖像，這類(lèi)AI生圖模型對(duì)于內(nèi)容創(chuàng)作的影響是極其深遠(yuǎn)的。

對(duì)于依賴(lài)視覺(jué)內(nèi)容的行業(yè)來(lái)說(shuō)，這徹底改變了游戲規(guī)則，大大減少了傳統(tǒng)內(nèi)容制作所需的時(shí)間，內(nèi)容創(chuàng)作者可以以前所未有的速度，制作高質(zhì)量的視覺(jué)效果。

同時(shí)，Imagen 2還具有無(wú)可比擬的圖像質(zhì)量和多功能性。

Imagen 2用到了谷歌最先進(jìn)的文本到圖像擴(kuò)散技術(shù)，生圖質(zhì)量極高、效果逼真，而且和用戶(hù)的提示具有高度的一致性。

原因在于，它是使用訓(xùn)練數(shù)據(jù)的自然分布來(lái)生成更逼真的圖像，而非采用預(yù)先編程的樣式。

A jellyfish on a dark blue background

水母在深藍(lán)色的背景下悠然漂浮

可以看到，Imagen 2的圖像生成能力非常驚人。

無(wú)論是渲染錯(cuò)綜復(fù)雜的風(fēng)景、詳細(xì)的物體，還是奇幻的場(chǎng)景，生成的圖像都具有如此高的保真度，以至于它們可以與人類(lèi)藝術(shù)家創(chuàng)作的圖像相媲美，甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油畫(huà)，描繪了擺放在砧板上的橙子。陽(yáng)光穿過(guò)橙子的切片，柔和的橙色光線(xiàn)灑在砧板上。畫(huà)的背景是一塊藍(lán)白相間的布，畫(huà)面巧妙地捕捉了光的折射、反射效果，同時(shí)展示了畫(huà)家富有感情的筆觸

有網(wǎng)友表示，看到Imagen的這張橙子圖，真是讓我大吃一驚。燈光穿過(guò)橙子后的投影，和提示中描述的意境非常吻合！

有人用同樣的提示，讓DALL·E 3生成了同樣的橙子油畫(huà)圖，效果比起Imagen 3來(lái)說(shuō)，的確弱了不少。

類(lèi)似的，Midjourney生成的橙子，在真實(shí)感和意境層面，也要差上一截。

詩(shī)中意境，一鍵逼真還原

以往的「文本到圖像」模型，通常是根據(jù)訓(xùn)練數(shù)據(jù)集的圖像和標(biāo)題中的詳細(xì)信息，來(lái)生成與用戶(hù)提示匹配的圖像的。

但是它們有一個(gè)bug：對(duì)于每張圖像和配對(duì)的標(biāo)題，在細(xì)節(jié)質(zhì)量和準(zhǔn)確性上可能會(huì)有很大差異。

為了幫助創(chuàng)建更高質(zhì)量和更準(zhǔn)確的圖像、更好地符合用戶(hù)的提示，Imagen 2的訓(xùn)練數(shù)據(jù)集中添加了更多描述，幫助Imagen 2學(xué)習(xí)不同的標(biāo)題風(fēng)格，并更好地理解廣泛的用戶(hù)提示。

這種圖像標(biāo)題配對(duì)，就有助于Imagen 2更好地理解圖像和文字之間的關(guān)系，大大提高了它對(duì)上下文和細(xì)微差別的理解。

就比如，美國(guó)作家Phillis Wheatley《晚間贊美詩(shī)》中的一句話(huà)「溪流潺潺，鳥(niǎo)兒啁啾，空中飄蕩著它們混合的音樂(lè)」。

詩(shī)中絕美的意境，Imagen 2把要點(diǎn)全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下，Midjourney似乎對(duì)于文學(xué)描述的內(nèi)容把握還是欠缺一些，大概率會(huì)在圖中自動(dòng)添加一個(gè)人物。不過(guò)整體畫(huà)面效果還是不錯(cuò)的。

而到了DALL·E 3這里，它居然在圖像上加了幾行字，生成了一張「賀卡」？

在著名的小說(shuō)《白鯨記》中，Herman Melville曾寫(xiě)下「想象一下大海的微妙之處，最可怕的地方在于生物如何在水下滑行，卻在大多數(shù)情況下不易察覺(jué)，并且詭譎地隱藏在最可愛(ài)的蔚藍(lán)色調(diào)下」。

Imagen 2也是很懂「海洋文學(xué)」的特點(diǎn)。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下，Midjourney和DALL·E 3一到深海，就瞬間就克蘇魯了起來(lái)……

Midjourney

DALL·E 3

兒童文學(xué)大家Frances Hodgson Burnett所著的《秘密花園》中，對(duì)知更鳥(niǎo)有這樣一句描述：

知更鳥(niǎo)從纏繞的常春藤上飛到墻頭，張開(kāi)嘴巴，唱出了一個(gè)響亮而甜美的顫音，只是為了炫耀自己。世界上就沒(méi)有什么東西能比它更惹人喜愛(ài)了——它們幾乎總是這樣做。

快看，Imagen 2生成的這幅畫(huà)，把常春藤、墻頭、唱歌等暗藏的細(xì)節(jié)，悉數(shù)呈現(xiàn)了出來(lái)。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同樣的提示詞，Midjourney在真實(shí)感上還要差上幾分。

而DALL·E 3相比上面兩家，就更遜色了，尤其在植物和羽毛的細(xì)節(jié)上。

風(fēng)格復(fù)刻，隨意變換，更懂人類(lèi)美學(xué)

一直以來(lái)，圖像生成飽受詬病的問(wèn)題之一，便是人物的手指生成。

這次，Imagen 2的數(shù)據(jù)集和模型進(jìn)步，在許多領(lǐng)域取得了改進(jìn)。

其中就包括渲染逼真的手部和人臉，以及保持圖像不受干擾的視覺(jué)偽影。

同時(shí)，谷歌DeepMind根據(jù)人類(lèi)對(duì)光線(xiàn)、取景、曝光、清晰度等特質(zhì)的偏好，訓(xùn)練了一個(gè)專(zhuān)門(mén)的「圖像美學(xué)模型」。

每張圖像都被給予一個(gè)美學(xué)分?jǐn)?shù)，這有助于調(diào)節(jié)Imagen 2在其訓(xùn)練數(shù)據(jù)集中賦予人類(lèi)偏好的圖像更多的權(quán)重。

這樣一來(lái)，就提高了Imagen 2生成更高質(zhì)量圖像的能力。

使用提示「花」的AI生成的圖像，美學(xué)分?jǐn)?shù)從低（左）到高（右）

Imagen 2的擴(kuò)散技術(shù)提供了高度的靈活性，使得更容易控制和調(diào)整圖像的風(fēng)格。

通過(guò)提供參考風(fēng)格圖像并結(jié)合文本提示，可以訓(xùn)練Imagen 2生成遵循相同風(fēng)格的新圖像。

通過(guò)使用參考圖像和文本提示，Imagen 2可以更輕松地控制輸出樣式

更強(qiáng)的「修復(fù)」和「擴(kuò)圖」

此外，Imagen 2還支持圖像編輯功能，如「修復(fù)」（inpainting）和「擴(kuò)圖」（outpainting）。

通過(guò)提供參考圖像和圖像掩碼，我們可以用inpainting技術(shù)直接在原始圖像中生成新內(nèi)容。

在下面這幅原始圖中，只要輸入「綠色墻上有一個(gè)架子，架子上放著幾本書(shū)和花瓶」，對(duì)應(yīng)內(nèi)容就在原圖中生成了！

新內(nèi)容毫不突兀，完美融入原圖，渾然天成。

另外，我們還可以使用outpainting功能，給原始圖像擴(kuò)圖。

夕陽(yáng)下非洲大草原上長(zhǎng)頸鹿和斑馬的雙人大頭貼，一下子就擴(kuò)成了全身照。

全面加持企業(yè)級(jí)場(chǎng)景，logo文案一鍵生成，中文也支持

現(xiàn)在，谷歌已經(jīng)Imagen 2下放到開(kāi)發(fā)者平臺(tái)Vertex AI。

在Vertex AI平臺(tái)上，客戶(hù)可以使用直觀的工具來(lái)自定義和部署Imagen 2，享受全面管理的基礎(chǔ)設(shè)施和內(nèi)置的隱私與安全保護(hù)。

在谷歌DeepMind的技術(shù)加持下，Imagen 2在圖像質(zhì)量上實(shí)現(xiàn)了顯著提升，幫助開(kāi)發(fā)者根據(jù)特定需求創(chuàng)造圖像，其中包括：

- 根據(jù)自然語(yǔ)言的提示生成高質(zhì)量、逼真、高分辨率且精美的圖像；

- 支持多語(yǔ)言文本渲染，能夠在圖像中準(zhǔn)確添加文本內(nèi)容；

- 可以設(shè)計(jì)公司或產(chǎn)品的Logo，并將其嵌入到圖像中；

- 提供視覺(jué)問(wèn)題解答功能，可以從圖像中生成標(biāo)注，或就圖像細(xì)節(jié)提出的問(wèn)題給出具有信息性的文本回答。

高質(zhì)量圖像：借助于改進(jìn)的圖像和文本理解，以及多種創(chuàng)新的訓(xùn)練和建模技術(shù)，Imagen 2能夠生成精準(zhǔn)、高品質(zhì)且逼真的圖像。

文本渲染支持：可以根據(jù)提示內(nèi)容，精準(zhǔn)地渲染出正確的文本。

Imagen 2可以在生成含有特定文字或短語(yǔ)的物體圖像時(shí)，確保輸出圖像中包含正確短語(yǔ)。

Logo設(shè)計(jì)：Imagen 2能為品牌、產(chǎn)品等生成多種創(chuàng)意和逼真的Logo，比如徽章、字母甚至非常抽象的Logo。

標(biāo)注和問(wèn)答：利用增強(qiáng)的圖像理解能力，Imagen 2能夠創(chuàng)建詳細(xì)的長(zhǎng)文標(biāo)注，并對(duì)圖像內(nèi)元素提出的問(wèn)題給出詳細(xì)答案。

多語(yǔ)言提示：除了英語(yǔ)，Imagen 2還支持其他6種語(yǔ)言（中文、印地語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)），并計(jì)劃在2024年初增加更多語(yǔ)言。這項(xiàng)功能還包括提示與輸出之間的翻譯能力，比如，可以用西班牙語(yǔ)提示，但指定輸出為葡萄牙語(yǔ)。

圖像加水印，生成更安全

為了幫助降低文本到圖像生成技術(shù)的潛在風(fēng)險(xiǎn)和挑戰(zhàn)，谷歌從設(shè)計(jì)和開(kāi)發(fā)到產(chǎn)品部署都設(shè)置了強(qiáng)大的護(hù)欄。

Imagen 2 集成了SynthID——用于加水印和識(shí)別 AI 生成內(nèi)容的尖端工具包。

這樣，Google Cloud平臺(tái)的客戶(hù)可以直接在圖像中添加數(shù)字水印，同時(shí)不會(huì)降低圖像質(zhì)量。

不過(guò)，即使在對(duì)圖像進(jìn)行過(guò)濾、裁剪或使用有損壓縮方案保存后，SynthID仍然可以檢測(cè)出。

除此之外，在向所有用戶(hù)推出之前，谷歌會(huì)進(jìn)行強(qiáng)大的安全測(cè)試，以最大限度地降低傷害風(fēng)險(xiǎn)。

從一開(kāi)始，谷歌團(tuán)隊(duì)就投入對(duì)Imagen 2的數(shù)據(jù)安全訓(xùn)練，并添加了技術(shù)護(hù)欄來(lái)限制有問(wèn)題的輸出，如暴力、冒犯或色情內(nèi)容。

同時(shí)，谷歌還對(duì)訓(xùn)練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出進(jìn)行安全檢查。比如正在應(yīng)用全面的安全過(guò)濾器，以避免生成名人圖像等有潛在問(wèn)題的內(nèi)容。

網(wǎng)友驚呼：真·最強(qiáng)文生圖模型來(lái)了！

Google DeepMind研究副總裁兼深度學(xué)習(xí)主管Oriol Vinyals嘗試用Imagen 2為Gemini生成徽標(biāo)。

另一位谷歌科學(xué)家用Imagen 2生成的圖像如下。

下面是一只網(wǎng)友實(shí)測(cè)生成的藍(lán)貓。

有網(wǎng)友認(rèn)為，Imagen 2是同類(lèi)產(chǎn)品中最好的。就像Gemini Ultra一樣，看手和文字就足夠了。

不過(guò)，他還吐槽了谷歌不向所有人開(kāi)放產(chǎn)品的問(wèn)題。

「像往常一樣，谷歌宣布了一款大多數(shù)人無(wú)法使用的產(chǎn)品，這有什么意義？！」

責(zé)任編輯：張燕妮來(lái)源：新智元

訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)