剛剛,OpenAI發(fā)布新文生圖模型,免費(fèi)、逼真到難以分辨 精華
今天凌晨2點(diǎn),OpenAI進(jìn)行了技術(shù)直播,對(duì)GPT-4o和Sora進(jìn)行了重大更新,提供了全新文生圖模型。
除了文生圖之外,該模型還支持自定義操作、連續(xù)發(fā)問、風(fēng)格轉(zhuǎn)換、圖像PPT等超實(shí)用功能,例如,更改圖片的寬高比、圖像物體中的角度,用十六進(jìn)制代碼指定精確顏色等。
尤其是生成圖像的逼真度,肉眼幾乎看不出任何破綻,在精細(xì)度、細(xì)節(jié)和文本遵循方面非常出色,可以媲美甚至在某些功能超過該領(lǐng)域的頭部平臺(tái)Midjourney。
新圖像模型功能展示
話不多說,「AIGC開放社區(qū)」就用免費(fèi)版為大家展示一下實(shí)際的生成案例。
我們先測試一下模型的文本還原和細(xì)節(jié)表現(xiàn),來個(gè)復(fù)雜點(diǎn)的提示詞。
提示詞:一個(gè)由甜品組成的奇幻世界,地面是柔軟的奶油草坪,樹木是用巧克力棒和糖果制作的,樹葉是五彩繽紛的果凍。天空中漂浮著巨大的棉花糖云,遠(yuǎn)處有一個(gè)冰淇淋火山正在噴涌彩色的糖漿。
場景中還有一座用蛋糕堆砌的小屋,屋頂是草莓醬,窗戶是糖玻璃,細(xì)節(jié)包括散落的糖粒、路上的巧克力碎片,以及跳躍的小糖果精靈。
構(gòu)圖、文本還原能力非常棒!一次就完成,生成時(shí)間大約在15秒左右。
再試一下它的新功能,其實(shí)OpenAI官方說這是一個(gè)“世界知識(shí)”功能,但是使用之后感覺更像是一個(gè)圖像PPT功能,對(duì)于教育、金融、醫(yī)療等領(lǐng)域幫助非常大。
例如,幫我用圖像介紹牛頓第一定律。就能直接生成詳細(xì)介紹牛頓定律的圖像,感覺和PPT差不多吧。
提示詞:用一張圖片介紹人體各個(gè)結(jié)構(gòu)。
這個(gè)人體介紹圖片就豐滿很多,放在醫(yī)療介紹或PPT里應(yīng)該不錯(cuò)吧。以后做各種宣傳資料不愁找不到量身定制的圖片了。
如果不滿意,可以基于該圖片繼續(xù)發(fā)問,例如,我們想看上面人體介紹的骨骼。提示詞:可以詳細(xì)展示骨骼介紹嗎?
我們放大手部骨骼,繼續(xù)提問:來一張手部骨骼的特寫。
需要注意的是,圖像的文字介紹可能比較模糊或混亂,這是因?yàn)橹形奶崾镜脑?,如果使用英文?huì)好很多。
那我們就用英文提示詞來試一下,In a study filled with a retro atmosphere, on the corkboard beside the wooden desk, magnetic word - spelling cards fixed with colorful pushpins form a unique poem:
Line 1: "A melody"
Line 2: "Can wake up"
Line 3: "The slumbering memories,"
Line 4: "However, occasionally" (There is a large gap here)
Line 5: "On a silent night"
Line 6: "Will deepen"
Line 7: "That longing."
文字的嵌入和排列順序還是相當(dāng)不錯(cuò)的。
這個(gè)提示詞的大意是,在一間充滿復(fù)古氛圍的書房里,木質(zhì)書桌旁的軟木板上,掛著用彩色圖釘固定的磁性拼詞卡片,組成一首獨(dú)特的詩:第一行:“一段旋律” 第二行:“能喚醒” 第三行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“在寂靜的夜晚” 第六行:“會(huì)加深” 第七行:“那份思念?!?/p>
上面只是一些非常簡單、基礎(chǔ)的玩法,有興趣小伙伴可以體驗(yàn)一下非常棒。
對(duì)于新的文生圖模型,OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman也給出了非常高的評(píng)價(jià)。
這是一項(xiàng)令人難以置信的產(chǎn)品。我還記得看到這個(gè)模型最初生成的一些圖像時(shí),很難相信它們真的是由人工智能創(chuàng)作的。我們認(rèn)為大家會(huì)喜歡它,并且很期待看到由此激發(fā)的創(chuàng)造力。
這代表著我們在給予創(chuàng)作自由方面達(dá)到了一個(gè)新的高度。人們將會(huì)創(chuàng)作出一些非常了不起的作品,也會(huì)有一些可能冒犯他人的內(nèi)容;我們的目標(biāo)是,除非用戶有此需求,否則該工具不會(huì)生成冒犯性內(nèi)容,即便有此需求,生成的內(nèi)容也需在合理范圍內(nèi)。
正如我們在模型規(guī)格說明中提到的,我們認(rèn)為將這種知識(shí)創(chuàng)作自由和控制權(quán)交到用戶手中是正確的做法,但我們也會(huì)觀察其發(fā)展情況并傾聽社會(huì)的聲音。
我們認(rèn)為,尊重社會(huì)最終為人工智能設(shè)定的廣泛界限是正確的做法,而且隨著我們離通用人工智能越來越近,這一點(diǎn)也變得越來越重要。在此過程中,感謝大家的理解。
新圖像模型簡單介紹
根據(jù)直播介紹,非自回歸生成是OpenAI新圖像模型的核心之一,是提升圖片質(zhì)量、生成效率的關(guān)鍵技術(shù)。
傳統(tǒng)的圖像生成方法,尤其是基于自回歸模型的技術(shù),通常是通過逐步生成圖像的每個(gè)像素或部分來構(gòu)建最終的圖像。這種方法雖然在某些情況下能夠生成高質(zhì)量的圖像,但其生成過程往往較為緩慢,并且容易在生成過程中出現(xiàn)累積錯(cuò)誤,導(dǎo)致最終圖像的質(zhì)量下降。
此外,自回歸生成方法在處理復(fù)雜的圖像結(jié)構(gòu)時(shí)也存在一定局限性,因?yàn)樗鼈冃枰诿恳徊缴蛇^程中都依賴于之前生成的內(nèi)容,這使得模型難以全局性地理解和優(yōu)化圖像的整體結(jié)構(gòu)。
相比之下,非自回歸生成模塊采用了一種全新的思路。不再依賴于逐像素的生成過程,而是直接生成整個(gè)圖像。這一過程的關(guān)鍵在于模型能夠一次性地理解和處理圖像的整體結(jié)構(gòu)和細(xì)節(jié)。非自回歸生成模塊通過一種特殊的編碼器-解碼器架構(gòu)來實(shí)現(xiàn)這一目標(biāo)。
編碼器負(fù)責(zé)將輸入的文本描述或其他模態(tài)信息轉(zhuǎn)化為一種中間表示,包含了生成圖像所需的所有關(guān)鍵信息。然后,解碼器利用這種中間表示直接生成完整的圖像,而無需逐像素地構(gòu)建圖像。
這種直接生成完整圖像的方式帶來了很多優(yōu)勢。首先,非自回歸生成模塊的生成速度遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的自回歸方法。由于無需逐像素生成,模型能夠在短時(shí)間內(nèi)生成高質(zhì)量的圖像,這對(duì)于實(shí)時(shí)應(yīng)用和大規(guī)模圖像生成任務(wù)具有重要意義。例如,在需要快速生成大量圖像的設(shè)計(jì)場景或教育場景中,非自回歸生成模塊能夠顯著提高工作效率。
此外,非自回歸生成模塊在生成圖像的質(zhì)量上也表現(xiàn)出色。由于模型能夠一次性地理解和處理圖像的整體結(jié)構(gòu),生成的圖像在細(xì)節(jié)和一致性方面都得到了顯著提升。
例如,在生成復(fù)雜場景的圖像時(shí),非自回歸生成模塊能夠更好地處理圖像中的多個(gè)對(duì)象及其相互關(guān)系,生成的圖像更加自然和逼真。此外,非自回歸生成模塊還能夠更好地處理文本指令中的復(fù)雜語義信息,生成與文本描述高度一致的圖像。
非自回歸生成模塊的另一個(gè)重要特點(diǎn)是其在多模態(tài)融合中的應(yīng)用。在ChatGPT 4.0模型中,非自回歸生成模塊不僅能夠根據(jù)文本描述生成圖像,還能夠結(jié)合其他模態(tài)的信息,如音頻或已有的圖像,生成更加豐富和多樣化的圖像內(nèi)容。
這種多模態(tài)融合的能力使得模型能夠更好地理解和滿足用戶的需求。例如,用戶可以提供一段音頻描述和一張參考圖像,非自回歸生成模塊能夠結(jié)合這些信息生成一張符合音頻描述且風(fēng)格與參考圖像一致的新圖像。
從今天開始,新的文生圖模型在ChatGPT和Sora中開始向所有Plus、Pro、Team和免費(fèi)用戶推出。面向企業(yè)版、教育版和API即將到來。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
