出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
26日凌晨,OpenAI推出了GPT4o圖像生成,可以說(shuō)解決了此前Midjourney等擴(kuò)散模型很難解決的問(wèn)題,業(yè)內(nèi)為之大為贊嘆。
這是用手機(jī)拍攝的玻璃白板的廣角圖像,拍攝地點(diǎn)是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫(xiě)字,她身穿一件印有大型 OpenAI 標(biāo)志的 T 恤。筆跡看起來(lái)很自然,但有點(diǎn)凌亂,我們可以看到攝影師的倒影。
現(xiàn)在,用戶創(chuàng)建和自定義圖像就像使用 GPT?4o 聊天一樣簡(jiǎn)單 - 只需描述需求,包括任何細(xì)節(jié),例如縱橫比、使用十六進(jìn)制代碼的精確顏色或透明背景。
攝影師的自拍照,她轉(zhuǎn)身和他擊掌
不過(guò),OpenAI表示,由于此模型可以創(chuàng)建更詳細(xì)的圖片,因此圖像渲染時(shí)間更長(zhǎng),通常長(zhǎng)達(dá)一分鐘。
有用的圖像生成
當(dāng)今的生成模型可以呈現(xiàn)超現(xiàn)實(shí)、令人驚嘆的場(chǎng)景,但卻無(wú)法處理人們用來(lái)分享和創(chuàng)建信息的主要圖像。從徽標(biāo)到圖表,圖像在添加指代共同語(yǔ)言和經(jīng)驗(yàn)的符號(hào)后,可以傳達(dá)精確的含義。
GPT?4o 圖像生成擅長(zhǎng)準(zhǔn)確渲染文本、精確遵循提示以及利用 4o 固有的知識(shí)庫(kù)和聊天上下文(包括轉(zhuǎn)換上傳的圖像或?qū)⑵溆米饕曈X(jué)靈感)。這些功能讓您可以更輕松地創(chuàng)建您設(shè)想的圖像,幫助您通過(guò)視覺(jué)效果更有效地進(jìn)行交流,并將圖像生成推進(jìn)為一種精確而強(qiáng)大的實(shí)用工具。
增強(qiáng)功能:一圖勝千言生成準(zhǔn)確的文字,可代碼編輯,強(qiáng)大的情景感知
據(jù)OpenAI官網(wǎng)介紹,根據(jù)在線圖像和文本的聯(lián)合分布訓(xùn)練模型,不僅學(xué)習(xí)圖像與語(yǔ)言之間的關(guān)系,還學(xué)習(xí)圖像與語(yǔ)言之間的關(guān)系。結(jié)合積極的后期訓(xùn)練,生成的模型具有令人驚訝的視覺(jué)流暢性,能夠生成有用、一致且具有情境感知能力的圖像。
文本渲染
一張圖片勝過(guò)千言萬(wàn)語(yǔ),但有時(shí)在正確的位置生成幾個(gè)文字可以提升圖像的含義。4o 將精確的符號(hào)與圖像融合的能力將圖像生成轉(zhuǎn)變?yōu)橐曈X(jué)交流的工具。
多輪生成
由于圖像生成現(xiàn)在是 GPT-4o 的原生功能,您可以通過(guò)自然對(duì)話來(lái)優(yōu)化圖像。GPT-4o 可以在聊天環(huán)境中基于圖像和文本進(jìn)行構(gòu)建,從而確保始終保持一致性。例如,如果您正在設(shè)計(jì)視頻游戲角色,那么在您進(jìn)行優(yōu)化和實(shí)驗(yàn)的過(guò)程中,該角色的外觀在多次迭代中保持一致。
原始圖像
圖給這只貓一頂偵探帽和一副單片眼鏡
將其變成使用 4k 游戲引擎制作的 3A 視頻游戲,并添加一些用戶界面作為神秘 RPG 的覆蓋,我們可以在頂部看到健康欄和小地圖,在底部看到具有一致圖像的咒語(yǔ)
更新為 16:9 比例的橫向圖像,在 UI 中添加更多咒語(yǔ),并縮小視覺(jué)效果,以便我們以第三人稱視角看到貓穿過(guò)蒸汽朋克曼哈頓,創(chuàng)造出美麗的對(duì)比度和燈光,就像在最好的三 A 游戲中一樣,配以冷色調(diào)
當(dāng)玩家打開(kāi)菜單時(shí)創(chuàng)建界面,我們會(huì)看到貓的角色資料及其裝備以及另一頁(yè)顯示活躍任務(wù)(并且它應(yīng)該與我們?cè)趫D像中描述的宇宙世界構(gòu)建有關(guān)系)
遵循指令
GPT?4o 的圖像生成遵循詳細(xì)的提示,注重細(xì)節(jié)。其他系統(tǒng)在處理約 5-8 個(gè)對(duì)象時(shí)會(huì)遇到困難,而 GPT?4o 可以處理多達(dá) 10-20 個(gè)不同的對(duì)象。對(duì)象與其特征和關(guān)系的更緊密綁定可以實(shí)現(xiàn)更好的控制。
一張正方形圖片,包含一個(gè) 4 行 4 列的網(wǎng)格,網(wǎng)格上有 16 個(gè)對(duì)象,背景為白色。從左到右,從上到下。列表如下:1. 一顆藍(lán)色的星星2. 紅色三角形3. 綠色正方形4. 粉色圓圈5. 橙色沙漏6. 紫色無(wú)限符號(hào)7. 黑白圓點(diǎn)領(lǐng)結(jié)8. 扎染“42”9. 一只戴著黑色棒球帽的橙色貓10. 一張帶有寶箱的地圖11. 一雙活動(dòng)眼珠12. 一個(gè)豎起大拇指的表情符號(hào)13. 一把剪刀14. 一只藍(lán)白相間的長(zhǎng)頸鹿15. 用草書(shū)寫(xiě)的“OpenAI”一詞16. 一道彩虹色的閃電
圖片
情境學(xué)習(xí)
GPT?4o 可以分析和學(xué)習(xí)用戶上傳的圖像,將其細(xì)節(jié)無(wú)縫集成到其上下文中以指導(dǎo)圖像生成。
圖片
- 使用這些圖像作為參考,繪制帶有三角形車(chē)輪的車(chē)輛的設(shè)計(jì)圖。
- 標(biāo)記前輪、后輪,并在圖表上寫(xiě)上(小寫(xiě))
- 三角輪車(chē)輛。英文專利。2025. OPENAI。
現(xiàn)在把它放到一張?jiān)诩~約市拍攝的照片中。
圖片
世界知識(shí)原生圖像生成使 4o 能夠?qū)⑵渲R(shí)鏈接到文本和圖像之間,從而產(chǎn)生一個(gè)感覺(jué)更智能、更高效的模型。
示例:可以通過(guò)代碼來(lái)修改圖像。
圖片
照片寫(xiě)實(shí)主義和風(fēng)格
通過(guò)對(duì)反映各種圖像風(fēng)格的圖像進(jìn)行訓(xùn)練,模型可以令人信服地創(chuàng)建或轉(zhuǎn)換圖像。
一種新型的圖片生成方式
一位hackernews用戶表示:關(guān)于這種新型圖像生成方式,它通過(guò)代token而不是擴(kuò)散來(lái)實(shí)現(xiàn),重要的是它實(shí)際上是在像素空間中進(jìn)行推理。例如:讓它畫(huà)一個(gè)帶有空白井字棋格的記事本,然后告訴它先走一步,接著你走一步,如此循環(huán)。
你還可以進(jìn)行一些非常令人印象深刻的、保留信息的轉(zhuǎn)換,比如改變繪畫(huà)風(fēng)格,或者像“將白天變?yōu)橐雇怼?,或者“給他戴上一頂帽子”之類的操作。
“我感覺(jué)這些模型在分辨率方面相當(dāng)受限,但在這個(gè)領(lǐng)域進(jìn)一步的研究將讓我們能夠做出一些真正瘋狂的事情,比如讓模型分步驟完全用圖像創(chuàng)建一個(gè)應(yīng)用程序,本質(zhì)上是用文字設(shè)計(jì)整個(gè)應(yīng)用程序,包括文字內(nèi)容等,然后生成代碼來(lái)重現(xiàn)它。這也意味著一個(gè)模型可以接替一個(gè)優(yōu)秀的擴(kuò)散模型,即使最初的生成效果不佳,它也可以在外部圖像上繼續(xù)“推理”?!?/p>
最后,一旦這些模型的速度提升,你可以想象一個(gè)真正的生成式用戶界面,模型根據(jù)發(fā)送給LLM的事件生成你正在使用的應(yīng)用程序的下一幀(LLM可以像平時(shí)一樣使用工具、思考等)。然而,我也相信擴(kuò)散模型可以以更快的方式完成其中的一些任務(wù)。
甚至有網(wǎng)友曬出了一張被倒?jié)M的酒杯的生成圖像來(lái)證明OpenAI攻克了很多業(yè)界不能突破的難題。
圖片
今日即可訪問(wèn)和可用性
從今天開(kāi)始,4o 圖像生成將作為 ChatGPT 中的默認(rèn)圖像生成器向 Plus、Pro、Team 和 Free 用戶推出,Enterprise 和 Edu 即將推出。它也可以在 Sora 中使用。對(duì)于那些對(duì) DALL·E 情有獨(dú)鐘的人來(lái)說(shuō),仍然可以通過(guò)專用的 DALL·E GPT 訪問(wèn)它。
沒(méi)錯(cuò),免費(fèi)用戶也可以用,小編也嘗鮮了一把。
同時(shí),開(kāi)發(fā)人員很快就能通過(guò) API 使用 GPT-4o 生成圖像,并將在未來(lái)幾周內(nèi)推出訪問(wèn)權(quán)限。
OpenAI在圖片生成領(lǐng)域不是最早的,前有StableDifussion,后有Midjourney,但大模型的世界就是這么變幻莫測(cè),OpenAI在圖片領(lǐng)域這次可以說(shuō)是成功逆襲了。