自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI在圖片領(lǐng)域站起來了! 原創(chuàng)

發(fā)布于 2025-3-26 09:28
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

26日凌晨,OpenAI推出了GPT4o圖像生成,可以說解決了此前Midjourney等擴(kuò)散模型很難解決的問題,業(yè)內(nèi)為之大為贊嘆。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

這是用手機(jī)拍攝的玻璃白板的廣角圖像,拍攝地點(diǎn)是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型 OpenAI 標(biāo)志的 T 恤。筆跡看起來很自然,但有點(diǎn)凌亂,我們可以看到攝影師的倒影。

現(xiàn)在,用戶創(chuàng)建和自定義圖像就像使用 GPT?4o 聊天一樣簡單 - 只需描述需求,包括任何細(xì)節(jié),例如縱橫比、使用十六進(jìn)制代碼的精確顏色或透明背景。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)攝影師的自拍照,她轉(zhuǎn)身和他擊掌

不過,OpenAI表示,由于此模型可以創(chuàng)建更詳細(xì)的圖片,因此圖像渲染時(shí)間更長,通常長達(dá)一分鐘。

有用的圖像生成

當(dāng)今的生成模型可以呈現(xiàn)超現(xiàn)實(shí)、令人驚嘆的場景,但卻無法處理人們用來分享和創(chuàng)建信息的主要圖像。從徽標(biāo)到圖表,圖像在添加指代共同語言和經(jīng)驗(yàn)的符號(hào)后,可以傳達(dá)精確的含義。

GPT?4o 圖像生成擅長準(zhǔn)確渲染文本、精確遵循提示以及利用 4o 固有的知識(shí)庫和聊天上下文(包括轉(zhuǎn)換上傳的圖像或?qū)⑵溆米饕曈X靈感)。這些功能讓您可以更輕松地創(chuàng)建您設(shè)想的圖像,幫助您通過視覺效果更有效地進(jìn)行交流,并將圖像生成推進(jìn)為一種精確而強(qiáng)大的實(shí)用工具。

增強(qiáng)功能:一圖勝千言生成準(zhǔn)確的文字,可代碼編輯,強(qiáng)大的情景感知

據(jù)OpenAI官網(wǎng)介紹,根據(jù)在線圖像和文本的聯(lián)合分布訓(xùn)練模型,不僅學(xué)習(xí)圖像與語言之間的關(guān)系,還學(xué)習(xí)圖像與語言之間的關(guān)系。結(jié)合積極的后期訓(xùn)練,生成的模型具有令人驚訝的視覺流暢性,能夠生成有用、一致且具有情境感知能力的圖像。

文本渲染

一張圖片勝過千言萬語,但有時(shí)在正確的位置生成幾個(gè)文字可以提升圖像的含義。4o 將精確的符號(hào)與圖像融合的能力將圖像生成轉(zhuǎn)變?yōu)橐曈X交流的工具。

多輪生成

由于圖像生成現(xiàn)在是 GPT-4o 的原生功能,您可以通過自然對(duì)話來優(yōu)化圖像。GPT-4o 可以在聊天環(huán)境中基于圖像和文本進(jìn)行構(gòu)建,從而確保始終保持一致性。例如,如果您正在設(shè)計(jì)視頻游戲角色,那么在您進(jìn)行優(yōu)化和實(shí)驗(yàn)的過程中,該角色的外觀在多次迭代中保持一致。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)原始圖像

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖給這只貓一頂偵探帽和一副單片眼鏡

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

將其變成使用 4k 游戲引擎制作的 3A 視頻游戲,并添加一些用戶界面作為神秘 RPG 的覆蓋,我們可以在頂部看到健康欄和小地圖,在底部看到具有一致圖像的咒語

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

更新為 16:9 比例的橫向圖像,在 UI 中添加更多咒語,并縮小視覺效果,以便我們以第三人稱視角看到貓穿過蒸汽朋克曼哈頓,創(chuàng)造出美麗的對(duì)比度和燈光,就像在最好的三 A 游戲中一樣,配以冷色調(diào)

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

當(dāng)玩家打開菜單時(shí)創(chuàng)建界面,我們會(huì)看到貓的角色資料及其裝備以及另一頁顯示活躍任務(wù)(并且它應(yīng)該與我們?cè)趫D像中描述的宇宙世界構(gòu)建有關(guān)系)

遵循指令

GPT?4o 的圖像生成遵循詳細(xì)的提示,注重細(xì)節(jié)。其他系統(tǒng)在處理約 5-8 個(gè)對(duì)象時(shí)會(huì)遇到困難,而 GPT?4o 可以處理多達(dá) 10-20 個(gè)不同的對(duì)象。對(duì)象與其特征和關(guān)系的更緊密綁定可以實(shí)現(xiàn)更好的控制。


一張正方形圖片,包含一個(gè) 4 行 4 列的網(wǎng)格,網(wǎng)格上有 16 個(gè)對(duì)象,背景為白色。從左到右,從上到下。列表如下:1. 一顆藍(lán)色的星星2. 紅色三角形3. 綠色正方形4. 粉色圓圈5. 橙色沙漏6. 紫色無限符號(hào)7. 黑白圓點(diǎn)領(lǐng)結(jié)8. 扎染“42”9. 一只戴著黑色棒球帽的橙色貓10. 一張帶有寶箱的地圖11. 一雙活動(dòng)眼珠12. 一個(gè)豎起大拇指的表情符號(hào)13. 一把剪刀14. 一只藍(lán)白相間的長頸鹿15. 用草書寫的“OpenAI”一詞16. 一道彩虹色的閃電


OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖片

情境學(xué)習(xí)

GPT?4o 可以分析和學(xué)習(xí)用戶上傳的圖像,將其細(xì)節(jié)無縫集成到其上下文中以指導(dǎo)圖像生成。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖片

  • 使用這些圖像作為參考,繪制帶有三角形車輪的車輛的設(shè)計(jì)圖。
  • 標(biāo)記前輪、后輪,并在圖表上寫上(小寫)
  • 三角輪車輛。英文專利。2025. OPENAI。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

現(xiàn)在把它放到一張?jiān)诩~約市拍攝的照片中。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖片

世界知識(shí)原生圖像生成使 4o 能夠?qū)⑵渲R(shí)鏈接到文本和圖像之間,從而產(chǎn)生一個(gè)感覺更智能、更高效的模型。

示例:可以通過代碼來修改圖像。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖片

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

照片寫實(shí)主義和風(fēng)格

通過對(duì)反映各種圖像風(fēng)格的圖像進(jìn)行訓(xùn)練,模型可以令人信服地創(chuàng)建或轉(zhuǎn)換圖像。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)

一種新型的圖片生成方式

一位hackernews用戶表示:關(guān)于這種新型圖像生成方式,它通過代token而不是擴(kuò)散來實(shí)現(xiàn),重要的是它實(shí)際上是在像素空間中進(jìn)行推理。例如:讓它畫一個(gè)帶有空白井字棋格的記事本,然后告訴它先走一步,接著你走一步,如此循環(huán)。

你還可以進(jìn)行一些非常令人印象深刻的、保留信息的轉(zhuǎn)換,比如改變繪畫風(fēng)格,或者像“將白天變?yōu)橐雇怼?,或者“給他戴上一頂帽子”之類的操作。

“我感覺這些模型在分辨率方面相當(dāng)受限,但在這個(gè)領(lǐng)域進(jìn)一步的研究將讓我們能夠做出一些真正瘋狂的事情,比如讓模型分步驟完全用圖像創(chuàng)建一個(gè)應(yīng)用程序,本質(zhì)上是用文字設(shè)計(jì)整個(gè)應(yīng)用程序,包括文字內(nèi)容等,然后生成代碼來重現(xiàn)它。這也意味著一個(gè)模型可以接替一個(gè)優(yōu)秀的擴(kuò)散模型,即使最初的生成效果不佳,它也可以在外部圖像上繼續(xù)“推理”?!?/p>

最后,一旦這些模型的速度提升,你可以想象一個(gè)真正的生成式用戶界面,模型根據(jù)發(fā)送給LLM的事件生成你正在使用的應(yīng)用程序的下一幀(LLM可以像平時(shí)一樣使用工具、思考等)。然而,我也相信擴(kuò)散模型可以以更快的方式完成其中的一些任務(wù)。

甚至有網(wǎng)友曬出了一張被倒?jié)M的酒杯的生成圖像來證明OpenAI攻克了很多業(yè)界不能突破的難題。

OpenAI在圖片領(lǐng)域站起來了!-AI.x社區(qū)圖片

今日即可訪問和可用性

從今天開始,4o 圖像生成將作為 ChatGPT 中的默認(rèn)圖像生成器向 Plus、Pro、Team 和 Free 用戶推出,Enterprise 和 Edu 即將推出。它也可以在 Sora 中使用。對(duì)于那些對(duì) DALL·E 情有獨(dú)鐘的人來說,仍然可以通過專用的 DALL·E GPT 訪問它。

沒錯(cuò),免費(fèi)用戶也可以用,小編也嘗鮮了一把。

同時(shí),開發(fā)人員很快就能通過 API 使用 GPT-4o 生成圖像,并將在未來幾周內(nèi)推出訪問權(quán)限。

OpenAI在圖片生成領(lǐng)域不是最早的,前有StableDifussion,后有Midjourney,但大模型的世界就是這么變幻莫測,OpenAI在圖片領(lǐng)域這次可以說是成功逆襲了。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦