自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

OpenAI在圖片領(lǐng)域站起來了！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-3-26 09:28

瀏覽

0收藏

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

26日凌晨，OpenAI推出了GPT4o圖像生成，可以說解決了此前Midjourney等擴(kuò)散模型很難解決的問題，業(yè)內(nèi)為之大為贊嘆。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

這是用手機(jī)拍攝的玻璃白板的廣角圖像，拍攝地點(diǎn)是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字，她身穿一件印有大型 OpenAI 標(biāo)志的 T 恤。筆跡看起來很自然，但有點(diǎn)凌亂，我們可以看到攝影師的倒影。

現(xiàn)在，用戶創(chuàng)建和自定義圖像就像使用 GPT?4o 聊天一樣簡單 - 只需描述需求，包括任何細(xì)節(jié)，例如縱橫比、使用十六進(jìn)制代碼的精確顏色或透明背景。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 攝影師的自拍照，她轉(zhuǎn)身和他擊掌

不過，OpenAI表示，由于此模型可以創(chuàng)建更詳細(xì)的圖片，因此圖像渲染時(shí)間更長，通常長達(dá)一分鐘。

有用的圖像生成

當(dāng)今的生成模型可以呈現(xiàn)超現(xiàn)實(shí)、令人驚嘆的場景，但卻無法處理人們用來分享和創(chuàng)建信息的主要圖像。從徽標(biāo)到圖表，圖像在添加指代共同語言和經(jīng)驗(yàn)的符號(hào)后，可以傳達(dá)精確的含義。

GPT?4o 圖像生成擅長準(zhǔn)確渲染文本、精確遵循提示以及利用 4o 固有的知識(shí)庫和聊天上下文（包括轉(zhuǎn)換上傳的圖像或?qū)⑵溆米饕曈X靈感）。這些功能讓您可以更輕松地創(chuàng)建您設(shè)想的圖像，幫助您通過視覺效果更有效地進(jìn)行交流，并將圖像生成推進(jìn)為一種精確而強(qiáng)大的實(shí)用工具。

增強(qiáng)功能：一圖勝千言生成準(zhǔn)確的文字，可代碼編輯，強(qiáng)大的情景感知

據(jù)OpenAI官網(wǎng)介紹，根據(jù)在線圖像和文本的聯(lián)合分布訓(xùn)練模型，不僅學(xué)習(xí)圖像與語言之間的關(guān)系，還學(xué)習(xí)圖像與語言之間的關(guān)系。結(jié)合積極的后期訓(xùn)練，生成的模型具有令人驚訝的視覺流暢性，能夠生成有用、一致且具有情境感知能力的圖像。

文本渲染

一張圖片勝過千言萬語，但有時(shí)在正確的位置生成幾個(gè)文字可以提升圖像的含義。4o 將精確的符號(hào)與圖像融合的能力將圖像生成轉(zhuǎn)變?yōu)橐曈X交流的工具。

多輪生成

由于圖像生成現(xiàn)在是 GPT-4o 的原生功能，您可以通過自然對(duì)話來優(yōu)化圖像。GPT-4o 可以在聊天環(huán)境中基于圖像和文本進(jìn)行構(gòu)建，從而確保始終保持一致性。例如，如果您正在設(shè)計(jì)視頻游戲角色，那么在您進(jìn)行優(yōu)化和實(shí)驗(yàn)的過程中，該角色的外觀在多次迭代中保持一致。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 原始圖像

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖給這只貓一頂偵探帽和一副單片眼鏡

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

將其變成使用 4k 游戲引擎制作的 3A 視頻游戲，并添加一些用戶界面作為神秘 RPG 的覆蓋，我們可以在頂部看到健康欄和小地圖，在底部看到具有一致圖像的咒語

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

更新為 16:9 比例的橫向圖像，在 UI 中添加更多咒語，并縮小視覺效果，以便我們以第三人稱視角看到貓穿過蒸汽朋克曼哈頓，創(chuàng)造出美麗的對(duì)比度和燈光，就像在最好的三 A 游戲中一樣，配以冷色調(diào)

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

當(dāng)玩家打開菜單時(shí)創(chuàng)建界面，我們會(huì)看到貓的角色資料及其裝備以及另一頁顯示活躍任務(wù)（并且它應(yīng)該與我們?cè)趫D像中描述的宇宙世界構(gòu)建有關(guān)系）

遵循指令

GPT?4o 的圖像生成遵循詳細(xì)的提示，注重細(xì)節(jié)。其他系統(tǒng)在處理約 5-8 個(gè)對(duì)象時(shí)會(huì)遇到困難，而 GPT?4o 可以處理多達(dá) 10-20 個(gè)不同的對(duì)象。對(duì)象與其特征和關(guān)系的更緊密綁定可以實(shí)現(xiàn)更好的控制。

一張正方形圖片，包含一個(gè) 4 行 4 列的網(wǎng)格，網(wǎng)格上有 16 個(gè)對(duì)象，背景為白色。從左到右，從上到下。列表如下：1. 一顆藍(lán)色的星星2. 紅色三角形3. 綠色正方形4. 粉色圓圈5. 橙色沙漏6. 紫色無限符號(hào)7. 黑白圓點(diǎn)領(lǐng)結(jié)8. 扎染“42”9. 一只戴著黑色棒球帽的橙色貓10. 一張帶有寶箱的地圖11. 一雙活動(dòng)眼珠12. 一個(gè)豎起大拇指的表情符號(hào)13. 一把剪刀14. 一只藍(lán)白相間的長頸鹿15. 用草書寫的“OpenAI”一詞16. 一道彩虹色的閃電

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖片

情境學(xué)習(xí)

GPT?4o 可以分析和學(xué)習(xí)用戶上傳的圖像，將其細(xì)節(jié)無縫集成到其上下文中以指導(dǎo)圖像生成。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖片

使用這些圖像作為參考，繪制帶有三角形車輪的車輛的設(shè)計(jì)圖。
標(biāo)記前輪、后輪，并在圖表上寫上（小寫）
三角輪車輛。英文專利。2025. OPENAI。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

現(xiàn)在把它放到一張?jiān)诩~約市拍攝的照片中。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖片

世界知識(shí)原生圖像生成使 4o 能夠?qū)⑵渲R(shí)鏈接到文本和圖像之間，從而產(chǎn)生一個(gè)感覺更智能、更高效的模型。

示例：可以通過代碼來修改圖像。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖片

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

照片寫實(shí)主義和風(fēng)格

通過對(duì)反映各種圖像風(fēng)格的圖像進(jìn)行訓(xùn)練，模型可以令人信服地創(chuàng)建或轉(zhuǎn)換圖像。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū)

一種新型的圖片生成方式

一位hackernews用戶表示：關(guān)于這種新型圖像生成方式，它通過代token而不是擴(kuò)散來實(shí)現(xiàn)，重要的是它實(shí)際上是在像素空間中進(jìn)行推理。例如：讓它畫一個(gè)帶有空白井字棋格的記事本，然后告訴它先走一步，接著你走一步，如此循環(huán)。

你還可以進(jìn)行一些非常令人印象深刻的、保留信息的轉(zhuǎn)換，比如改變繪畫風(fēng)格，或者像“將白天變?yōu)橐雇怼?，或者“給他戴上一頂帽子”之類的操作。

“我感覺這些模型在分辨率方面相當(dāng)受限，但在這個(gè)領(lǐng)域進(jìn)一步的研究將讓我們能夠做出一些真正瘋狂的事情，比如讓模型分步驟完全用圖像創(chuàng)建一個(gè)應(yīng)用程序，本質(zhì)上是用文字設(shè)計(jì)整個(gè)應(yīng)用程序，包括文字內(nèi)容等，然后生成代碼來重現(xiàn)它。這也意味著一個(gè)模型可以接替一個(gè)優(yōu)秀的擴(kuò)散模型，即使最初的生成效果不佳，它也可以在外部圖像上繼續(xù)“推理”?！?/p>

最后，一旦這些模型的速度提升，你可以想象一個(gè)真正的生成式用戶界面，模型根據(jù)發(fā)送給LLM的事件生成你正在使用的應(yīng)用程序的下一幀（LLM可以像平時(shí)一樣使用工具、思考等）。然而，我也相信擴(kuò)散模型可以以更快的方式完成其中的一些任務(wù)。

甚至有網(wǎng)友曬出了一張被倒?jié)M的酒杯的生成圖像來證明OpenAI攻克了很多業(yè)界不能突破的難題。

OpenAI在圖片領(lǐng)域站起來了！-AI.x社區(qū) 圖片

今日即可訪問和可用性

從今天開始，4o 圖像生成將作為 ChatGPT 中的默認(rèn)圖像生成器向 Plus、Pro、Team 和 Free 用戶推出，Enterprise 和 Edu 即將推出。它也可以在 Sora 中使用。對(duì)于那些對(duì) DALL·E 情有獨(dú)鐘的人來說，仍然可以通過專用的 DALL·E GPT 訪問它。

沒錯(cuò)，免費(fèi)用戶也可以用，小編也嘗鮮了一把。

同時(shí)，開發(fā)人員很快就能通過 API 使用 GPT-4o 生成圖像，并將在未來幾周內(nèi)推出訪問權(quán)限。

OpenAI在圖片生成領(lǐng)域不是最早的，前有StableDifussion，后有Midjourney，但大模型的世界就是這么變幻莫測，OpenAI在圖片領(lǐng)域這次可以說是成功逆襲了。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

文生圖模型又卷起來了，Stable Diffusion涼涼，Midjourney流量被反超

liutao988 ? 3109瀏覽 ? 0回復(fù)
在ChatGPT中，能用DALL·E 3編輯圖片啦！

Aceryt ? 3933瀏覽 ? 0回復(fù)
告別偏科，能玩轉(zhuǎn)多模態(tài)、多任務(wù)、多領(lǐng)域的強(qiáng)化智能體終于來了

輕薄滴假象 ? 2146瀏覽 ? 0回復(fù)
AI視頻新霸主全網(wǎng)翻車，Ilya奧特曼老黃打起來了！動(dòng)畫出現(xiàn)詭異狗頭網(wǎng)友笑瘋

duhorse ? 2607瀏覽 ? 0回復(fù)
在圖像生成領(lǐng)域，自回歸可以打敗擴(kuò)散模型嗎？

angel ? 3485瀏覽 ? 0回復(fù)
大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望

AIRoobt ? 5146瀏覽 ? 0回復(fù)
大模型在機(jī)器人領(lǐng)域的應(yīng)用：機(jī)遇、挑戰(zhàn)與前景

AIRoobt ? 3848瀏覽 ? 0回復(fù)
MiniCPM3.0在智能助手領(lǐng)域的具體應(yīng)用

黑金IT ? 2074瀏覽 ? 0回復(fù)
OpenAI 發(fā)布新模型 o1，能夠推理復(fù)雜任務(wù)，在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域更牛

AI洞察Insight ? 2221瀏覽 ? 0回復(fù)
大模型技術(shù)在AIGC領(lǐng)域所面臨的主要問題

AI探索時(shí)代 ? 2504瀏覽 ? 0回復(fù)
微軟研究院新突破：如何讓AI在專業(yè)領(lǐng)域更靠譜？

Halo咯咯 ? 1684瀏覽 ? 0回復(fù)
大型語言模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用：探究Med-PaLM

Halo咯咯 ? 2266瀏覽 ? 0回復(fù)
Kimi官宣，國內(nèi)首個(gè)對(duì)標(biāo)OpenAI的數(shù)學(xué)模型來了

風(fēng)云2002_1 ? 1789瀏覽 ? 0回復(fù)
解鎖AI潛力：AI在銷售領(lǐng)域的應(yīng)用案例(非Chatbot)

Baihai_IDP ? 2393瀏覽 ? 0回復(fù)
OpenAI 宣布 OpenAI o3：人工智能推理領(lǐng)域的顯著進(jìn)步，在 Arc AGI 基準(zhǔn)測試中得分為 87.5%

Halo咯咯 ? 2117瀏覽 ? 0回復(fù)
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.4w瀏覽 ? 0回復(fù)
純研究O1的論文都發(fā)出來了，讓我想起來研究紅樓夢的紅學(xué)

熵減AI ? 1485瀏覽 ? 0回復(fù)
微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

Aceryt ? 1599瀏覽 ? 0回復(fù)
關(guān)于個(gè)人的創(chuàng)業(yè)想法——基于人工智能技術(shù)在垂直領(lǐng)域解決方案的探索

AI探索時(shí)代 ? 424瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：阿里震撼發(fā)布，32B的Qwen2.5，開發(fā)者福音！實(shí)測：AI可以幫抓小偷了！

下一篇： AI巨頭畫餅被戳穿！研究員警告：比起專注開發(fā)諾獎(jiǎng)級(jí)AI，取代白領(lǐng)工作更有利可圖！

社區(qū)精華內(nèi)容

目錄

<s id="rqxkq"></s>

<cite id="rqxkq"><track id="rqxkq"></track></cite><sub id="rqxkq"><s id="rqxkq"></s></sub><cite id="rqxkq"><rp id="rqxkq"></rp></cite>

<s id="rqxkq"></s>