自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

剛剛，GPT-4o原生圖像生成上線，P圖、生圖也就一嘴的事

作者：機(jī)器之心 2025-03-26 09:13:02

人工智能新聞

毫無預(yù)告地，OpenAI 推出 GPT-4o 原生圖像生成。效果讓人驚嘆不已。更妙的是，即使免費(fèi)用戶也可使用。

就在 DeepSeek V3「小版本更新」，阿里通義千問團(tuán)隊(duì)開源了新模型后，OpenAI 深夜也悄悄搞事情。

毫無預(yù)告地，OpenAI 推出 GPT-4o 原生圖像生成。效果讓人驚嘆不已。更妙的是，即使免費(fèi)用戶也可使用。

先來體驗(yàn)一下：

在生成結(jié)果中可以看到，GPT-4o 在執(zhí)行任務(wù)時(shí)首先會(huì)對(duì)我們的原始提示詞進(jìn)行優(yōu)化，編寫一個(gè)更加詳細(xì)的英文版提示詞：

在 OpenAI 看來，圖像生成應(yīng)該是語言模型的核心能力之一。因此他們將最先進(jìn)的圖像生成器 4o 集成到了 GPT-4o 中。

2024 年 5 月，OpenAI 發(fā)布其首個(gè)全能多模態(tài)模型 GPT-4o，與 ChatGPT 之前采用的生成式 AI 圖像模型（OpenAI 的 DALL-E 3）不同 —— 這個(gè)經(jīng)典的 diffusion transformer 通過去除像素噪聲來根據(jù)文本提示重建圖像 —— 新的圖像生成器被整合到了同一個(gè)多模態(tài)模型中。OpenAI 對(duì)整個(gè)模型進(jìn)行了統(tǒng)一訓(xùn)練，使其能夠同時(shí)理解文本、代碼和圖像等多種形式。

GPT-4o 的圖像生成能力具有以下突出優(yōu)勢：它能精準(zhǔn)呈現(xiàn)文字內(nèi)容，嚴(yán)格遵循指令要求，并充分調(diào)用 4o 內(nèi)置知識(shí)庫和對(duì)話上下文 —— 包括對(duì)上傳圖像進(jìn)行轉(zhuǎn)化處理或?qū)⑵渥鳛橐曈X靈感來源。這些特性讓用戶能更輕松地創(chuàng)造出與構(gòu)想完全一致的圖像，通過視覺表達(dá)實(shí)現(xiàn)更高效的溝通，從而將圖像生成技術(shù)升級(jí)為兼具精確性與實(shí)用性的強(qiáng)大工具。

效果如何，我們接著往下看。

有用且美麗的圖像生成

OpenAI 基于在線圖像和文本對(duì)模型進(jìn)行了訓(xùn)練，這不僅讓模型學(xué)習(xí)了圖像與語言之間的關(guān)系，還學(xué)習(xí)了圖像之間的相互關(guān)系。結(jié)合后訓(xùn)練，最終的模型具有令人驚訝的視覺流暢性，能夠生成有用、一致且具有上下文感知能力的圖像。

文本渲染

一圖勝千言，但有時(shí)在恰當(dāng)位置生成幾個(gè)字就能升華圖像意境。4o 將精準(zhǔn)符號(hào)與視覺元素完美融合的能力，使圖像生成進(jìn)階為真正的視覺傳達(dá)工具。

提示：「創(chuàng)建一張逼真的照片，內(nèi)容是兩名 20 多歲的女巫（一名是灰白色挑染發(fā)型，另一名是長卷的紅褐色頭發(fā)）正在閱讀一個(gè)街標(biāo)。

背景：紐約威廉斯堡一條普通的城市街道，一根電線桿上完全被許多詳細(xì)的街標(biāo)覆蓋（例如，街道清掃時(shí)間、需要停車許可證、車輛分類、拖車規(guī)則），包括中間的幾個(gè)荒謬的標(biāo)志：Broom Parking for Witches Not Permitted in Zone C，Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。

人物：一名女巫拿著一把掃帚，另一名女巫拿著一個(gè)卷起的魔法地毯。她們?cè)谇熬爸?，身體微微背向相機(jī)，頭部微微傾斜，仔細(xì)查看標(biāo)志。

從背景到前景的構(gòu)圖：街道 + 停放的汽車 + 建筑物 → 街標(biāo) → 女巫。人物必須是離拍攝相機(jī)最近的?！?/span>

這就是生成一張圖片的部分提示詞，提示詞描述的可謂非常詳細(xì)。GPT-4o 不但嚴(yán)格遵循指令，還將提示語中的文本字符也準(zhǔn)確的表達(dá)出來了。

GPT-4o 生成的菜單，不知道的還以為這是一張真實(shí)菜單。

提示：「我在 Marin 開設(shè)了一家名為 Haein 的傳統(tǒng)概念餐廳，主打采用有機(jī)農(nóng)場新鮮食材烹制的韓式料理，并根據(jù)時(shí)令供應(yīng)輪換菜單。請(qǐng)您設(shè)計(jì)一份菜單圖片，需包含以下菜品 —— 整體風(fēng)格要兼顧傳統(tǒng) / 鄉(xiāng)村韻味與高端精致感。請(qǐng)為每道菜品配上優(yōu)雅的彼得兔風(fēng)格的插畫，確保所有文字正確呈現(xiàn)，并使用白色背景。

頂部：大醬湯（發(fā)酵大豆燉菜） - 18 美元

大醬湯是用當(dāng)?shù)氐哪⒐健⒍垢蜁r(shí)令蔬菜做成的，配上米飯……

底部：時(shí)令米酒 —— 每杯 12 美元」

持續(xù)生成

由于圖像生成功能現(xiàn)已深度集成于 GPT-4o 系統(tǒng)，用戶可通過自然對(duì)話實(shí)現(xiàn)圖像優(yōu)化。GPT-4o 能基于聊天上下文中的圖文內(nèi)容持續(xù)創(chuàng)作，確保輸出結(jié)果的一致性。例如在設(shè)計(jì)游戲角色時(shí)，當(dāng)你反復(fù)調(diào)整和測試方案，該角色的外觀特征將在多次迭代中保持高度協(xié)調(diào)。

舉例來說，當(dāng)你輸入一張貓咪的圖片，然后給出提示「給這只貓一頂偵探帽和一副單片眼鏡」，GPT-4o 就能在保持原始圖片的情況下，遵循指令重新生成一張。

你還可以繼續(xù)修改圖片，只要給點(diǎn)提示就可以了，例如給定提示「將這個(gè)場景制作成一款 AAA 級(jí)的 4K 游戲引擎打造的視頻游戲，并添加一個(gè)神秘角色扮演游戲的用戶界面作為覆蓋層。在游戲中，我們可以在頂部看到生命值條和小地圖，底部則顯示法術(shù)圖標(biāo)，整體界面風(fēng)格保持一致且具有標(biāo)志性?！箤?duì)話過程一張精美的圖片就生成了。

除了圖像作為輸入，你也可以從提示入手，例如要求 GPT-4o 生成一張「奢華蛋殼紋理卡片上的詩歌」，然后把詩歌內(nèi)容也附加上，就能出現(xiàn)如下的效果圖，你也可以進(jìn)一步修改，輸入提示就可以了。

指令遵循

GPT-4o 的圖像生成能夠細(xì)致入微地遵循詳細(xì)的提示，注重細(xì)節(jié)。其他系統(tǒng)在處理大約 5 到 8 個(gè)對(duì)象時(shí)可能會(huì)遇到困難，而 GPT-4o 能夠處理多達(dá) 10 到 20 個(gè)不同的對(duì)象。對(duì)象與其特征和關(guān)系的更緊密綁定，使得控制更加精準(zhǔn)。

提示：「一張正方形圖片，包含一個(gè) 4 行 4 列的網(wǎng)格，共有 16 個(gè)物體，背景為白色。從左到右、從上到下依次排列如下：

一顆藍(lán)色的星星

一個(gè)紅色的三角形

一個(gè)綠色的正方形

一個(gè)粉色的圓形

一個(gè)橙色的沙漏

一個(gè)紫色的無窮大符號(hào)

一個(gè)黑白波點(diǎn)圖案的領(lǐng)結(jié)

一個(gè)扎染風(fēng)格的 42 字樣

……

用草書寫成的 OpenAI 字樣

一道彩虹色的閃電」

空曠的城市，提示：下午的紐約時(shí)代廣場，沒有人，沒有車輛，也沒有發(fā)光的廣告牌。

轉(zhuǎn)化數(shù)學(xué)公式：

上下文學(xué)習(xí)

GPT-4o 能夠分析并學(xué)習(xí)用戶上傳的圖像，將圖像的細(xì)節(jié)無縫整合到上下文中，以指導(dǎo)圖像生成。

當(dāng)你輸入幾張圖像，然后給出提示：用這些圖像作為參考，畫一個(gè)三角形車輪的車輛設(shè)計(jì)。

標(biāo)出前輪，后輪，并在圖的下方給出文字（用小大寫）

「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」

提示：藍(lán)色電鋸逼真圖像。

然后再給出提示：為這個(gè)電鋸做個(gè)廣告，一個(gè)奶奶在感恩節(jié)餐桌上切火雞。并添加標(biāo)簽行。

世界知識(shí)

原生圖像生成使 4o 能夠?qū)⑽谋竞蛨D像之間的知識(shí)聯(lián)系起來，從而形成一個(gè)感覺更智能、更高效的模型。

提示：制作一個(gè)視覺信息圖表，描述為什么舊金山如此多霧。

簡單的一句提示，4o 就把影響環(huán)境質(zhì)量的原因用圖片的形式描述出來了?？磥?，4o 掌握的知識(shí)還是很豐富的。

要求 4o 制作一幅關(guān)于如何制作抹茶的彩色圖解，也沒有問題。

風(fēng)格

在反映豐富多樣圖像風(fēng)格的圖像上進(jìn)行訓(xùn)練，使模型能夠令人信服地創(chuàng)建或轉(zhuǎn)換圖像。

提示：一只貓望著街上的水坑，但它的倒影是一只老虎，而且兩種倒影都被水中的漣漪真實(shí)地扭曲了。

提示：創(chuàng)建一張超逼真的照片，內(nèi)容是這四只動(dòng)物在公園的野餐毯上玩撲克，畫面拉遠(yuǎn)，呈現(xiàn)全景，照片風(fēng)格逼真。一只長毛虎斑貓正拿著一手牌……

局限性

OpenAI 沒有避諱自身模型的局限性。他們指出：「我們的模型并不完美。我們目前已經(jīng)看到了其存在多種限制，我們將在首次發(fā)布后通過模型改進(jìn)來解決這些限制?！咕唧w來說，OpenAI 羅列出的限制包括：

裁剪：GPT-4o 有時(shí)會(huì)錯(cuò)誤地裁剪較長的圖像（如海報(bào)），尤其是靠近底部的部分。
幻覺：與其他文本模型一樣，圖像生成模型也可以編造信息，尤其是在上下文提示較少時(shí)。
高結(jié)合問題：當(dāng)生成圖像需要依賴于其知識(shí)庫時(shí)，它可能難以同時(shí)準(zhǔn)確地呈現(xiàn) 10-20 多個(gè)不同的概念，例如完整的元素周期表。
精確繪圖：模型可能在繪制涉及數(shù)據(jù)的圖表時(shí)不準(zhǔn)確。
多語言文本渲染：模型有時(shí)難以渲染非拉丁語言，并且字符可能不準(zhǔn)確或產(chǎn)生幻覺，尤其是在更復(fù)雜的情況下。
編輯精度：當(dāng)要求編輯圖像生成的特定部分（例如拼寫錯(cuò)誤）時(shí)，結(jié)果并不總是有效，還可能出現(xiàn)在沒有請(qǐng)求的情況下更改圖像的其他部分或引入更多錯(cuò)誤的情況。另一個(gè)錯(cuò)誤是模型難以保持用戶上傳的人臉在編輯中的一致性，但 OpenAI 預(yù)計(jì)將在一周內(nèi)修復(fù)該錯(cuò)誤。
小文本信息密集：眾所周知，當(dāng)被要求以非常小的尺寸呈現(xiàn)詳細(xì)信息時(shí)，模型會(huì)遇到困難。

模型難以呈現(xiàn)完整的元素周期表

安全性

OpenAI 也強(qiáng)調(diào)了自己在模型安全方面所做的工作。

按照 OpenAI 之前發(fā)布的 Model Spec（模型規(guī)范），他們的目標(biāo)是「通過支持游戲開發(fā)、歷史探索和教育等有價(jià)值的用例來最大限度地提高創(chuàng)作自由 —— 同時(shí)保持嚴(yán)格的安全標(biāo)準(zhǔn)。與此同時(shí)，阻止違反這些標(biāo)準(zhǔn)的請(qǐng)求仍然和以往一樣重要。」以下是對(duì)其它風(fēng)險(xiǎn)領(lǐng)域的評(píng)估：

通過 C2PA 和內(nèi)部可逆搜索給出出處

所有生成的圖像都將自帶 C2PA 元數(shù)據(jù)，即會(huì)被標(biāo)記成來自 GPT?4o 的圖像。OpenAI 表示，這樣做是為了提供透明性。并且他們宣布已經(jīng)構(gòu)建了一個(gè)內(nèi)部搜索工具，可利用生成結(jié)果的技術(shù)屬性來幫助驗(yàn)證某個(gè)內(nèi)容是否出自他們的模型。

阻止不良內(nèi)容

OpenAI 表示將繼續(xù)阻止可能違反其內(nèi)容政策的生成圖像請(qǐng)求。他們表示，當(dāng)真人圖像處于上下文中時(shí)，會(huì)加強(qiáng)對(duì)可以創(chuàng)建的圖像類型的限制。

「與任何發(fā)布一樣，安全性永不止步，而是一個(gè)持續(xù)的投資領(lǐng)域。隨著我們更多地了解該模型在現(xiàn)實(shí)世界中的使用情況，我們將相應(yīng)地調(diào)整我們的政策?！?/span>

使用推理來增強(qiáng)安全性

與審議性對(duì)齊（deliberative alignment?）類似，OpenAI 表示已經(jīng)訓(xùn)練了一個(gè)可以直接根據(jù)人工編寫的可解釋安全規(guī)范工作的推理 LLM。

「我們?cè)陂_發(fā)過程中使用了這個(gè)推理 LLM 來幫助我們識(shí)別和解決我們政策中的歧義。結(jié)合我們?yōu)?ChatGPT 和 Sora 開發(fā)的多模態(tài)技術(shù)進(jìn)步和現(xiàn)有的安全技術(shù)，這能讓我們根據(jù)我們的政策來調(diào)節(jié)輸入文本和輸出圖像。」

有關(guān)安全性的更多論述和研究結(jié)果請(qǐng)?jiān)L問 OpenAI 同步發(fā)布的 GPT-4o 系統(tǒng)卡附錄。

附錄地址：https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

哪些用戶可以使用？

OpenAI 表示，從今天開始，4o 圖像生成能力將向 Plus、Pro、Team 和免費(fèi)用戶推出，作為 ChatGPT 中的默認(rèn)圖像生成器，企業(yè)版和教育版用戶還需等待一段時(shí)間。它也可以在 Sora 中使用。對(duì)于那些 DALL?E 在其心中占有特殊地位的人來說，仍然可以通過一個(gè)專門的 DALL?E GPT 訪問它。

API 用戶呢？OpenAI 表示也快了：訪問權(quán)限將在未來幾周內(nèi)推出。

最后，OpenAI 表示：「使用 GPT-4o，創(chuàng)建和定制圖像就像天一樣簡單 —— 只需描述你需要什么，包括任何細(xì)節(jié)，如寬高比、使用十六進(jìn)制代碼的精確顏色或透明背景?！共贿^，OpenAI 也指出，由于此模型能生成更詳細(xì)的圖像，因此圖像渲染時(shí)間更長，通常長達(dá)一分鐘。

責(zé)任編輯：張燕妮來源：機(jī)器之心

OpenAI 圖像生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營