自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="7gp4z"></sup>

<sub id="7gp4z"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

“計(jì)算機(jī)視覺(jué)被GPT-4o終結(jié)了”（狗頭）

作者：量子位 2025-03-31 08:44:00

人工智能新聞

這是NASA前工程師測(cè)試特斯拉自動(dòng)駕駛系統(tǒng)的偽裝“隱形墻”，在GPT-4o面前也無(wú)所遁形。

一夜之間，CV被大模型“解決”了（狗頭）。

萬(wàn)物皆可吉卜力之后，GPT-4o原生多模態(tài)圖像生成更多玩法被開(kāi)發(fā)出來(lái)。

一個(gè)男友回頭表情包，可以秒變語(yǔ)義分割圖。

也可以秒變深度圖。

這下不光上一代AI畫(huà)圖工具和設(shè)計(jì)師，計(jì)算機(jī)視覺(jué)研究員也哭暈在廁所了。

這是NASA前工程師測(cè)試特斯拉自動(dòng)駕駛系統(tǒng)的偽裝“隱形墻”，在GPT-4o面前也無(wú)所遁形。

這下OpenAI應(yīng)用研究主管Boris Power已經(jīng)把腦筋動(dòng)到了自動(dòng)駕駛，稱(chēng)只需要訓(xùn)練最強(qiáng)大的基礎(chǔ)模型，然后微調(diào)。

3D渲染領(lǐng)域也慘遭毒手，GPT-4o可以生成PBR材質(zhì)（基于物理渲染的材質(zhì)），紋理、法線(xiàn)貼圖等直接來(lái)一套。

對(duì)于這些能力，也有人認(rèn)為沒(méi)什么大不了的，Stable Diffusion + ControlNet就可以全部實(shí)現(xiàn)。

但不可否認(rèn)，靠擴(kuò)大基礎(chǔ)模型規(guī)模就能做到，也是令人意想不到的。

GPT-4o圖像生成是自回歸模型

這波GPT-4o原生圖像生成的技術(shù)細(xì)節(jié)，OpenAI是一點(diǎn)也沒(méi)有公布（粗節(jié)也沒(méi)有公布）。

但還是有人從System Card中發(fā)現(xiàn)了蛛絲馬跡。

與DALL·E是一個(gè)擴(kuò)散模型不同，GPT-4o圖像生成是原生嵌入在ChatGPT內(nèi)的自回歸模型。

還有人觀(guān)察圖像的生成過(guò)程，發(fā)現(xiàn)很可能是多尺度自回歸的組合，先生成一個(gè)粗略的圖像，填充細(xì)節(jié)的同時(shí)，粗略圖形本身也在變化。

自回歸模型根據(jù)之前的像素或patch預(yù)測(cè)下一個(gè)像素或patch，獲得更好地遵循指令，以及圖像編輯的能力。

但也有人引用發(fā)OpenAI員工Allan Jabri曬出的板書(shū)圖，提出在解碼階段仍然有可能用了擴(kuò)散模型。

針對(duì)這一猜想，更具體的實(shí)現(xiàn)方法可以參考Meta等24年8月的一篇論文：使用一個(gè)多模態(tài)模型同時(shí)預(yù)測(cè)預(yù)測(cè)下一個(gè)token和擴(kuò)散圖像。

最后，微信評(píng)論區(qū)能發(fā)圖片了，歡迎大家把更多GPT-4o有趣玩法曬出來(lái)～

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

責(zé)任編輯：張燕妮來(lái)源：量子位

GPT-4o 模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)