“計(jì)算機(jī)視覺(jué)被GPT-4o終結(jié)了”(狗頭)
一夜之間,CV被大模型“解決”了(狗頭)。
萬(wàn)物皆可吉卜力之后,GPT-4o原生多模態(tài)圖像生成更多玩法被開(kāi)發(fā)出來(lái)。
一個(gè)男友回頭表情包,可以秒變語(yǔ)義分割圖。
也可以秒變深度圖。
這下不光上一代AI畫(huà)圖工具和設(shè)計(jì)師,計(jì)算機(jī)視覺(jué)研究員也哭暈在廁所了。
這是NASA前工程師測(cè)試特斯拉自動(dòng)駕駛系統(tǒng)的偽裝“隱形墻”,在GPT-4o面前也無(wú)所遁形。
這下OpenAI應(yīng)用研究主管Boris Power已經(jīng)把腦筋動(dòng)到了自動(dòng)駕駛,稱(chēng)只需要訓(xùn)練最強(qiáng)大的基礎(chǔ)模型,然后微調(diào)。
3D渲染領(lǐng)域也慘遭毒手,GPT-4o可以生成PBR材質(zhì)(基于物理渲染的材質(zhì)),紋理、法線(xiàn)貼圖等直接來(lái)一套。
對(duì)于這些能力,也有人認(rèn)為沒(méi)什么大不了的,Stable Diffusion + ControlNet就可以全部實(shí)現(xiàn)。
但不可否認(rèn),靠擴(kuò)大基礎(chǔ)模型規(guī)模就能做到,也是令人意想不到的。
GPT-4o圖像生成是自回歸模型
這波GPT-4o原生圖像生成的技術(shù)細(xì)節(jié),OpenAI是一點(diǎn)也沒(méi)有公布(粗節(jié)也沒(méi)有公布)。
但還是有人從System Card中發(fā)現(xiàn)了蛛絲馬跡。
與DALL·E是一個(gè)擴(kuò)散模型不同,GPT-4o圖像生成是原生嵌入在ChatGPT內(nèi)的自回歸模型。
還有人觀(guān)察圖像的生成過(guò)程,發(fā)現(xiàn)很可能是多尺度自回歸的組合,先生成一個(gè)粗略的圖像,填充細(xì)節(jié)的同時(shí),粗略圖形本身也在變化。
自回歸模型根據(jù)之前的像素或patch預(yù)測(cè)下一個(gè)像素或patch,獲得更好地遵循指令,以及圖像編輯的能力。
但也有人引用發(fā)OpenAI員工Allan Jabri曬出的板書(shū)圖,提出在解碼階段仍然有可能用了擴(kuò)散模型。
針對(duì)這一猜想,更具體的實(shí)現(xiàn)方法可以參考Meta等24年8月的一篇論文:使用一個(gè)多模態(tài)模型同時(shí)預(yù)測(cè)預(yù)測(cè)下一個(gè)token和擴(kuò)散圖像。
最后,微信評(píng)論區(qū)能發(fā)圖片了,歡迎大家把更多GPT-4o有趣玩法曬出來(lái)~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model