自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一句話生成3D建模,OpenAI新模型炸場(chǎng),開源可玩!

原創(chuàng) 精選
人工智能
眾所周知,GPT-4作為目前全世界最先進(jìn)的多模態(tài)大模型,其在對(duì)話、文生圖領(lǐng)域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對(duì)其所擁有的疆域進(jìn)行擴(kuò)張。

作者 | 徐杰承

51CTO讀者成長(zhǎng)計(jì)劃社群招募,咨詢小助手(微信號(hào):CTOjishuzhan)

生成式AI不再滿足于文本和圖像,將戰(zhàn)場(chǎng)擴(kuò)展到三維了!

眾所周知,GPT-4作為目前全世界最先進(jìn)的多模態(tài)大模型,其在對(duì)話、文生圖領(lǐng)域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對(duì)其所擁有的疆域進(jìn)行擴(kuò)張。

就在上周,OpenAI悄悄發(fā)布了最新的文字生成3D模型Shap·E,并一改此前的“保守態(tài)度”在Github上對(duì)該模型進(jìn)行了開源(項(xiàng)目地址:https://github.com/openai/shap-e,截止發(fā)稿前Stars已經(jīng)5.5K)。就連OpenAI總裁Greg Brockman也親自發(fā)推為Shap·E打了一波廣告。

圖片

1、Shap·E能做什么?

根據(jù)Github和相關(guān)論文介紹,Shap·E是OpenAI最新提出的一款三維資產(chǎn)的條件生成模型,當(dāng)在大數(shù)據(jù)集中訓(xùn)練成對(duì)的文本數(shù)據(jù)及3D模型后,Shap·E能夠在極短時(shí)間內(nèi)反饋復(fù)雜多樣的3D資產(chǎn)。簡(jiǎn)而言之,當(dāng)用戶輸入一段簡(jiǎn)單的文字描述后,Shap·E在幾秒鐘內(nèi)便能為用戶生成對(duì)應(yīng)的3D建模。

圖片

與其他單一輸出表示的3D生成模型不同,Shap·E采用了3D模型領(lǐng)域創(chuàng)新的隱式神經(jīng)表示(INR),支持神經(jīng)輻射場(chǎng)(NeRF)和紋理網(wǎng)格(DMTet)兩種方法。這意味著Shap·E可以直接生成可渲染的隱式函數(shù)的參數(shù),從而更快、更準(zhǔn)確地生成3D建模。

對(duì)于Shap·E的突然問世,部分用戶及業(yè)內(nèi)人士猜測(cè),OpenAI很有可能正在為GPT-4到GPT-4.5的升級(jí)進(jìn)行準(zhǔn)備,經(jīng)歷下一個(gè)大階段升級(jí)后的ChatGPT將很有可能會(huì)新增生成3D建模的能力。

2、Shap·E的技術(shù)創(chuàng)新

與此前業(yè)內(nèi)所發(fā)布的其他的文生3D模型相比,Shap·E擁有更快的收斂速度,且所生成的3D建模擁有更高的質(zhì)量。這主要是由于研發(fā)團(tuán)隊(duì)在模型訓(xùn)練過程中采用了神經(jīng)輻射場(chǎng)(NeRF)技術(shù)并利用潛在向量序列代替了點(diǎn)云模式。

作為一種基于神經(jīng)網(wǎng)絡(luò)的3D重建技術(shù),NeRF能夠?qū)?chǎng)景建模成一個(gè)連續(xù)的5D輻射場(chǎng)隱式存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)之中,只需輸入多角度2D圖像,便能通過訓(xùn)練得到完整的輻射場(chǎng)模型并根據(jù)模型渲染出任意視角下建模的清晰圖像。相當(dāng)于從2D圖像中組建出模型的3D畫面,從而實(shí)現(xiàn)對(duì)物體的精確定位。

圖片

除此之外,NeFR的另一個(gè)優(yōu)勢(shì)在與其能夠在低功耗的設(shè)備上進(jìn)行渲染。高質(zhì)量的NeRF甚至能夠在手機(jī)或網(wǎng)絡(luò)瀏覽器上完成對(duì)復(fù)雜形狀光線追蹤、高幀率、高分辨率逼真場(chǎng)景的渲染。除此之外NeFR還能夠處理透明和反射材料,使得虛擬建模更加逼真。

然而,雖然相比于傳統(tǒng)的基于集合的建模方法,NeRF在處理光線、反射等問題方面擁有更強(qiáng)的性能,但該技術(shù)也擁有兩個(gè)較為明顯的缺點(diǎn)——算力消耗大與圖像生成速度慢。

為解決該問題,研發(fā)團(tuán)隊(duì)將Shap·E的訓(xùn)練分為了兩個(gè)階段,首先對(duì)編碼器訓(xùn)練,使編碼器能將3D資產(chǎn)映射到隱式函數(shù)參數(shù)中;其次在編碼器的輸出上訓(xùn)練條件擴(kuò)散模型。與此前不同的是,Shap·E使用潛在向量序列代替了點(diǎn)云模式,可同時(shí)生成NeRF和DMTet并允許它們以多種方式呈現(xiàn)。

這也使得利用新方法訓(xùn)練的Shap·E模型與其他文生3D模型相比擁有更高的推理能力、3D模型生成質(zhì)量以及模型生成效率。與此同時(shí),也使模型的算力消耗保持在了一個(gè)相對(duì)較低的水平。

圖片

3、缺陷與局限性

當(dāng)然,即便Shap·E的綜合能力相比于現(xiàn)階段同類型模型算得上優(yōu)秀,但畢竟對(duì)目前的科技基礎(chǔ)而言,我們?cè)谖纳?D建模領(lǐng)域的技術(shù)積累還是要弱于對(duì)話以及文生圖領(lǐng)域。

雖然Shap·E可以理解很多具有簡(jiǎn)單屬性的單個(gè)對(duì)象的提示,但其在構(gòu)建概念方面的能力依然比較有限。在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)該模型很難將多個(gè)屬性綁定到不同對(duì)象,并且在用戶要求生成多個(gè)3D建模時(shí),Shap·E有時(shí)無法生成正確數(shù)量的對(duì)象。

圖片

除此之外,雖然Shap·E通常能夠根據(jù)描述生成可是別的3D建模,但生成樣本通??雌饋砺燥@粗糙或者缺少精致的細(xì)節(jié),并且編碼器本身有時(shí)就會(huì)丟失一些細(xì)節(jié)紋理。

為了獲得更好的效果,研發(fā)人員正在計(jì)劃嘗試將Shap·E與基于優(yōu)化的3D生成技術(shù)相結(jié)合。例如將Shep·E生成的NeRF或網(wǎng)格用于初始化基于優(yōu)化的方法;或者將基于圖像的物鏡用于指導(dǎo)建模形狀的取樣過程。然而目前以上方式仍處于研發(fā)和測(cè)試過程。

有業(yè)內(nèi)相關(guān)的算法工程師建議,這個(gè)項(xiàng)目的門檻較高,吃瓜群眾還是別浪費(fèi)時(shí)間跑了,而且效果目前也沒有達(dá)到圖片生成那種驚艷的效果,不能直接用來做一些素材的生產(chǎn)。

4、文生3D的未來

在ChatGPT引領(lǐng)人們進(jìn)入AI2.0時(shí)代后,在極短的時(shí)間內(nèi),人們對(duì)AI的渴望便已經(jīng)從簡(jiǎn)單的文本、圖像擴(kuò)展到了視頻甚至三維領(lǐng)域。事實(shí)上,如今也已有不少科技企業(yè)正在朝向文生3D的領(lǐng)域邁進(jìn)。

去年年底,NVIDIA研究院便發(fā)布了Magic3D文本生成3D模型,可以用于創(chuàng)建較高質(zhì)量的三位網(wǎng)格模型,并支持圖像生成和基于提示的圖像編輯。谷歌也在數(shù)月前開放了自己的神經(jīng)網(wǎng)絡(luò)Imagen,其可以在不經(jīng)過人工數(shù)據(jù)標(biāo)注的情況下實(shí)現(xiàn)從文本描述生成三維模型,并能處理較為復(fù)雜的文本輸入。

而就在近日,一款名為ChatAvatar的專注于人物面部文生3D模型的產(chǎn)品也已開啟公測(cè),并快速獲得了70余萬瀏覽與關(guān)注。截止目前,不少用戶已經(jīng)利用該產(chǎn)品創(chuàng)建出了逼真度極高的個(gè)人專屬3D形象。

圖片

就目前而言,在以游戲、影視、建筑設(shè)計(jì)為代表的行業(yè)中,3D內(nèi)容的生產(chǎn)與消費(fèi)市場(chǎng)其實(shí)已經(jīng)非常龐大,但在過去大量的內(nèi)容生產(chǎn)受限于較高的技術(shù)要求,使得只有少部分具備專業(yè)技能的從業(yè)者能夠參與其中,但隨著文生3D模型及產(chǎn)品的逐漸成熟,這種情況將很有可能會(huì)被顛覆。

除此之外,盡管現(xiàn)階段文生3D模型或衍生產(chǎn)品在建模細(xì)節(jié)和精度方面仍有所欠缺,但已有部分業(yè)內(nèi)人士開始嘗試將文生圖工具如Midjourney與之結(jié)合,以改善所生成模型的細(xì)節(jié)質(zhì)量。一旦將來文生3D建模的技術(shù)更加成熟,大量行業(yè)的產(chǎn)出和進(jìn)化速度都將實(shí)現(xiàn)飛躍。

5、更廣闊的想象空間

文生3D的研究是一個(gè)非常重要的方向,作為如今AI領(lǐng)域走在最前沿的探路者,OpenAI發(fā)布Shap·E可以說也在一定程度上證實(shí)了這個(gè)理論。

在文生3D領(lǐng)域,文本作為一種更通用且更簡(jiǎn)單的媒介,可以很好的表達(dá)和傳播3D內(nèi)容,使用戶能夠通過文本實(shí)現(xiàn)對(duì)大量三維內(nèi)容的創(chuàng)作、修改及傳播,為用戶提供更加方便且友好的三維內(nèi)容交互及共享機(jī)制。

高質(zhì)量的文生3D模型在未來也將擁有非常廣泛的應(yīng)用場(chǎng)景,如游戲、動(dòng)畫、建筑、教育、醫(yī)療、娛樂等;包括VR/AR、3D打印等業(yè)務(wù)場(chǎng)景,文生3D工具都能夠?yàn)槠涮峁┎蝗菪∮U的效率提升。

文生3D工具可以讓沒有復(fù)雜建模軟件基礎(chǔ)及設(shè)計(jì)能力的用戶通過簡(jiǎn)單的文本描述生成自己所需的高質(zhì)量的3D模型。而對(duì)于專業(yè)的建模師來說,此類模型或衍生工具的問世也將能夠大幅提升其工作效率。

當(dāng)然,這里可能有人會(huì)說“AI又將摧毀了一個(gè)行業(yè)”。但觀察其他領(lǐng)域我們其實(shí)不難發(fā)現(xiàn),像ChatGPT之于作家、Copilot之于程序員、Midjourney之于設(shè)計(jì)師,善用工具的人從來不會(huì)被時(shí)代淘汰,并且他們始終都能夠走在大部分人的身前。

參考鏈接:

https://analyticsindiamag.com/openai-releases-shap-e-nerf-enabled-generative-model/

https://arxiv.org/pdf/2305.02463.pdf

https://www.163.com/dy/article/I474EGMT055240KW.html

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-05-08 15:44:23

3D數(shù)字人

2023-08-28 00:53:03

AI3D

2021-12-30 10:00:07

3DAI 人工智能

2024-02-08 09:33:37

蘋果AI

2023-10-09 12:45:09

數(shù)據(jù)訓(xùn)練

2023-10-25 14:17:00

2023-09-05 23:34:52

Kubernetes云原生

2023-12-14 12:51:28

LLM3D場(chǎng)景

2022-12-12 13:45:46

模型修圖

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2019-09-05 10:13:28

2025-03-17 08:55:00

AI開源模型

2025-01-03 11:37:13

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2010-03-29 11:55:12

無線上網(wǎng)報(bào)錯(cuò)

2022-09-30 15:35:43

AI視頻

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)