自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4、Midjourney之外,譚平創(chuàng)業(yè)團(tuán)隊(duì)要造一個3D基礎(chǔ)模型

人工智能 新聞
生成式 AI 是 AI 發(fā)展的新的里程牌。其中,3D 生成是 AIGC 發(fā)展的重要方向,也是行業(yè)難點(diǎn)。光影煥像團(tuán)隊(duì)具有世界頂尖的理論水平和扎實(shí)的實(shí)踐功底,從基礎(chǔ)模型層面上解決了包括生成模型的幾何不一致和隨機(jī)物體的自適應(yīng)抓取等行業(yè)關(guān)鍵問題,使得 AI 向?qū)嵱没~出關(guān)鍵的一步。

前段時間,OpenAI 發(fā)布了文生圖模型 DALL?E 3,生成效果非常驚艷。比如,你可以讓它一次畫出幾十個物體,然后再要求它把這些物體全部放到一個沖浪者的背上:  

圖片

可以看到,DALL?E 3 不僅畫出了足量的物體,就連沖浪者面對重壓時的神情都刻畫了出來。

但細(xì)心的網(wǎng)友也發(fā)現(xiàn)了一些問題:圖中的鉛筆等物體比例不太正常,模型似乎不太理解日常物品的大小比例關(guān)系。

類似的問題其實(shí)不僅存在于 DALL?E 3 等二維圖像生成模型。當(dāng)生成維度提升到三維時,問題變得更加突出:生成的動物可能會有多張臉、多個頭或臉部凹陷而非凸起。這些在人類看起來屬于常識的東西,模型似乎沒有學(xué)到。

圖片

在香港科技大學(xué)電子與計(jì)算機(jī)工程系教授譚平看來,這些問題之所以存在,是因?yàn)楝F(xiàn)有的基礎(chǔ)模型并沒有充分地在 3D 維度上去理解真實(shí)世界。

「AI 最終需要解決真實(shí)世界的問題,那就必須要和物理世界發(fā)生聯(lián)系。而我們這個物理世界是 3D 的,所以自然而然,AI 必須理解 3D,從而理解物理世界?!?譚平指出。

作為在計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)領(lǐng)域工作了 20 多年的資深學(xué)者,譚平一直認(rèn)為,3D 是人類視覺認(rèn)知世界的基礎(chǔ),因此 3D 信息對于模型準(zhǔn)確理解真實(shí)世界非常關(guān)鍵。它和之前被大量利用的文字信息互為補(bǔ)充,是一個亟待挖掘的「富礦」。如果能夠創(chuàng)建一個 3D 基礎(chǔ)模型,有效地挖掘這個「富礦」,AI 有望從語言走向物理,從字面走向現(xiàn)實(shí),成為真正的、對真實(shí)世界有著深刻理解的「通用模型」。

圖片

譚平的 Google Scholar 主頁,其論文被引量達(dá)到了五位數(shù)。

基于這一理念,他所創(chuàng)立的 AI 科技公司 —— 光影煥像(Light Illusions)已經(jīng)實(shí)現(xiàn)了一些基礎(chǔ)技術(shù)上的突破:包括更準(zhǔn)確的 3D 重建和更優(yōu)秀的文生 3D 效果。

圖片

這些成果不僅可以應(yīng)用于游戲、影視制作等行業(yè),還會對 XR、具身智能等領(lǐng)域產(chǎn)生重要影響。

不過,由于 3D 數(shù)據(jù)嚴(yán)重匱乏,這件事做起來并不容易。為了了解該公司背后的技術(shù)以及這些技術(shù)可能創(chuàng)造的社會價(jià)值,機(jī)器之心與譚平博士展開了深入對談。

3D 基礎(chǔ)模型:AI 走向現(xiàn)實(shí)的必由之路

為什么要構(gòu)建一個 3D 基礎(chǔ)模型?在回答這個問題時,譚平選擇從大規(guī)模預(yù)訓(xùn)練模型的本質(zhì)開始講起。

他表示,預(yù)訓(xùn)練模型本質(zhì)上是在學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律,希望從數(shù)據(jù)中發(fā)掘出各種對象之間的關(guān)聯(lián)性,也就是「知識」。人類上千年文明沉淀下來的文字就蘊(yùn)含了豐富的知識,比如邏輯、文學(xué)、歷史、政治這些抽象的知識,所以能夠訓(xùn)練出 GPT-4 這類優(yōu)秀的大型語言模型。

但是,真實(shí)世界還有很多要素是難以被準(zhǔn)確描述的,或因?yàn)樗究找姂T很少被描述,包括空間結(jié)構(gòu)、幾何形狀、3D 運(yùn)動、接觸變形等等。

「由于文字存在這些局限,大家買房都需要看戶型圖,甚至通過 VR 看房來了解房間的空間結(jié)構(gòu),而不是光看文字描述;而設(shè)計(jì)師也需要給用戶寄送 3D 樣品才能讓對方準(zhǔn)確理解新產(chǎn)品的外觀?!棺T平舉例說。

所以,譚平認(rèn)為,要實(shí)現(xiàn)通用人工智能(AGI),我們需要兩種類型的基礎(chǔ)模型:一種是今天大家熟知的大語言模型(LLM),另一種則是視覺模型。兩種模型學(xué)到的是不同類型的知識,互為補(bǔ)充。

不過,當(dāng)前的一些視覺模型(比如 Midjourney)多是利用 2D 圖像來訓(xùn)練的,因?yàn)檫@類數(shù)據(jù)數(shù)量龐大,模型可以從中學(xué)到不同物體所具備的特征以及特征之間的關(guān)聯(lián),具有很強(qiáng)的泛化性。但美中不足的是,這些數(shù)據(jù)終究只記錄了真實(shí)世界的一個側(cè)面,或者說投影,會嚴(yán)重影響模型的學(xué)習(xí)效率,出現(xiàn)前面提到的多頭、多臉等問題。而如果將模型對數(shù)據(jù)的理解上升到 3D 維度,很多問題就會迎刃而解。

「自然界里面其實(shí)也是這個樣子。所有的處于食物鏈頂端的物種,比如說靈長類和所有的猛禽、猛獸都是雙眼朝前的,因?yàn)橹挥须p眼朝前才有所謂的雙目視覺,才能更好地感知三維信息。」譚平類比說。

圖片

因此,他們希望構(gòu)建一個 3D 基礎(chǔ)模型,來讓機(jī)器更深刻地理解真實(shí)世界,并以此為基礎(chǔ)改造世界。從技術(shù)上來講,這個模型要能夠幫助機(jī)器感知 3D 物體、3D 環(huán)境,理解形狀、距離、空間位置關(guān)系等要素。同時,它還要有預(yù)判能力,預(yù)判這個 3D 世界將如何隨時間演化,推演可能發(fā)生的事件。「比如,家庭服務(wù)機(jī)器人需要知道花瓶掉落地面可能會摔壞,自動駕駛汽車需要知道墻拐角后面可能會有車或人?!棺T平舉例說。

圖片

「3D 基礎(chǔ)模型是一個非常宏大的目標(biāo),是讓 AI 從語言走向物理,從字面走向現(xiàn)實(shí)的必由之路。一旦實(shí)現(xiàn)這個目標(biāo),機(jī)器就可以構(gòu)建一個真實(shí)世界的虛擬數(shù)字復(fù)刻,在這個數(shù)字復(fù)刻中模擬、仿真各種可能性,并通過機(jī)器人技術(shù)最終改造真實(shí)世界?!惯@是譚平帶領(lǐng)的光影煥像希望達(dá)到的最終愿景。

在技術(shù)路線上,譚平認(rèn)為,3D 基礎(chǔ)模型也將采用和文本、圖像一致的生成式預(yù)訓(xùn)練方式。因?yàn)樯赡P筒捎米员O(jiān)督學(xué)習(xí)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以非常有效地處理海量訓(xùn)練數(shù)據(jù)。不過,在此之前,他們必須解決一個問題:如何在 3D 數(shù)據(jù)極度匱乏的情況下訓(xùn)練 3D 生成模型。

3D 數(shù)據(jù):表達(dá)真實(shí)世界的稀缺「富礦」

預(yù)訓(xùn)練模型的本質(zhì)是從數(shù)據(jù)中提煉知識。從這個角度來看,我們可以從兩個維度來考察數(shù)據(jù)的價(jià)值:一個是數(shù)據(jù)中知識的豐富度,另一個是數(shù)據(jù)的規(guī)模。作為真實(shí)世界的一種高度精確的表達(dá)方式,3D 數(shù)據(jù)毫無疑問具有很高的知識豐富度,就像經(jīng)濟(jì)價(jià)值極高的「富礦」。但從數(shù)據(jù)規(guī)模上來看,3D 數(shù)據(jù)是極度稀缺的,因?yàn)檫@類數(shù)據(jù)通常是由藝術(shù)家們手工制作的,或者用專業(yè)的設(shè)備掃描而來,不像文字、圖像那樣在互聯(lián)網(wǎng)上隨處可見。

圖片

為了讓我們直觀地了解 3D 數(shù)據(jù)的稀缺程度,譚平給出了一組數(shù)字:著名文生圖模型 Stable Diffusion 使用了一個包含 50 億個圖像 - 文本對的數(shù)據(jù)集(LAION-5B)進(jìn)行訓(xùn)練;但相比之下,當(dāng)前最大的 3D 數(shù)據(jù)集 Objaverse-XL 數(shù)據(jù)量僅達(dá)千萬級,而且其中還包含很多質(zhì)量參差不齊的數(shù)據(jù),清洗后實(shí)際可用的數(shù)據(jù)完全沒有辦法和文字圖像進(jìn)行類比。在這種情況下,如果只用 3D 原生數(shù)據(jù)去做訓(xùn)練,模型很容易過擬合,泛化性能會受到影響,能處理的任務(wù)非常有限。

圖片

3D 生成模型泛化能力不足的例子。在這幾個例子中,模型分別被要求生成「騎著火箭的柯基」、「背著雙肩包的豬」和「彈吉他的松鼠」,結(jié)果模型漏掉了一些元素。 

「3D 數(shù)據(jù)本來就在一個比 2D 數(shù)據(jù)更高維的空間,很可能需要更多的數(shù)據(jù)才能訓(xùn)練好模型。所以目前的數(shù)據(jù)是極為不足的。這是一個全行業(yè)的挑戰(zhàn),很難在短期內(nèi)解決?!棺T平介紹說。

為了應(yīng)對這一問題,很多研究會選擇基于 2D 數(shù)據(jù)來訓(xùn)練生成模型。比如一種常見的路線是先用 2D 生成模型生成一張 2D 圖像,再用這張生成的圖像去優(yōu)化一個 3D 模型,然后重復(fù)這一過程,直到 3D 模型渲染的圖像和生成模型產(chǎn)生的 2D 圖像變得一致。這種方式的好處是訓(xùn)練數(shù)據(jù)易得,生成模型泛化能力強(qiáng);局限性在于,由于 2D 生成模型學(xué)到的 3D 先驗(yàn)知識不夠全面(比如缺乏關(guān)于相機(jī)視點(diǎn)的信息和物體的姿態(tài)、幾何結(jié)構(gòu)知識),生成的 3D 結(jié)果會出現(xiàn)多視角不一致等問題(如下圖中的幾何結(jié)構(gòu)錯亂)。

圖片

因此,光影煥像的目標(biāo)是在 3D 數(shù)據(jù)稀缺的客觀條件下,同時使生成模型的泛化能力、生成效果達(dá)到可落地水平。要突破這一目標(biāo),對 3D 數(shù)據(jù)的認(rèn)知是破局關(guān)鍵之所在。

光影煥像技術(shù)路線:用好 3D 數(shù)據(jù)

2D 數(shù)據(jù)數(shù)量豐富,訓(xùn)練出的生成模型泛化能力強(qiáng);3D 數(shù)據(jù)知識豐富度高,訓(xùn)練出的生成模型更懂 3D 世界。因此,光影煥像在打造 3D 模型時首創(chuàng)了基于多源數(shù)據(jù)的模型融合訓(xùn)練策略,把 2D、3D 數(shù)據(jù)都充分利用了起來,重點(diǎn)提升了 3D 數(shù)據(jù)的利用效率。

我們以一個熊的生成任務(wù)為例。單純基于 2D 圖像訓(xùn)練的模型經(jīng)常會生成多視角不一致的圖像(如下圖)。

圖片

所謂的多視角不一致可以從兩個方面來理解:幾何不一致(如多個頭)和外觀不一致(如多張臉)。在一項(xiàng)相關(guān)研究中,光影煥像發(fā)現(xiàn),大多數(shù)的多視角不一致問題源于幾何結(jié)構(gòu)的錯位。即在將 2D 結(jié)果提升到 3D 世界時,由于 2D 生成模型僅學(xué)會了和視角無關(guān)的先驗(yàn)知識(顏色、紋理等在不同視角下都相同的信息),導(dǎo)致多視角不一致性問題。因此他們把主要目標(biāo)定為通過改進(jìn) 2D 生成模型,使其能夠產(chǎn)生 3D 一致的幾何結(jié)構(gòu),同時保持模型的通用性。

為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)提出了一種方法,即先用 2D 圖像訓(xùn)練擴(kuò)散模型,然后再用 3D 數(shù)據(jù)去對 2D 擴(kuò)散模型進(jìn)行對齊(align),使 2D 擴(kuò)散模型具備視角感知能力,并生成規(guī)范坐標(biāo)映射(CCM),從而在 2D 到 3D 的提升過程中與 3D 幾何結(jié)構(gòu)對齊。利用這一方法,光影煥像僅使用相對少量的 3D 數(shù)據(jù),就能獲得更強(qiáng)的結(jié)果,多視角不一致問題得到大大緩解。

圖片

而且,這樣訓(xùn)練出的模型還保持了強(qiáng)大的泛化能力,支持更多樣的創(chuàng)意(與僅基于 3D 數(shù)據(jù)訓(xùn)練的模型相比)。

圖片


圖片

不同模型文生 3D 效果。最右為光影煥像的模型生成效果。

當(dāng)然,除了文生 3D 之外,利用 2D 圖像重建 3D 物體也是一個常見的方向。光影煥像的團(tuán)隊(duì)近期研發(fā)了一款通過手機(jī)拍照實(shí)現(xiàn)高質(zhì)量三維重建的軟件,這背后離不開更準(zhǔn)確的相機(jī)姿態(tài)估計(jì)。

圖片

「我們團(tuán)隊(duì)過去有多年的三維視覺的技術(shù)積累,對于相機(jī)姿態(tài)求解更有經(jīng)驗(yàn),可以處理更復(fù)雜的數(shù)據(jù)?!棺T平介紹說。

這些基礎(chǔ)技術(shù)突破為光影煥像未來打造強(qiáng)大的 3D 基礎(chǔ)模型打下了基礎(chǔ)。

譚平:3D 基礎(chǔ)模型剛剛起步

先解決技術(shù)問題才能加速拐點(diǎn)的到來

雖然是一家以技術(shù)起家的公司,但從譚平目前透露的信息來看,光影煥像并不崇尚「閉門造車」的做事方式,而是已經(jīng)按照存量市場和增量市場的劃分,展開了商業(yè)化落地的探索。

在存量市場上,3D 視覺在游戲、影視制作、物體 / 場景三維重建等 ToB 領(lǐng)域有著廣闊的應(yīng)用場景。這些領(lǐng)域需要消耗大量的 3D 資產(chǎn),但資產(chǎn)的制作周期卻很長,成本也很高,嚴(yán)重拖累了產(chǎn)品的迭代更新速度,這是譚平觀察到的現(xiàn)象。

「不同于依賴專業(yè)人士制作 3D 資產(chǎn),目前海外的一些公司(比如 Minecraft、Roblox 等游戲公司)采取開放策略,讓用戶自己快速制作 3D 內(nèi)容,極大地挖掘了玩家的創(chuàng)意,提升了游戲的可玩性。但目前用戶創(chuàng)建的內(nèi)容質(zhì)量都比較粗糙。我們的 3D 基礎(chǔ)模型有機(jī)會實(shí)現(xiàn)更高質(zhì)量的內(nèi)容創(chuàng)建?!棺T平介紹說。

從目前公布的技術(shù)進(jìn)展中,我們也能看到光影煥像在這方面所做的努力。比如,他們的文生 3D 技術(shù)其實(shí)支持多種生成類型(模型、紋理、 空間布局)和多種三維數(shù)據(jù)表達(dá)(經(jīng)典網(wǎng)格模型、NeRF 等)。這意味著,他們的模型更容易集成到現(xiàn)有的渲染引擎、接到不同的應(yīng)用中去。相比而言,今天很多文生 3D 的模型都是基于 NeRF 表達(dá)來設(shè)計(jì)的,這樣可能就沒辦法直接應(yīng)用于游戲等應(yīng)用,而光影煥像的模型就更為靈活。

在以 XR、具身智能等前沿技術(shù)驅(qū)動的增量市場上,光影煥像同樣大有可為。

比如,在研發(fā) 3D 生成模型過程中,他們發(fā)現(xiàn),生成模型可以增強(qiáng)機(jī)器的泛化能力,幫助機(jī)器處理從未遇到過的場景問題:給定一個未知物體的圖像,生成模型可以生成出這個物體適合被機(jī)械手抓取的點(diǎn),然后結(jié)合三維坐標(biāo)的深度信息形成穩(wěn)定的抓取位置,控制機(jī)器人去抓取過去從未見過的物體,極大地提高了機(jī)器的通用抓取能力。

圖片

當(dāng)然,這只是 3D 生成模型應(yīng)用于機(jī)器人研究的一個例子。在更廣闊的具身智能領(lǐng)域,許多任務(wù)(如物體的姿態(tài)估計(jì)、操作序列生成)都需要在 3D 空間中來完成,也都可以受益于 3D 基礎(chǔ)模型的發(fā)展。「我們相信下一代消費(fèi)級的計(jì)算終端終將到來,服務(wù)性機(jī)器人也終將會走到千家萬戶,3D 基礎(chǔ)模型所帶來的能力可以幫助這些智能設(shè)備理解真實(shí)物理世界,從而更好地完成各種任務(wù)?!棺T平展望說。

不過,需要承認(rèn)的一點(diǎn)是,現(xiàn)在的 3D 基礎(chǔ)模型尚不成熟,可能處于 ChatGPT1.0 的水平。但是,我們還是可以明顯看到技術(shù)的拐點(diǎn)。按照團(tuán)隊(duì)當(dāng)前的研發(fā)規(guī)劃,光影煥像有望在 2-3 年內(nèi)達(dá)到生產(chǎn)級別的可用性。因此,譚平認(rèn)為,現(xiàn)在的重心應(yīng)該是解決底層的技術(shù)問題,所有的短期商業(yè)化策略都應(yīng)該是為技術(shù)的迭代和公司實(shí)現(xiàn)自我造血服務(wù)的,真正的商業(yè)化爆發(fā)時間點(diǎn)將在技術(shù)成熟之后。

為此,他組建了一支精悍的技術(shù)團(tuán)隊(duì)。團(tuán)隊(duì)成員大都來自于互聯(lián)網(wǎng)大廠,包括阿里、字節(jié)、美團(tuán)等。他們在三維視覺領(lǐng)域都有多年的研發(fā)經(jīng)驗(yàn),也取得了很好的成績,例如 2019 年 KITTI Depth Completion Benchmark 第一名、2020 年 Multi-view Stereo Benchmark 第一名、2022 年 KITTI/NYU Depth Estimation Benchmark 第一名等。他們研發(fā)出的一些底層技術(shù)也被外界廣泛應(yīng)用,比如在 2022 年 CVPR 的 Image Matching Challenge 中,前 6 名有一半的團(tuán)隊(duì)采用了他們提出的用于圖像匹配的網(wǎng)絡(luò) QTA。

對于公司所選的這個方向,身為創(chuàng)始人的譚平有著堅(jiān)定的信念。20 多年前,他被射影幾何的優(yōu)雅、簡潔以及 3D 視覺理論的嚴(yán)謹(jǐn)、深邃所吸引,走進(jìn)了這個領(lǐng)域。后來在企業(yè)工作的經(jīng)歷讓他認(rèn)識到,雖然 3D 很難,但是應(yīng)用很豐富,不論是自動駕駛、機(jī)器人還是 AR/VR,各種應(yīng)用都需要讓機(jī)器理解真實(shí)物理世界,都離不開 3D 視覺。這堅(jiān)定了他深耕 3D 這個方向的信心。

「我非常篤定,在退休之前,我做的工作肯定只會是三維視覺,肯定都是跟自動駕駛、機(jī)器人、AR/VR 眼鏡相關(guān)的東西,除了這個我可能什么都不想碰?!棺T平曾對學(xué)生說。

目前,譚平帶領(lǐng)的這支創(chuàng)業(yè)團(tuán)隊(duì)已經(jīng)得到了不少投資人的青睞。種子輪領(lǐng)投方清智資本合伙人張煜表示:

生成式 AI 是 AI 發(fā)展的新的里程牌。其中,3D 生成是 AIGC 發(fā)展的重要方向,也是行業(yè)難點(diǎn)。光影煥像團(tuán)隊(duì)具有世界頂尖的理論水平和扎實(shí)的實(shí)踐功底,從基礎(chǔ)模型層面上解決了包括生成模型的幾何不一致和隨機(jī)物體的自適應(yīng)抓取等行業(yè)關(guān)鍵問題,使得 AI 向?qū)嵱没~出關(guān)鍵的一步,同時也大大推進(jìn)了具身智能的商業(yè)落地,創(chuàng)造了基礎(chǔ)理論的突破和巨大的產(chǎn)業(yè)價(jià)值。譚博士帶領(lǐng)下的創(chuàng)業(yè)團(tuán)隊(duì)是一支有朝氣、敢于突破創(chuàng)新、敢啃硬骨頭的年輕團(tuán)隊(duì),團(tuán)隊(duì)短時間內(nèi)接連在理論研究、算法框架、工程實(shí)踐、商業(yè)落地等各個方面獲得了突破。作為專注于投資早期 AI 項(xiàng)目的創(chuàng)投基金,我們對團(tuán)隊(duì)未來發(fā)展充滿信心,希望團(tuán)隊(duì)為社會發(fā)展和科技進(jìn)步創(chuàng)造更大的貢獻(xiàn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-10 12:31:26

AI數(shù)據(jù)

2025-03-27 09:26:30

2024-05-11 07:00:00

GPT-4AGI人腦3D地圖

2023-06-28 18:10:27

羊駝家族大模型集體進(jìn)化

2023-12-26 08:17:23

微軟GPT-4

2023-06-19 08:19:50

2024-06-28 13:40:03

2025-04-16 09:35:03

2024-02-07 12:39:00

AI數(shù)據(jù)

2010-09-30 10:31:43

J2ME3D

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2025-04-10 09:10:00

模型AI評測

2024-05-06 11:37:20

自動駕駛3D

2023-04-04 09:09:10

GPT-4編程程序員

2024-03-25 08:30:00

AI數(shù)據(jù)

2024-05-21 12:23:17

2023-04-24 16:25:47

3D開發(fā)

2024-12-10 09:40:00

AI3D模型

2024-04-25 16:56:14

GPT-4大模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號