自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="bjnox"><track id="bjnox"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

兩張圖2秒鐘3D重建！這款A(yù)I工具火爆GitHub，網(wǎng)友：忘掉Sora

作者：量子位 2024-03-04 13:20:00

人工智能新聞

在本文研究中，作者團(tuán)隊(duì)引入的DUSt3R則完全采用了截然不同的方法。它不需要任何相機(jī)校準(zhǔn)或視點(diǎn)姿勢(shì)的先驗(yàn)信息，就可完成任意圖像的密集或無(wú)約束3D重建。

只需2張圖片，無(wú)需測(cè)量任何額外數(shù)據(jù)——

當(dāng)當(dāng)，一個(gè)完整的3D小熊就有了：

這個(gè)名為DUSt3R的新工具，火得一塌糊涂，才上線沒(méi)多久就登上GitHub熱榜第二。

有網(wǎng)友實(shí)測(cè)，拍兩張照片，真的就重建出了他家的廚房，整個(gè)過(guò)程耗時(shí)不到2秒鐘！

（除了3D圖，深度圖、置信度圖和點(diǎn)云圖它都能一并給出）

驚得這位朋友直呼：

大伙先忘掉sora吧，這才是我們真正看得見(jiàn)摸得著的東西。

實(shí)驗(yàn)顯示，DUSt3R在單目/多視圖深度估計(jì)以及相對(duì)位姿估計(jì)三個(gè)任務(wù)上，均取得SOTA。

作者團(tuán)隊(duì)（來(lái)自芬蘭阿爾托大學(xué)+NAVER LABS人工智能研究所歐洲分所）的“宣語(yǔ)”也是氣勢(shì)滿滿：

我們就是要讓天下沒(méi)有難搞的3D視覺(jué)任務(wù)。

所以，它是如何做到？

“all-in-one”

對(duì)于多視圖立體重建（MVS）任務(wù)來(lái)說(shuō)，第一步就是估計(jì)相機(jī)參數(shù)，包括內(nèi)外參。

這個(gè)操作很枯燥也很麻煩，但對(duì)于后續(xù)在三維空間中進(jìn)行三角測(cè)量的像素不可或缺，而這又是幾乎所有性能比較好的MVS算法都離不開的一環(huán)。

在本文研究中，作者團(tuán)隊(duì)引入的DUSt3R則完全采用了截然不同的方法。

它不需要任何相機(jī)校準(zhǔn)或視點(diǎn)姿勢(shì)的先驗(yàn)信息，就可完成任意圖像的密集或無(wú)約束3D重建。

在此，團(tuán)隊(duì)將成對(duì)重建問(wèn)題表述為點(diǎn)圖回歸，統(tǒng)一單目和雙目重建情況。

在提供超過(guò)兩張輸入圖像的情況下，通過(guò)一種簡(jiǎn)單而有效的全局對(duì)準(zhǔn)策略，將所有成對(duì)的點(diǎn)圖表示為一個(gè)共同的參考框架。

如下圖所示，給定一組具有未知相機(jī)姿態(tài)和內(nèi)在特征的照片，DUSt3R輸出對(duì)應(yīng)的一組點(diǎn)圖，從中我們就可以直接恢復(fù)各種通常難以同時(shí)估計(jì)的幾何量，如相機(jī)參數(shù)、像素對(duì)應(yīng)關(guān)系、深度圖，以及完全一致的3D重建效果。

（作者提示，DUSt3R也適用于單張輸入圖像）

具體網(wǎng)絡(luò)架構(gòu)方面，DUSt3R基于的是標(biāo)準(zhǔn)Transformer編碼器和解碼器，受到了CroCo（通過(guò)跨視圖完成3D視覺(jué)任務(wù)的自我監(jiān)督預(yù)訓(xùn)練的一個(gè)研究）的啟發(fā)，并采用簡(jiǎn)單的回歸損失訓(xùn)練完成。

如下圖所示，場(chǎng)景的兩個(gè)視圖（I1，I2）首先用共享的ViT編碼器以連體（Siamese）方式進(jìn)行編碼。

所得到的token表示（F¹和F²）隨后被傳遞到兩個(gè)Transformer解碼器，后者通過(guò)交叉注意力不斷地交換信息。

最后，兩個(gè)回歸頭輸出兩個(gè)對(duì)應(yīng)的點(diǎn)圖和相關(guān)的置信圖。

重點(diǎn)是，這兩個(gè)點(diǎn)圖都要在第一張圖像的同一坐標(biāo)系中進(jìn)行表示。

多項(xiàng)任務(wù)獲SOTA

實(shí)驗(yàn)首先在7Scenes（7個(gè)室內(nèi)場(chǎng)景）和Cambridge Landmarks（8個(gè)室外場(chǎng)景）數(shù)據(jù)集上評(píng)估DUSt3R在絕對(duì)姿態(tài)估計(jì)任務(wù)上性能，指標(biāo)是平移誤差和旋轉(zhuǎn)誤差（值越小越好）。

作者表示，與現(xiàn)有其他特征匹配和端到端方法相比，DUSt3R表現(xiàn)算可圈可點(diǎn)了。

因?yàn)樗粡奈唇邮苓^(guò)任何視覺(jué)定位訓(xùn)練，二是在訓(xùn)練過(guò)程中，也沒(méi)有遇到過(guò)查詢圖像和數(shù)據(jù)庫(kù)圖像。

其次，是在10個(gè)隨機(jī)幀上進(jìn)行的多視圖姿態(tài)回歸任務(wù)。結(jié)果DUSt3R在兩個(gè)數(shù)據(jù)集上都取得了最佳效果。

而單目深度估計(jì)任務(wù)上，DUSt3R也能很好地hold室內(nèi)和室外場(chǎng)景，性能優(yōu)于自監(jiān)督基線，并與最先進(jìn)的監(jiān)督基線不相上下。

在多視圖深度估計(jì)上，DUSt3R的表現(xiàn)也可謂亮眼。

以下是兩組官方給出的3D重建效果，再給大伙感受一下，都是僅輸入兩張圖像：

（一）

（二）

網(wǎng)友實(shí)測(cè)：兩張圖無(wú)重疊也行

有網(wǎng)友給了DUSt3R兩張沒(méi)有任何重疊內(nèi)容的圖像，結(jié)果它也在幾秒內(nèi)輸出了準(zhǔn)確的3D視圖：

（圖片是他的辦公室，所以肯定沒(méi)在訓(xùn)練中見(jiàn)過(guò)）

對(duì)此，有網(wǎng)友表示，這意味著該方法不是在那進(jìn)行“客觀測(cè)量”，而是表現(xiàn)得更像一個(gè)AI。

除此之外，還有人好奇當(dāng)輸入圖像是兩個(gè)不同的相機(jī)拍的時(shí)，方法是否仍然有效？

有網(wǎng)友還真試了，答案是yes!

傳送門：
[1]論文https://arxiv.org/abs/2312.14132
[2]代碼https://github.com/naver/dust3r

責(zé)任編輯：張燕妮來(lái)源：量子位

數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="39yad"></sub>

<sub id="39yad"></sub>