自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

寶可夢(mèng)GO「偷家」李飛飛空間智能?全球最強(qiáng)3D地圖誕生,150萬(wàn)億參數(shù)解鎖現(xiàn)實(shí)邊界

人工智能 新聞
5年,5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),這個(gè)世界從未被掃描過(guò)的角落,我們都能看到了。寶可夢(mèng)GO團(tuán)隊(duì),竟然搶先實(shí)現(xiàn)了李飛飛的「空間智能」?而「Pokémon Go」的玩家可能沒(méi)想到,自己居然在訓(xùn)練著一個(gè)巨大的AI模型。

李飛飛提出的「空間智能」概念,被寶可夢(mèng)GO團(tuán)隊(duì)搶先實(shí)現(xiàn)了?

最近,寶可夢(mèng)GO團(tuán)隊(duì)宣布,構(gòu)建出了一個(gè)大規(guī)模地理空間模型LGM,讓我們距離空間智能更近了一步。

而這一成果也意味著,人類在空間計(jì)算和AR眼鏡領(lǐng)域,即將進(jìn)入嶄新的時(shí)代。

圖片

作為Niantic視覺(jué)定位系統(tǒng)(VPS)的一部分,團(tuán)隊(duì)訓(xùn)練了超過(guò)5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),參數(shù)規(guī)模超過(guò)150萬(wàn)億。

我們可以把LGM想象成一張為計(jì)算機(jī)準(zhǔn)備的超級(jí)智能地圖,不過(guò),它卻能以與人類類似的方式理解空間。

憑借這種對(duì)世界的強(qiáng)大3D理解能力,LGM能夠非常智能地「填補(bǔ)空白」,甚至包括那些地球上人類尚未全面掃描的領(lǐng)域!

圖片

可以說(shuō)是,讓AI終于長(zhǎng)出了眼睛

從此,LGM將使計(jì)算機(jī)不僅能感知和理解空間,還能以新的方式與之互動(dòng),這就意味著AR眼鏡和機(jī)器人、內(nèi)容創(chuàng)建、自主系統(tǒng)等領(lǐng)域?qū)⒂瓉?lái)全新的突破。

隨著我們從手機(jī)轉(zhuǎn)向與現(xiàn)實(shí)世界相連的可穿戴技術(shù),空間智能,將成為未來(lái)世界的操作系統(tǒng)!

圖片

全球數(shù)百萬(wàn)個(gè)場(chǎng)景,通過(guò)AI相連

這個(gè)大規(guī)模地理空間模型的概念,是利用大規(guī)模機(jī)器學(xué)習(xí)理解場(chǎng)景,然后它就會(huì)與全球數(shù)百萬(wàn)個(gè)其他場(chǎng)景相連。

你是否曾有這樣的感覺(jué)?

看到一種熟悉的建筑,比如教堂、雕像或城鎮(zhèn)廣場(chǎng),我們很容易想象它從其他角度看起來(lái)是什么樣子,即使這些角度我們從未見(jiàn)過(guò)。

圖片

這,就是我們?nèi)祟惇?dú)有的「空間理解」功能,它意味著,我們可以根據(jù)以前遇到的無(wú)數(shù)相似場(chǎng)景來(lái)填補(bǔ)這些細(xì)節(jié)。

但這種能力對(duì)于機(jī)器來(lái)說(shuō),卻是難如登天。

即使當(dāng)今最先進(jìn)的AI模型,也難以推斷出場(chǎng)景中缺失的部分、將其可視化,或者想象出一個(gè)地方從全新的角度看起來(lái)是什么樣子。

如今,LGM打破了AI的這種限制!

這套由寶可夢(mèng)GO團(tuán)隊(duì)訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),可以在超過(guò)100萬(wàn)個(gè)地點(diǎn)進(jìn)行操作。

每個(gè)本地網(wǎng)絡(luò),都會(huì)為全球大模型做出貢獻(xiàn),實(shí)現(xiàn)對(duì)地理位置的貢獻(xiàn)理解,包括那些尚未掃描的地方。

圖片

什么是大規(guī)模地理空間模型

我們都知道,LLM是通過(guò)在互聯(lián)網(wǎng)規(guī)模的文本集合上進(jìn)行訓(xùn)練后,從而理解和生成書面語(yǔ)言。

這種方式,挑戰(zhàn)了我們對(duì)「智能」的理解。

同樣,大規(guī)模地理空間模型也是以一種同樣先進(jìn)的方式,幫助計(jì)算機(jī)感知、理解物理世界,為之導(dǎo)航。

跟LLM類似,它同樣是通過(guò)大量原始數(shù)據(jù)構(gòu)建的——

數(shù)十億張全球各地的圖像,全部錨定在地球上的精確位置,被提煉成一個(gè)大模型,讓計(jì)算機(jī)能夠基于位置去理解空間、結(jié)構(gòu)和物理交互。

從基于文本的模型向基于3D數(shù)據(jù)的模型的轉(zhuǎn)變,也揭示出近年來(lái)AI發(fā)展的一條軌跡:從理解和生成語(yǔ)言,到解釋和創(chuàng)建靜態(tài)和動(dòng)態(tài)圖像(2D視覺(jué)模型),再到對(duì)物體的3D外觀進(jìn)行建模(3D視覺(jué)模型)。

圖片

而現(xiàn)在,地理空間模型甚至比3D視覺(jué)模型更進(jìn)一步,因?yàn)樗鼈儾蹲降氖歉灿谔囟ǖ乩砦恢?、并且具有度量特性?D實(shí)體。

與典型的生成式3D模型不同,大規(guī)模地理空間模型綁定到了度量空間,因而能夠以尺度度量單位進(jìn)行精確的估算,而前者生成的,只是未縮放的資產(chǎn)。

因此,這些實(shí)體代表的是下一代地圖,而非任意的3D資產(chǎn)。

雖然3D視覺(jué)模型也能創(chuàng)建和理解3D場(chǎng)景,但地理空間模型卻理解該場(chǎng)景如何與全球數(shù)百萬(wàn)其他場(chǎng)景在地理上相關(guān)聯(lián)。

它實(shí)現(xiàn)了一種地理空間智能,讓模型從其先前的觀察中學(xué)習(xí),然后還能將知識(shí)轉(zhuǎn)移到新的位置,即使這些位置只是被部分觀察到的。

圖片

現(xiàn)在,帶有3D圖形的AR眼鏡距離大規(guī)模市場(chǎng)化還有幾年時(shí)間,但地理空間模型已經(jīng)有機(jī)會(huì)與純音頻或2D顯示的眼鏡集成了!

想象一下,這些模型可以引導(dǎo)我們穿越世界,回答問(wèn)題,提供個(gè)性化推薦,提供導(dǎo)航,甚至增強(qiáng)我們與現(xiàn)實(shí)世界的互動(dòng)。

而且,它還可以集成LLM,讓理解和空間融合在一起,讓人們能更加了解自己周邊的環(huán)境和社區(qū),并且與之互動(dòng)。

這種地理空間智能還能生成和操縱世界的3D表示,構(gòu)建下一代AR體驗(yàn)。

除了游戲之外,在空間規(guī)劃和設(shè)計(jì)、物流、觀眾互動(dòng)和遠(yuǎn)程協(xié)作上,大規(guī)模地理空間模型都將具有無(wú)限的潛力。

5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),詳細(xì)了解整個(gè)世界

為了構(gòu)建視覺(jué)定位系統(tǒng)VPS,Niantic團(tuán)隊(duì)已經(jīng)花費(fèi)了五年。

這個(gè)系統(tǒng)僅利用手機(jī)上的單張圖像,就能讓用戶在團(tuán)隊(duì)的游戲和Scaniverse中有趣的地點(diǎn)構(gòu)建3D地圖,從而確定其位置和方向。

有了VPS,用戶就可以以厘米級(jí)的精度,在世界中定位自己!

這就意味著,他們可以精確而真實(shí)地看到放置到物理環(huán)境中的數(shù)字內(nèi)容。

這些內(nèi)容是持久的,即使你離開(kāi)后,它們?nèi)匀粫?huì)留在原地,還能與他人共享。

圖片

比如,團(tuán)隊(duì)最近在Pokémon GO中推出了一項(xiàng)名為Pokémon Playgrounds的實(shí)驗(yàn)功能,讓用戶在特定位置上放置寶可夢(mèng),將它們留在原地,供其他人查看和互動(dòng)

所以,VPS是怎樣創(chuàng)建出對(duì)世界如此高度詳細(xì)的理解呢?

原來(lái),Niantic的VPS都是通過(guò)用戶掃描構(gòu)建的。

這些用戶會(huì)通過(guò)不同的視角拍攝,并且還會(huì)在一天中的不同時(shí)間,以及多年來(lái)的多次拍攝,同時(shí)附有定位信息,從而創(chuàng)建出了對(duì)世界高度詳細(xì)的理解。

這些數(shù)據(jù)是獨(dú)一無(wú)二的,因?yàn)樗鼈兪菑男腥艘暯谦@取,包括了汽車無(wú)法到達(dá)的地方。

圖片

如今團(tuán)隊(duì)已經(jīng)在全球范圍內(nèi)擁有1000萬(wàn)個(gè)掃描地點(diǎn),其中超過(guò)100萬(wàn)個(gè)已激活,可供VPS使用了。

而且,團(tuán)隊(duì)每周還在接收約100萬(wàn)次新的掃描,每次掃描都包含數(shù)百?gòu)埅?dú)立的圖像。

作為VPS的一部分,團(tuán)隊(duì)使用運(yùn)動(dòng)結(jié)構(gòu)技術(shù)構(gòu)建經(jīng)典的3D視覺(jué)地圖,同時(shí)也為每個(gè)地點(diǎn)構(gòu)建了一種新型的神經(jīng)地圖。

這些神經(jīng)模型基于ACE(2023)和ACE Zero(2024)這兩篇論文,不再使用經(jīng)典的3D數(shù)據(jù)結(jié)構(gòu)來(lái)表示位置,而是將它們隱式編碼在神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)中。

這些網(wǎng)絡(luò)可以快速地將數(shù)千張地圖圖像壓縮成精簡(jiǎn)的神經(jīng)表示。

給定一張新的查詢圖像,它們以厘米級(jí)的精度,對(duì)這個(gè)位置進(jìn)行精確定位。

Niantic訓(xùn)練的超過(guò)5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò)中,多個(gè)網(wǎng)絡(luò)都可以為單個(gè)位置做貢獻(xiàn)。

所有這些網(wǎng)絡(luò)結(jié)合起來(lái)后,總共包含了超過(guò)150萬(wàn)億個(gè)通過(guò)機(jī)器學(xué)習(xí)優(yōu)化的參數(shù)。

圖片

超越本地模型,讓空間理解更宏大

而且,團(tuán)隊(duì)還有一個(gè)宏偉的愿景。

雖然當(dāng)前的神經(jīng)地圖,已經(jīng)是一個(gè)比較龐大的地理空間模型了,但他們想做的,是一個(gè)超越獨(dú)立本地地圖系統(tǒng)的更大規(guī)模的模型。

完全本地化的模型,可能無(wú)法完整覆蓋各自的位置,無(wú)論在全球范圍內(nèi)有多少可用數(shù)據(jù),局部上它們都是稀疏的。

局部模型的失敗之處就在于,它無(wú)法超出已經(jīng)看到的內(nèi)容和位置進(jìn)行推斷。因此,本地模型只能定位與訓(xùn)練過(guò)的視圖相似的相機(jī)視圖。

現(xiàn)在 ,想象一下我們正站在一個(gè)教堂后面。

如果本地模型只見(jiàn)過(guò)教堂的前門,它是無(wú)法告訴你的準(zhǔn)確位置的,因?yàn)樗鼜奈匆?jiàn)過(guò)教堂的背面。

但是在全球范圍內(nèi),我們卻見(jiàn)過(guò)數(shù)以千計(jì)的教堂,它們都是由其他地方的本地模型捕獲。雖然沒(méi)有哪座教堂完全相同,但許多教堂有共同的特征。

圖片

LGM用的正是訪問(wèn)這些分布式知識(shí)的方法。

它可以提煉出全球大規(guī)模模型中的共同信息,在本地模型之間實(shí)現(xiàn)通信和數(shù)據(jù)共享。

它可以內(nèi)化教堂的概念,并且進(jìn)一步理解這些建筑是如何構(gòu)造的。

即使對(duì)于某個(gè)特定位置只繪制了教堂入口的地圖,LGM也能夠根據(jù)之前見(jiàn)過(guò)的數(shù)千座教堂,對(duì)教堂的背面做出明智的猜測(cè)。

圖片

因此,即使是VPS從未見(jiàn)過(guò)的視點(diǎn)和角度,LGM也能在定位中實(shí)現(xiàn)前所未有的魯棒性。

可以說(shuō),全球模型實(shí)現(xiàn)了對(duì)世界的集中理解,而且完全是源自地理空間和視覺(jué)數(shù)據(jù)。通過(guò)全球插值,它能進(jìn)行局部推斷。

讓AI像人一樣理解

上述過(guò)程,類似于人類感知和想象世界的方式。

對(duì)于人類來(lái)說(shuō),即使是從不同的角度,也能自然而然地識(shí)別出我們以前見(jiàn)過(guò)的東西。

想象在歐洲老城蜿蜒街道中漫步,你依然能輕而易舉地找到返回的路。

圖片

這看似理所當(dāng)然的能力,背后蘊(yùn)含著驚人的復(fù)雜性。尤其是,對(duì)于機(jī)器視覺(jué)技術(shù)來(lái)說(shuō)極其困難。

AI若想擁有類人的理解力,便需要了解一些自然法則:

世界由固體物質(zhì)組成的物體構(gòu)成,因此有正面和背面。外觀會(huì)根據(jù)一天中的時(shí)間和季節(jié)而變化。

同時(shí),這也需要相當(dāng)多的文化知識(shí):許多人造物體的形狀遵循特定的對(duì)稱規(guī)則或其他通用布局類型——通常取決于地理區(qū)域。

早期的計(jì)算機(jī)視覺(jué)研究試圖解讀其中的一些規(guī)則以便將其硬編碼到手工制作的系統(tǒng)中。

但現(xiàn)在,科學(xué)家們意識(shí)到,我們所追求的這種高度理解實(shí)際上只能通過(guò)大規(guī)模機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)。

這正是LGM所追求的目標(biāo)。

在Niantic聯(lián)手牛津大學(xué)的最新研究論文MicKey中,首次看到了從數(shù)據(jù)中出現(xiàn)的令人印象深刻的相機(jī)定位能力。

圖片

論文地址:https://arxiv.org/pdf/2404.06337

MicKey是一個(gè)神經(jīng)網(wǎng)絡(luò),能夠在劇烈的視點(diǎn)變化下將兩個(gè)相機(jī)視圖相對(duì)定位。

圖片

MicKey甚至可以處理需要人類花費(fèi)一些努力才能弄清楚的對(duì)立鏡頭。

更令人興奮的是,MicKey僅使用很少的訓(xùn)練數(shù)據(jù),就取得了這樣的成就。

MicKey限制于雙視圖輸入,并在相對(duì)較少的數(shù)據(jù)上進(jìn)行了訓(xùn)練,但它仍然是關(guān)于LGM潛力的概念驗(yàn)證。

顯然,要實(shí)現(xiàn)高級(jí)空間智能,還需要海量的地理空間數(shù)據(jù)。

而Niantic的獨(dú)特優(yōu)勢(shì)在于,每周都會(huì)收集超100萬(wàn)用戶貢獻(xiàn)的真實(shí)世界地點(diǎn)掃描。

圖片

多模型互補(bǔ),重定義空間智能未來(lái)

LGM絕不僅僅是一個(gè)簡(jiǎn)單的定位模型。

為了很好地解決定位問(wèn)題,LGM必須將豐富的幾何、外觀和文化信息編碼到場(chǎng)景級(jí)特征中。這些特征將啟用場(chǎng)景表示、操控和創(chuàng)造的新方式。

可以想象出,一個(gè)能夠「理解」場(chǎng)景的智能系統(tǒng),不僅能定位,還能感知周圍環(huán)境深層次特征。

像LGM這樣多功能大型AI模型,因其對(duì)多種下游應(yīng)用的實(shí)用性,通常被稱為「基礎(chǔ)模型」。

未來(lái)的智能體系統(tǒng),不再是孤立的存在,不同類型的基礎(chǔ)模型將相互補(bǔ)充。

LLM將與多模態(tài)模型互動(dòng),而后者又與LGM進(jìn)行通信。這些系統(tǒng)協(xié)同工作,以單一模型無(wú)法實(shí)現(xiàn)的方式理解世界。

這種互聯(lián)是空間計(jì)算的未來(lái)——智能系統(tǒng)能夠感知、理解并對(duì)物理世界采取行動(dòng)。

圖片

隨著邁向更具擴(kuò)展性的模型,Niantic目標(biāo)仍然是引領(lǐng)大規(guī)模地理空間模型的發(fā)展,創(chuàng)造前所未有的用戶體驗(yàn)。

除了游戲,大規(guī)模地理空間模型將在空間規(guī)劃與設(shè)計(jì)、物流、受眾參與和遠(yuǎn)程協(xié)作等方面有廣泛的應(yīng)用。

LGM代表著AI進(jìn)化的有一個(gè)里程碑。

隨著AR眼鏡等可穿戴設(shè)備變得更加普及,我們正邁向一個(gè)由物理和數(shù)字現(xiàn)實(shí)無(wú)縫融合的未來(lái)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-17 07:30:00

圖像生成AI智能

2024-12-03 08:23:53

2024-12-03 15:47:00

2024-12-13 14:20:00

AI模型訓(xùn)練

2024-11-11 08:30:00

2025-03-24 08:40:00

2012-03-22 21:37:25

2024-08-07 13:00:00

2017-07-21 11:28:57

前端Threejs3D地圖

2013-05-31 15:48:44

Atheer增強(qiáng)現(xiàn)實(shí)D11

2024-12-03 10:15:00

2013-05-02 14:26:33

3D

2012-06-07 09:57:13

Android版Goo

2024-05-06 07:10:00

李飛飛智能空間

2011-05-07 13:57:07

索尼JVC3D

2018-03-28 09:18:35

CITE智能制造3D打印館

2024-12-05 09:53:18

智能體AI

2025-04-10 09:10:00

模型AI評(píng)測(cè)

2024-08-16 14:02:00

2024-05-16 12:44:30

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)