自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

把整個(gè)地球裝進(jìn)神經(jīng)網(wǎng)絡(luò),北航團(tuán)隊(duì)推出全球遙感圖像生成模型

人工智能 新聞
MetaEarth擁有6億參數(shù),可實(shí)現(xiàn)多種分辨率、無界且覆蓋全球任意地理位置的遙感圖像生成。

北航的研究團(tuán)隊(duì),用擴(kuò)散模型“復(fù)刻”了一個(gè)地球?

在全球的任意位置,模型都能生成多種分辨率的遙感圖像,創(chuàng)造出豐富多樣的“平行場景”。

而且地形、氣候、植被等復(fù)雜的地理特征,也全都考慮到了。

圖片

受Google Earth啟發(fā),北航的研究團(tuán)隊(duì)從俯拍視角出發(fā),將整顆地球的衛(wèi)星遙感影像“裝進(jìn)”了深度神經(jīng)網(wǎng)絡(luò)。

基于這樣的網(wǎng)絡(luò),團(tuán)隊(duì)構(gòu)建出了覆蓋全球的俯視視角視覺生成模型MetaEarth。

MetaEarth擁有6億參數(shù),可實(shí)現(xiàn)多種分辨率、無界且覆蓋全球任意地理位置的遙感圖像生成。

圖片

覆蓋全球的遙感圖像生成模型

相比于此前的研究,構(gòu)建世界范圍的視覺生成基礎(chǔ)模型更具挑戰(zhàn)性,過程之中克服了多個(gè)難點(diǎn)。

首先是模型容量的挑戰(zhàn),因?yàn)榈厍蚓哂谐鞘小⑸?、沙漠、海洋、冰川和雪地等廣泛的地理特征,需要模型能夠理解并表征。

即使是同一類型的人造地物,在不同的緯度、氣候和文化環(huán)境下,也會(huì)表現(xiàn)出巨大差異,這對(duì)生成模型的容量提出了很高的要求。

MetaEarth成功解決了這一困難,實(shí)現(xiàn)了不同地點(diǎn)、地貌的高分辨率、大范圍場景生成。

圖片

另外,實(shí)現(xiàn)分辨率可控的遙感圖像生成,同樣是一項(xiàng)挑戰(zhàn)。

因?yàn)樵诟┡膱D像成像過程中,地物特征的展現(xiàn)受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準(zhǔn)生成的能力。

而在MetaEarth生成不同分辨率的圖像時(shí),都能準(zhǔn)確合理地呈現(xiàn)地物特征,而且不同分辨率之間的關(guān)聯(lián)性也得到了精確對(duì)應(yīng)。

圖片

最后是無界圖像生成的挑戰(zhàn)——與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長可能達(dá)到數(shù)萬像素,此前的方法都難以生成連續(xù)、任意大小的無界圖像。

但MetaEarth生成的連續(xù)無界場景,避開了這一缺陷,可以看到隨著“鏡頭”的平移圖像的移動(dòng)十分絲滑。

圖片

此外,MetaEarth具有強(qiáng)大的泛化性能,能夠以未知場景作為條件輸入級(jí)聯(lián)生成多分辨率圖像。

例如,將GPT4-V生成的“潘多拉星球”作為初始條件輸入模型,MetaEarth仍然能夠生成具有合理地物分布和逼真細(xì)節(jié)的圖像。

圖片

下游任務(wù)上的驗(yàn)證結(jié)果表明,MetaEarth作為一種全新的數(shù)據(jù)引擎,有望為地球觀測領(lǐng)域各類下游任務(wù)提供虛擬環(huán)境和訓(xùn)練數(shù)據(jù)支持。

實(shí)驗(yàn)過程中,作者選擇了遙感圖像分類這一基礎(chǔ)任務(wù)進(jìn)行驗(yàn)證,結(jié)果顯示,MetaEarth所生成的高質(zhì)量圖像的輔助下,下游任務(wù)分類精度有顯著提升。

圖片

作者認(rèn)為,MetaEarth有望為衛(wèi)星等空天無人系統(tǒng)平臺(tái)提供一個(gè)逼真的虛擬環(huán)境,并在城市規(guī)劃、環(huán)境監(jiān)測、災(zāi)害管理、農(nóng)業(yè)優(yōu)化等領(lǐng)域廣泛應(yīng)用;

除了作為數(shù)據(jù)引擎之外,MetaEarth在構(gòu)建生成式世界模型方面也具有巨大潛力,為未來的研究提供新的可能。。

那么,MetaEarth究竟是如何實(shí)現(xiàn)的呢?

6億參數(shù)擴(kuò)散模型“復(fù)刻”地球

MetaEarth基于概率擴(kuò)散模型構(gòu)建,具有超過六億的參數(shù)規(guī)模。

為支持模型訓(xùn)練,團(tuán)隊(duì)收集了一個(gè)大型遙感圖像數(shù)據(jù)集,包含覆蓋全球大多數(shù)地區(qū)的多個(gè)空間分辨率的圖像及其地理信息(緯度、經(jīng)度和分辨率)。

在本項(xiàng)研究中,作者提出了一種分辨率引導(dǎo)的自級(jí)聯(lián)生成框架。

圖片

△MetaEarth的整體框架

在該框架下,僅用單一模型即可實(shí)現(xiàn)給定地理位置的多分辨率圖像生成,并在每一級(jí)分辨率下創(chuàng)造出豐富多樣的“平行場景”。

具體來說,這是一種編解碼器結(jié)構(gòu)的去噪網(wǎng)絡(luò),將低分辨率條件圖像和空間分辨率編碼后與去噪過程的時(shí)間步嵌入相結(jié)合,預(yù)測每個(gè)時(shí)間步的噪聲,實(shí)現(xiàn)圖像生成。

為了生成無界的任意大小圖像,作者還設(shè)計(jì)了一種內(nèi)存高效的滑動(dòng)窗口生成方法和噪聲采樣策略。

該策略將生成的圖像切分成重疊的圖像塊作為條件,通過特定的噪聲采樣策略,使相鄰圖像塊的共享區(qū)域生成相似的內(nèi)容,從而避免拼接縫隙。

此外,這種噪聲采樣策略,也使得模型能在實(shí)現(xiàn)任意尺寸的無界圖像生成時(shí),消耗更少的顯存資源。

團(tuán)隊(duì)簡介

本研究的作者來自北京航空航天大學(xué)的“學(xué)習(xí)、視覺與遙感實(shí)驗(yàn)室”(LEarning, VIsion and Remote sensing laboratory,LEVIR Lab),實(shí)驗(yàn)室由國家杰青史振威教授領(lǐng)導(dǎo)。

史振威教授曾經(jīng)的博士生、密歇根大學(xué)博士后,現(xiàn)任該實(shí)驗(yàn)室成員的鄒征夏教授,是本文的通訊作者。

論文地址:https://arxiv.org/abs/2405.13570
項(xiàng)目主頁:https://jiupinjia.github.io/metaearth/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2017-09-08 16:41:43

微軟

2022-10-11 23:35:28

神經(jīng)網(wǎng)絡(luò)VGGNetAlexNet

2024-12-18 15:20:00

視圖生成AI

2017-05-10 14:32:31

神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)架構(gòu)模型

2022-10-19 07:42:41

圖像識(shí)別神經(jīng)網(wǎng)絡(luò)

2024-09-12 08:28:32

2024-10-17 13:05:35

神經(jīng)網(wǎng)絡(luò)算法機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2022-06-16 10:29:33

神經(jīng)網(wǎng)絡(luò)圖像分類算法

2024-10-05 23:00:35

2024-09-20 07:36:12

2024-10-28 00:38:10

2024-11-15 13:20:02

2025-02-21 08:29:07

2024-12-12 00:29:03

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2017-09-08 13:30:32

深度學(xué)習(xí)圖像識(shí)別卷積神經(jīng)網(wǎng)絡(luò)

2018-02-05 08:58:36

Python神經(jīng)網(wǎng)絡(luò)識(shí)別圖像

2025-02-24 08:00:00

機(jī)器學(xué)習(xí)ML架構(gòu)

2023-09-17 23:09:24

Transforme深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)