把整個(gè)地球裝進(jìn)神經(jīng)網(wǎng)絡(luò),北航團(tuán)隊(duì)推出全球遙感圖像生成模型
北航的研究團(tuán)隊(duì),用擴(kuò)散模型“復(fù)刻”了一個(gè)地球?
在全球的任意位置,模型都能生成多種分辨率的遙感圖像,創(chuàng)造出豐富多樣的“平行場景”。
而且地形、氣候、植被等復(fù)雜的地理特征,也全都考慮到了。
受Google Earth啟發(fā),北航的研究團(tuán)隊(duì)從俯拍視角出發(fā),將整顆地球的衛(wèi)星遙感影像“裝進(jìn)”了深度神經(jīng)網(wǎng)絡(luò)。
基于這樣的網(wǎng)絡(luò),團(tuán)隊(duì)構(gòu)建出了覆蓋全球的俯視視角視覺生成模型MetaEarth。
MetaEarth擁有6億參數(shù),可實(shí)現(xiàn)多種分辨率、無界且覆蓋全球任意地理位置的遙感圖像生成。
覆蓋全球的遙感圖像生成模型
相比于此前的研究,構(gòu)建世界范圍的視覺生成基礎(chǔ)模型更具挑戰(zhàn)性,過程之中克服了多個(gè)難點(diǎn)。
首先是模型容量的挑戰(zhàn),因?yàn)榈厍蚓哂谐鞘小⑸?、沙漠、海洋、冰川和雪地等廣泛的地理特征,需要模型能夠理解并表征。
即使是同一類型的人造地物,在不同的緯度、氣候和文化環(huán)境下,也會(huì)表現(xiàn)出巨大差異,這對(duì)生成模型的容量提出了很高的要求。
MetaEarth成功解決了這一困難,實(shí)現(xiàn)了不同地點(diǎn)、地貌的高分辨率、大范圍場景生成。
另外,實(shí)現(xiàn)分辨率可控的遙感圖像生成,同樣是一項(xiàng)挑戰(zhàn)。
因?yàn)樵诟┡膱D像成像過程中,地物特征的展現(xiàn)受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準(zhǔn)生成的能力。
而在MetaEarth生成不同分辨率的圖像時(shí),都能準(zhǔn)確合理地呈現(xiàn)地物特征,而且不同分辨率之間的關(guān)聯(lián)性也得到了精確對(duì)應(yīng)。
最后是無界圖像生成的挑戰(zhàn)——與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長可能達(dá)到數(shù)萬像素,此前的方法都難以生成連續(xù)、任意大小的無界圖像。
但MetaEarth生成的連續(xù)無界場景,避開了這一缺陷,可以看到隨著“鏡頭”的平移圖像的移動(dòng)十分絲滑。
此外,MetaEarth具有強(qiáng)大的泛化性能,能夠以未知場景作為條件輸入級(jí)聯(lián)生成多分辨率圖像。
例如,將GPT4-V生成的“潘多拉星球”作為初始條件輸入模型,MetaEarth仍然能夠生成具有合理地物分布和逼真細(xì)節(jié)的圖像。
下游任務(wù)上的驗(yàn)證結(jié)果表明,MetaEarth作為一種全新的數(shù)據(jù)引擎,有望為地球觀測領(lǐng)域各類下游任務(wù)提供虛擬環(huán)境和訓(xùn)練數(shù)據(jù)支持。
實(shí)驗(yàn)過程中,作者選擇了遙感圖像分類這一基礎(chǔ)任務(wù)進(jìn)行驗(yàn)證,結(jié)果顯示,MetaEarth所生成的高質(zhì)量圖像的輔助下,下游任務(wù)分類精度有顯著提升。
作者認(rèn)為,MetaEarth有望為衛(wèi)星等空天無人系統(tǒng)平臺(tái)提供一個(gè)逼真的虛擬環(huán)境,并在城市規(guī)劃、環(huán)境監(jiān)測、災(zāi)害管理、農(nóng)業(yè)優(yōu)化等領(lǐng)域廣泛應(yīng)用;
除了作為數(shù)據(jù)引擎之外,MetaEarth在構(gòu)建生成式世界模型方面也具有巨大潛力,為未來的研究提供新的可能。。
那么,MetaEarth究竟是如何實(shí)現(xiàn)的呢?
6億參數(shù)擴(kuò)散模型“復(fù)刻”地球
MetaEarth基于概率擴(kuò)散模型構(gòu)建,具有超過六億的參數(shù)規(guī)模。
為支持模型訓(xùn)練,團(tuán)隊(duì)收集了一個(gè)大型遙感圖像數(shù)據(jù)集,包含覆蓋全球大多數(shù)地區(qū)的多個(gè)空間分辨率的圖像及其地理信息(緯度、經(jīng)度和分辨率)。
在本項(xiàng)研究中,作者提出了一種分辨率引導(dǎo)的自級(jí)聯(lián)生成框架。
△MetaEarth的整體框架
在該框架下,僅用單一模型即可實(shí)現(xiàn)給定地理位置的多分辨率圖像生成,并在每一級(jí)分辨率下創(chuàng)造出豐富多樣的“平行場景”。
具體來說,這是一種編解碼器結(jié)構(gòu)的去噪網(wǎng)絡(luò),將低分辨率條件圖像和空間分辨率編碼后與去噪過程的時(shí)間步嵌入相結(jié)合,預(yù)測每個(gè)時(shí)間步的噪聲,實(shí)現(xiàn)圖像生成。
為了生成無界的任意大小圖像,作者還設(shè)計(jì)了一種內(nèi)存高效的滑動(dòng)窗口生成方法和噪聲采樣策略。
該策略將生成的圖像切分成重疊的圖像塊作為條件,通過特定的噪聲采樣策略,使相鄰圖像塊的共享區(qū)域生成相似的內(nèi)容,從而避免拼接縫隙。
此外,這種噪聲采樣策略,也使得模型能在實(shí)現(xiàn)任意尺寸的無界圖像生成時(shí),消耗更少的顯存資源。
團(tuán)隊(duì)簡介
本研究的作者來自北京航空航天大學(xué)的“學(xué)習(xí)、視覺與遙感實(shí)驗(yàn)室”(LEarning, VIsion and Remote sensing laboratory,LEVIR Lab),實(shí)驗(yàn)室由國家杰青史振威教授領(lǐng)導(dǎo)。
史振威教授曾經(jīng)的博士生、密歇根大學(xué)博士后,現(xiàn)任該實(shí)驗(yàn)室成員的鄒征夏教授,是本文的通訊作者。
論文地址:https://arxiv.org/abs/2405.13570
項(xiàng)目主頁:https://jiupinjia.github.io/metaearth/