EarthMarker:首個(gè)視覺(jué)提示遙感多模態(tài)大模型 原創(chuàng)
?摘要:近年來(lái),提示學(xué)習(xí)技術(shù)的發(fā)展使用戶能夠通過(guò)多輪對(duì)話與人工智能(AI)工具互動(dòng),從而實(shí)現(xiàn)對(duì)圖像的交互式理解。然而,僅靠普通語(yǔ)言指令難以有效傳遞復(fù)雜遙感(RS)場(chǎng)景中的信息,這限制了對(duì)圖像潛在內(nèi)容的深入理解。此外,由于自然場(chǎng)景和遙感數(shù)據(jù)在領(lǐng)域上的顯著差異,現(xiàn)有的提示策略難以直接應(yīng)用于遙感數(shù)據(jù)解讀。為解決這些問(wèn)題,本文提出了首個(gè)基于視覺(jué)提示的多模態(tài)大語(yǔ)言模型(MLLM),名為EarthMarker,用于遙感領(lǐng)域。EarthMarker通過(guò)利用視覺(jué)提示(如框和點(diǎn))實(shí)現(xiàn)圖像、區(qū)域和點(diǎn)級(jí)別的遙感圖像解讀。模型開發(fā)了一種共享視覺(jué)編碼方法,建立輸入圖像的多尺度表示和各種視覺(jué)提示之間的空間模式解釋關(guān)系。隨后,將混合視覺(jué)-空間表示與語(yǔ)言指令結(jié)合,構(gòu)建聯(lián)合提示,從而解釋遙感圖像中的復(fù)雜內(nèi)容。為彌合自然數(shù)據(jù)與遙感數(shù)據(jù)之間的領(lǐng)域差距,并有效地將自然場(chǎng)景的領(lǐng)域級(jí)知識(shí)遷移到遙感領(lǐng)域,EarthMarker引入了一種跨領(lǐng)域?qū)W習(xí)策略。此外,為應(yīng)對(duì)遙感視覺(jué)提示數(shù)據(jù)的不足,本文構(gòu)建了名為RSVP的數(shù)據(jù)集,包含多模態(tài)、多粒度的視覺(jué)提示指令。通過(guò)廣泛的實(shí)驗(yàn)表明,EarthMarker在多粒度遙感圖像解讀方面表現(xiàn)出競(jìng)爭(zhēng)力,標(biāo)志著視覺(jué)提示學(xué)習(xí)框架在遙感圖像多粒度解讀中的重大進(jìn)展。
EarthMarker:數(shù)據(jù)集全部開源中!含365萬(wàn)條視覺(jué)-語(yǔ)言聯(lián)合提示指令數(shù)據(jù)!
- 論文:https://ieeexplore.ieee.org/document/10817639
- 開源鏈接:https://github.com/wivizhang/EarthMarker
同系列模型:
EarthGPT:國(guó)內(nèi)首個(gè)遙感大模型,100萬(wàn)多模態(tài)指令數(shù)據(jù)集已全部開源!
- 論文鏈接:https://ieeexplore.ieee.org/document/10547418
- 開源鏈接:https://github.com/wivizhang/EarthGPT
引言
視覺(jué)提示(Visual prompting)是當(dāng)前自然領(lǐng)域中的研究熱點(diǎn),旨在通過(guò)視覺(jué)標(biāo)記(如框、點(diǎn)和涂鴉)來(lái)解釋圖像中的感興趣區(qū)域 [1], [2]。特別是,將視覺(jué)提示注入多模態(tài)大語(yǔ)言模型(MLLM)可以建立聯(lián)合提示機(jī)制,使模型能夠同時(shí)利用視覺(jué)和文本指令。這種聯(lián)合提示方式類似于人類表達(dá),能夠以更靈活和高效的交互方式理解圖像。
將視覺(jué)提示應(yīng)用于遙感(RS)領(lǐng)域必須考慮其圖像的獨(dú)特特性,包括尺度變化、跨類別多樣性以及復(fù)雜的上下文語(yǔ)義信息 [3], [4]。其中的主要挑戰(zhàn)在于有效指導(dǎo)模型識(shí)別和解釋復(fù)雜遙感圖像中的關(guān)鍵潛在信息。然而,僅使用普通語(yǔ)言難以有效描述復(fù)雜遙感圖像中的特定區(qū)域 [5], [6]。此外,現(xiàn)有MLLMs主要實(shí)現(xiàn)了圖像級(jí)別的視覺(jué)-語(yǔ)言對(duì)齊,這限制了其進(jìn)行詳細(xì)圖像理解的能力 [7]。因此,迫切需要開發(fā)更簡(jiǎn)潔且高效的提示機(jī)制,以增強(qiáng)遙感領(lǐng)域的細(xì)粒度視覺(jué)推理能力。
提示工程(Prompt engineering)已在自然語(yǔ)言處理(NLP)領(lǐng)域得到廣泛研究 [8], [9],并逐漸擴(kuò)展至計(jì)算機(jī)視覺(jué)領(lǐng)域。典型案例包括Segment Anything(SAM)[11]模型,該模型利用多種視覺(jué)提示實(shí)現(xiàn)零樣本分割,從而適配多種新圖像分布。此外,GPT4RoI [12]和RegionBlip [13]通過(guò)對(duì)區(qū)域-文本對(duì)的訓(xùn)練,使MLLMs能夠完成區(qū)域級(jí)別的視覺(jué)理解任務(wù)。而Osprey [14]在像素級(jí)別視覺(jué)理解方面表現(xiàn)出色,但依賴預(yù)附加的分割模型,限制了其應(yīng)用范圍。此外,F(xiàn)erret [15]和SPHINX-V [16]支持自由形狀的視覺(jué)提示標(biāo)記以實(shí)現(xiàn)像素級(jí)圖像理解。然而,這些模型均在自然場(chǎng)景數(shù)據(jù)上進(jìn)行訓(xùn)練,在處理遙感圖像時(shí)性能不佳。
在遙感領(lǐng)域,致力于區(qū)域級(jí)細(xì)粒度圖像理解或視覺(jué)提示的工作非常有限。例如,RSVG [17]采用語(yǔ)言提示來(lái)查詢并定位特定對(duì)象。而EarthGPT [18]和GeoChat [6]等其他代表性遙感MLLMs超越了圖像級(jí)別的理解,通過(guò)在視覺(jué)定位數(shù)據(jù)上訓(xùn)練實(shí)現(xiàn)了區(qū)域級(jí)視覺(jué)感知。此外,SAM在遙感圖像上的表現(xiàn)有限,因?yàn)槠銿iT骨干網(wǎng)絡(luò)是在大規(guī)模近距離遙感數(shù)據(jù)集上預(yù)訓(xùn)練的 [19], [20]。受SAM啟發(fā),RSPrompter [21]引入了一種自動(dòng)化提示生成方法,用于開發(fā)針對(duì)遙感數(shù)據(jù)的交互式分割。然而,這些遙感MLLMs主要實(shí)現(xiàn)了圖像-文本對(duì)齊,僅依賴語(yǔ)言指令,難以發(fā)現(xiàn)復(fù)雜遙感場(chǎng)景中隱藏的有價(jià)值信息,并且缺乏交互的靈活性。
為了填補(bǔ)這一空白,本文提出了一個(gè)基于視覺(jué)提示的MLLM,命名為EarthMarker,用于首次擴(kuò)展MLLMs在遙感領(lǐng)域的區(qū)域級(jí)和點(diǎn)級(jí)理解能力。如圖1所示,EarthMarker在多粒度遙感圖像解釋方面表現(xiàn)出色。具體而言,EarthMarker可以在從粗粒度的整體場(chǎng)景級(jí)別到細(xì)粒度的區(qū)域/對(duì)象級(jí)別,甚至點(diǎn)級(jí)別的區(qū)分之間切換。此外,EarthMarker能夠完成廣泛的粗粒度和細(xì)粒度遙感視覺(jué)任務(wù),包括場(chǎng)景分類、目標(biāo)分類、圖像/區(qū)域/點(diǎn)級(jí)別標(biāo)注以及關(guān)系分析等。值得注意的是,視覺(jué)提示用于隔離特定區(qū)域,并指導(dǎo)模型解釋整個(gè)遙感圖像的局部?jī)?nèi)容。
實(shí)際上,稀疏視覺(jué)提示、密集遙感圖像特征以及語(yǔ)義層級(jí)的文本特征之間存在顯著的差異,這使得對(duì)齊和整合這些模態(tài)變得具有挑戰(zhàn)性。為了解決這一問(wèn)題,本文開發(fā)了一種共享視覺(jué)編碼方法。具體而言,將視覺(jué)提示處理為類似RGB圖像,并與輸入圖像共享相同的視覺(jué)編碼器。這種策略有助于一致的特征提取,并理解視覺(jué)提示區(qū)域與整體圖像之間的關(guān)系,從而提升模型在視覺(jué)提示學(xué)習(xí)下的性能。
由于遙感數(shù)據(jù)的有限性,難以實(shí)現(xiàn)區(qū)域和文本的交互、空間關(guān)系的理解以及目標(biāo)定位。為了緩解這一限制,本文采用通用領(lǐng)域數(shù)據(jù)進(jìn)行混合訓(xùn)練。更重要的是,為了增強(qiáng)視覺(jué)提示-圖像-文本的對(duì)齊,本文提出了跨領(lǐng)域?qū)W習(xí)策略。具體而言,在多領(lǐng)域圖像-文本對(duì)齊的第一階段,EarthMarker通過(guò)自然場(chǎng)景和遙感圖像標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,以獲得對(duì)圖像的整體理解并提升概念多樣性的建模能力。隨后,模型進(jìn)一步在自然場(chǎng)景的指代數(shù)據(jù)上訓(xùn)練,以獲得圖像的空間感知能力,從而為遙感領(lǐng)域中的指代理解能力的發(fā)展奠定基礎(chǔ)。最后,在遙感視覺(jué)提示調(diào)優(yōu)階段,本文利用包含多種空間分辨率的遙感區(qū)域-文本和點(diǎn)-文本指令數(shù)據(jù)進(jìn)行領(lǐng)域自適應(yīng)訓(xùn)練。
EarthMarker配備了整體和點(diǎn)/區(qū)域級(jí)遙感圖像解釋能力。通過(guò)多領(lǐng)域聯(lián)合訓(xùn)練,不僅提升了對(duì)細(xì)粒度遙感圖像的深入解讀能力,還增強(qiáng)了開放詞匯推理能力。此外,模型的可更新參數(shù)是獨(dú)立的,避免了不同粒度圖像理解之間的干擾。
另一個(gè)挑戰(zhàn)是現(xiàn)有視覺(jué)提示數(shù)據(jù)集 [14], [15] 限于自然場(chǎng)景,缺乏遙感語(yǔ)義特征。此外,目前公開的遙感標(biāo)注數(shù)據(jù)往往過(guò)于簡(jiǎn)單且重復(fù),缺乏遙感圖像的獨(dú)特特性。因此,本文構(gòu)建了一個(gè)名為RSVP的視覺(jué)提示數(shù)據(jù)集,包含多模態(tài)大規(guī)模視覺(jué)-語(yǔ)言聯(lián)合指令跟隨任務(wù)。特別地,本文將各種公開可用的遙感數(shù)據(jù)轉(zhuǎn)換并重新標(biāo)注為統(tǒng)一的對(duì)話格式。此外,部分高質(zhì)量的標(biāo)注數(shù)據(jù)由GPT4V [22]生成,旨在展現(xiàn)每個(gè)遙感圖像的獨(dú)特特性,從而增強(qiáng)數(shù)據(jù)的豐富性和多樣性。
通過(guò)在多類型遙感數(shù)據(jù)集上的廣泛實(shí)驗(yàn),證明EarthMarker在多粒度遙感視覺(jué)任務(wù)中的性能優(yōu)于最先進(jìn)(SOTA)專家模型、MLLMs以及視覺(jué)提示模型。具體來(lái)說(shuō),在零樣本場(chǎng)景分類任務(wù)中,EarthMarker顯著優(yōu)于其他現(xiàn)有MLLMs。特別是在指代對(duì)象分類任務(wù)中,EarthMarker在DIOR-RSVG數(shù)據(jù)集 [23] 上使用邊界框作為視覺(jué)提示獲得了98.37%的語(yǔ)義相似性(SS)得分,并在使用點(diǎn)提示時(shí)獲得了95.96%。此外,在圖像和區(qū)域標(biāo)注任務(wù)中,EarthMarker也遠(yuǎn)超其他MLLMs和視覺(jué)提示模型。
綜上,實(shí)驗(yàn)結(jié)果表明,EarthMarker在各種多粒度遙感圖像理解任務(wù)中表現(xiàn)出卓越性能,并具備出色的零樣本推理能力。
我們的貢獻(xiàn)可以總結(jié)如下:
首個(gè)遙感視覺(jué)提示多模態(tài)大語(yǔ)言模型(MLLM),EarthMarker:本文首次在遙感領(lǐng)域提出了一個(gè)基于視覺(jué)提示的MLLM,名為EarthMarker。EarthMarker能夠通過(guò)視覺(jué)和文本聯(lián)合提示理解遙感圖像,并靈活切換解釋層級(jí),包括圖像級(jí)、區(qū)域級(jí)和點(diǎn)級(jí)。更重要的是,EarthMarker填補(bǔ)了遙感領(lǐng)域視覺(jué)提示MLLM的空白,顯著滿足了實(shí)際應(yīng)用中對(duì)遙感圖像細(xì)粒度解釋的需求。
首個(gè)遙感視覺(jué)提示學(xué)習(xí)框架:本文開發(fā)了一種通用的區(qū)域級(jí)和點(diǎn)級(jí)視覺(jué)提示數(shù)據(jù)標(biāo)注方法,并提出了一種共享視覺(jué)編碼機(jī)制,以增強(qiáng)視覺(jué)提示、整體圖像和文本指令之間的交互。此外,設(shè)計(jì)了一種跨領(lǐng)域?qū)W習(xí)策略,通過(guò)利用多領(lǐng)域數(shù)據(jù)輕量化優(yōu)化非關(guān)聯(lián)參數(shù),使EarthMarker具備空間感知能力和聯(lián)合指令跟隨能力。
首個(gè)遙感視覺(jué)提示數(shù)據(jù)集RSVP:本文構(gòu)建了一個(gè)名為RSVP的大規(guī)模遙感區(qū)域指令數(shù)據(jù)集,包含約365萬(wàn)對(duì)圖像-點(diǎn)-文本和圖像-區(qū)域-文本配對(duì)數(shù)據(jù)。這一數(shù)據(jù)集的構(gòu)建促進(jìn)了遙感圖像的細(xì)粒度解釋,為遙感領(lǐng)域中視覺(jué)提示的開發(fā)奠定了基礎(chǔ)。
在多粒度遙感視覺(jué)任務(wù)中的卓越表現(xiàn):通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證,EarthMarker在多粒度遙感視覺(jué)任務(wù)中展現(xiàn)了競(jìng)爭(zhēng)力,其性能優(yōu)于最先進(jìn)的專家模型、MLLMs和視覺(jué)提示模型。所評(píng)估的任務(wù)包括場(chǎng)景分類、目標(biāo)分類、區(qū)域標(biāo)注、關(guān)系分析等。因此,EarthMarker成功探索了視覺(jué)提示學(xué)習(xí)在遙感領(lǐng)域的適應(yīng)性,不僅提升了MLLM的性能,還標(biāo)志著在細(xì)粒度遙感圖像解釋方面邁出了重要一步。
方法簡(jiǎn)介
EarthMarker的總體架構(gòu)如圖1所示,提出了一種共享視覺(jué)編碼機(jī)制,以增強(qiáng)視覺(jué)提示、整體圖像和文本指令之間的交互理解。此外,設(shè)計(jì)了跨域三階段學(xué)習(xí)策略,使得EarthMarker具備了空間感知和聯(lián)合指令跟隨能力。該研究貢獻(xiàn)了一個(gè)視覺(jué)和語(yǔ)言聯(lián)合提示多模態(tài)理解框架,并構(gòu)建大規(guī)模的遙感多模態(tài)聯(lián)合指令數(shù)據(jù)集,展示出了極大的實(shí)際應(yīng)用的潛力。
圖1 EarthMarker總體架構(gòu)
可視化效果
EarthMarker可完成復(fù)雜的視覺(jué)推理任務(wù),尤其在目標(biāo)關(guān)系分析任務(wù)中性能超越GPT-4V。如圖2所示,EarthMarker展示出驚人的分析能力:首先總結(jié)了視覺(jué)提示所標(biāo)識(shí)區(qū)域分別為機(jī)場(chǎng)環(huán)境中的不同要素, 接著對(duì)相同類別的區(qū)域進(jìn)行了聚類分析,并推斷出這些標(biāo)注區(qū)域在機(jī)場(chǎng)環(huán)境中的不同功能。
圖2 復(fù)雜推理任務(wù):關(guān)鍵目標(biāo)關(guān)系分析(黃色高亮部分表示錯(cuò)誤)
綜合來(lái)講,EarthMarker具備多才多藝的能力,如圖3所示,EarthMarker可實(shí)現(xiàn)多粒度(如圖像級(jí)、區(qū)域級(jí)和點(diǎn)級(jí))遙感圖像解譯,擅長(zhǎng)于各種視覺(jué)任務(wù),包括場(chǎng)景分類、指定對(duì)象分類、圖像描述、關(guān)系分析等。
圖3 EarthMarker具備多粒度遙感圖像解譯能力,可實(shí)現(xiàn)多任務(wù)推理
相關(guān)工作
A. 多模態(tài)大語(yǔ)言模型(MLLMs)
近年來(lái),大語(yǔ)言模型(LLMs)的進(jìn)步極大地推動(dòng)了自然語(yǔ)言處理(NLP)領(lǐng)域的變革與創(chuàng)新。代表性工作包括閉源的GPT系列 [12], [24] 和開源的LLaMA系列 [25], [26],它們展現(xiàn)了強(qiáng)大的通用語(yǔ)言處理與推理能力。受到LLM的啟發(fā),通過(guò)進(jìn)一步引入視覺(jué)信號(hào),多模態(tài)大語(yǔ)言模型(MLLMs)得以發(fā)展,用于實(shí)現(xiàn)視覺(jué)-語(yǔ)言的相互理解以及多種視覺(jué)任務(wù)。例如,VisualGPT [27]、BLIP [28] 和 Flamingo [29] 在將LLMs與視覺(jué)模態(tài)對(duì)齊后,表現(xiàn)出強(qiáng)大的多模態(tài)推理潛力。值得注意的是,LLAMA-Adapter V2 [30] 和 SPHINX [31] 采用零樣本注意力機(jī)制和線性投影層調(diào)優(yōu),將LLM與視覺(jué)信號(hào)相結(jié)合。此外,VisionLLM [32] 將面向視覺(jué)任務(wù)的定義與LLM方法論對(duì)齊,從而以開放式的方式解決視覺(jué)中心任務(wù)。這些自然場(chǎng)景的MLLMs為擴(kuò)展到遙感(RS)領(lǐng)域奠定了基礎(chǔ)。
一些開創(chuàng)性的遙感MLLMs已經(jīng)出現(xiàn),例如EarthGPT [18]、GeoChat [6]、SkyEyeGPT [33] 和 LHRS-Bot [34],這些模型使MLLMs能夠解釋遙感圖像。其中,GeoChat是第一個(gè)針對(duì)光學(xué)遙感圖像解決多任務(wù)問(wèn)題的MLLM。EarthGPT提出了一個(gè)通用MLLM,可以處理多源遙感圖像并執(zhí)行廣泛的遙感視覺(jué)任務(wù)。LHRS-Bot則構(gòu)建了LHRS-Bench,用于促進(jìn)遙感社區(qū)對(duì)遙感特定MLLMs進(jìn)行多維度評(píng)估。這些模型無(wú)疑促進(jìn)了遙感特定領(lǐng)域MLLMs的發(fā)展。然而,這些模型僅通過(guò)語(yǔ)言交互完成視覺(jué)解釋,而無(wú)法通過(guò)視覺(jué)提示生成響應(yīng)來(lái)處理指代視覺(jué)理解任務(wù)。顯然,現(xiàn)有的遙感MLLMs主要聚焦于圖像級(jí)別和視覺(jué)定位,但無(wú)法進(jìn)行更細(xì)粒度的區(qū)域、點(diǎn)和像素級(jí)別的解釋。因此,本文旨在增強(qiáng)MLLMs在遙感圖像多粒度理解上的多功能性。
B. 提示工程(Prompt Engineering)
提示工程是NLP中的新興研究方向 [24]。代表性工作包括AutoPrompt [8] 和 CoOp [9],它們旨在為語(yǔ)言模型和視覺(jué)-語(yǔ)言模型自動(dòng)生成提示模板,而非手動(dòng)設(shè)計(jì)。此外,語(yǔ)言提示已被應(yīng)用于開發(fā)開放詞匯檢測(cè)模型,如DetPro [35] 和 Promptdet [36]。與語(yǔ)言提示技術(shù)的廣泛發(fā)展相比,視覺(jué)提示仍需進(jìn)一步探索。
一個(gè)重要的發(fā)展是SAM [11] 模型,它支持多種分割提示以增強(qiáng)零樣本性能。由于SAM中缺乏語(yǔ)義標(biāo)簽,Semantic-SAM [37] 被提出以實(shí)現(xiàn)多層次語(yǔ)義分析與預(yù)測(cè)。值得注意的是,GPT4RoI [12] 利用空間框并結(jié)合語(yǔ)言和感興趣區(qū)域(RoI)作為輸入,從而實(shí)現(xiàn)區(qū)域識(shí)別。Colorful Prompting Tuning (CPT) [38] 通過(guò)基于顏色的標(biāo)記來(lái)提高預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型的性能。此外,Osprey [14] 將遮罩區(qū)域融入語(yǔ)言指令,從而實(shí)現(xiàn)像素級(jí)視覺(jué)理解。其他視覺(jué)提示相關(guān)工作包括RegionBlip [13]、Kosmos-2 [39]、Shikra [40] 和 Ferret [15],這些研究通過(guò)利用視覺(jué)提示技術(shù),在區(qū)域級(jí)圖像理解中顯示出前景。研究“通過(guò)圖像修復(fù)實(shí)現(xiàn)視覺(jué)提示” [41] 表明,通過(guò)提供所需任務(wù)示例,可以很好地完成各種視覺(jué)任務(wù)。此外,RegionPLC [42] 提出了一個(gè)輕量級(jí)且可擴(kuò)展的區(qū)域點(diǎn)-語(yǔ)言對(duì)比學(xué)習(xí)框架,用于開放世界3D場(chǎng)景理解。
然而,上述模型均基于自然數(shù)據(jù)集進(jìn)行訓(xùn)練,自然圖像與遙感圖像之間的顯著差異表明,它們直接應(yīng)用于遙感任務(wù)的能力有限。
在遙感領(lǐng)域,除傳統(tǒng)視覺(jué)模型 [43], [44] 外,最近在語(yǔ)言或視覺(jué)指令學(xué)習(xí)上的研究有限。例如,RSVG [17] 可基于自然語(yǔ)言表達(dá)提供參考對(duì)象的位置。EarthVQA [45] 數(shù)據(jù)集和語(yǔ)義對(duì)象感知框架(SOBA)被開發(fā),EarthVQA包含圖像、對(duì)應(yīng)的語(yǔ)義視覺(jué)提示以及問(wèn)答對(duì),用于訓(xùn)練SOBA以實(shí)現(xiàn)基于對(duì)象的推理。受提示學(xué)習(xí)啟發(fā),RSPrompter [21] 設(shè)計(jì)了一種自動(dòng)化方法,用于生成適用于SAM輸入的提示,從而促進(jìn)遙感圖像的分割。然而,RSVG采用語(yǔ)言提示而非視覺(jué)提示;EarthVQA僅涉及城市規(guī)劃圖像上的像素級(jí)推理;而RSPrompter僅適用于基于提示的分割任務(wù)。此外,一些專家模型已開發(fā)出基于點(diǎn)監(jiān)督的檢測(cè)和語(yǔ)義分割,如PSOD [46]–[49]。然而,這些模型僅為單一任務(wù)設(shè)計(jì),缺乏多功能性。
顯然,目前尚無(wú)統(tǒng)一的視覺(jué)提示框架專為遙感領(lǐng)域設(shè)計(jì),以進(jìn)一步提高M(jìn)LLMs的多粒度解釋能力。這些局限性阻礙了更復(fù)雜和更細(xì)粒度遙感圖像理解的進(jìn)一步發(fā)展,因此本文聚焦于填補(bǔ)這一空白。
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
