自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命

發(fā)布于 2025-3-24 00:27
瀏覽
0收藏

融合地理定位與對話能力的新型多模態(tài)模型

圖像地理定位技術(shù)在過去幾年取得了顯著進展,但傳統(tǒng)模型僅限于提供GPS坐標,缺乏對位置的深入理解和與用戶進行有意義對話的能力。中佛羅里達大學的研究團隊最近提出了一種創(chuàng)新解決方案——GAEA(Geolocation Aware Conversational Model),這是首個將精確地理定位能力與豐富對話功能相結(jié)合的開源多模態(tài)模型。

GAEA不僅能確定圖像的拍攝位置,還能提供關(guān)于該位置的詳細信息,包括附近的地標、自然景觀、餐廳、醫(yī)療設(shè)施及休閑區(qū)域等,從而為用戶提供全面的地理環(huán)境理解。

傳統(tǒng)地理定位的局限性與GAEA的創(chuàng)新

傳統(tǒng)圖像地理定位任務(wù)面臨諸多挑戰(zhàn),包括季節(jié)變化、地理和氣候多樣性、太陽角度變化以及圖像分布不均等問題。盡管如GeoCLIP、PIGEON等最新模型在全球范圍內(nèi)的地理定位準確性方面取得了顯著進展,但它們?nèi)匀蝗狈︻A(yù)測位置的地理理解和與用戶交流的能力。

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)


如上圖所示,GAEA能夠在回答關(guān)于景總結(jié)、位置和地理背景的不同問題時做出準確預(yù)測。雖然GPT-4o-mini可以給出與區(qū)域相關(guān)的正確建議,但GAEA能提供與圖像位置鄰近的準確設(shè)施信息。

另一方面,雖然大型多模態(tài)模型(LMMs)如GPT-4o和Gemini-2.0等具有對話能力,但它們在地理定位等專業(yè)下游任務(wù)中表現(xiàn)不佳,預(yù)測結(jié)果往往不準確,在許多情況下甚至比隨機猜測更糟。

GAEA模型通過融合地理定位和對話能力,彌補了這一差距,為用戶提供了一個能夠準確識別位置并提供相關(guān)信息的交互式工具。

GAEA-1.6M:構(gòu)建地理感知對話數(shù)據(jù)集

研究團隊面臨的主要挑戰(zhàn)之一是缺乏能夠訓練這類模型的大規(guī)模數(shù)據(jù)集。為解決這一問題,他們精心構(gòu)建了GAEA-1.6M數(shù)據(jù)集,這是一個包含超過80萬張圖像和約160萬個問答對的綜合數(shù)據(jù)集。

數(shù)據(jù)集構(gòu)建過程主要包括下幾個步驟:

  1. 多源地理多樣化圖像采集:研究團隊從MediaEval 2016 (MP-16)、Google Landmarks v2 (GLDv2)和CityGuessr68k等多個數(shù)據(jù)源采集了地理多樣化的視覺樣本。他們使用GeoCLIP對MP-16中的300萬張戶外圖像進行過濾,保留了可地理定位的圖像,并使用S2-Cells技術(shù)確保全球覆蓋的均衡性。
  2. 元數(shù)據(jù)整合:為每張圖像添加了豐富的元數(shù)據(jù),包括:
  • OpenStreetMap (OSM)提供的1公里半徑內(nèi)的地理信息
  • 國家特定的地理線索(從GeoGuessr游戲社區(qū)資源Plonkit獲?。?/span>
  • K?ppen-Geiger氣候區(qū)域分類
  • 交通方向數(shù)據(jù)
  • 土地覆蓋使用統(tǒng)計

Places2數(shù)據(jù)庫的場景標簽

  1. 問答對生成:基于收集的圖像和元數(shù)據(jù),研究團隊生成了多樣化的問答對,分為三個子集:
  • 對話子集

利用OSM元數(shù)據(jù)生成38萬個對話QA對,包括短答案、多選和是非題

  • 地理定位子集

包含82萬個圖像-問題對,旨在幫助模型預(yù)測圖像的正確位置

  • 推理子集

生成38.5萬個知識驅(qū)動的長問答對,增強模型的細粒度推理能力

GAEA-1.6M數(shù)據(jù)集覆蓋了234個國家和地區(qū)、40,000多個城市和7個大洲,是目前最大、最全面的可地理定位和對話QA對集合。

GAEA-Bench:評估地理定位對話能力的基準

為了定量評估LMMs的對話能力并解決地理定位環(huán)境中基準數(shù)據(jù)集的稀缺問題,研究團隊提出了GAEA-Bench,這是一個包含4,000個對話問題樣本的多樣化集合。

如上圖所示,GAEA-Bench旨評估各種LMM在不同問題類型下的對話能力,包括多選題(MCQs)、是非題(T/F)以及短答和長答視覺問答(VQAs)。研究團隊從MP-16中精心選擇了4,000個樣本,并生成了相應(yīng)的OSM元數(shù)據(jù),使用GPT-4o生成問答對。

GAEA-Bench包含:

  • 1,000個短形式問題(SVQA)
  • 1,000個多選題(MCQ)
  • 1,000個是非題(T/F)
  • 1,000個長形式問題(LVQA)

這些問題類型的多樣性使得GAEA-Bench能夠全面評估模型的地理定位和對話能力。

研究團隊從OSM元數(shù)據(jù)中精心選擇地理標簽來生成問答對。

GAEA架構(gòu)與訓練

GAEA基于開源模型Qwen2.5-VL的架構(gòu),該架構(gòu)無縫集成了:

  1. 視覺編碼器
  2. 視覺到語言的投影器
  3. 語言模型

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

如上圖所示,GAEA采用單階段訓練策略,包括可訓練的MLP層和LLM權(quán)重。重新設(shè)計的視覺變換器(ViT)架構(gòu)融合了2D-RoPE和窗口注意力機制。投影器是一個兩層多層感知器(MLP),用于對齊ViT的原始補丁特征,并通過連接圖像嵌入和文本嵌入提供最終表示。

訓練細節(jié)包括:

  • 在GAEA-1.6M的所有三個子集(地理定位、推理和對話)上進行單階段微調(diào)
  • 采用LoRA微調(diào)技術(shù),秩r=16,α=32
  • 視覺到語言MLP投影器未凍結(jié)
  • 應(yīng)用動態(tài)分辨率處理:小于448×448的圖像上采樣,超過1000×1000的圖像下采樣
  • 模型訓練一個epoch,共12,600步

評估與結(jié)果

研究團隊從三個關(guān)鍵維度定義了評估過程:

  1. 對話準確性
  2. 定量地理定位準確性
  3. 分類準確性

對話評估

研究團隊在GAEA-Bench上對比了11個最先進的開源和閉源LMM。他們使用GPT-4o作為評判,根據(jù)不同的標準對各類問題的回答進行評分:

  • 多選題和是非題使用準確性評分
  • 短答案問題評估正確性
  • 長答案問題評估一致性、相關(guān)性和地理正確性

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

上圖展示了評估流程,突出了GAEA-1.6M中引入的各種問題類型。研究團隊使用GPT-4o作為評判來對這些回答進行評分。

定量地理定位評估

研究團隊將GAEA與六個最先進的地理定位模型進行了比較,包括PlaNet、CPlaNet、ISNs、TransLocator、GeoDecoder和PIGEON,評估基準包括IM2GPS、IM2GPS3k和GWS15k。他們提示各種LMM輸出圖像所屬的城市和國家,使用GeoPy檢索GPS坐標并計算與地面真值的距離,比較輸出與1公里、25公里、200公里、750公里和2,500公里的距離閾值。

分類準確性

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

上圖展示了城市和國家級別的分類準確性流程。研究團隊引入了三個新數(shù)據(jù)集:GeoDE、DollarStreet和CityGuessr68k,用于城市和國家分類任務(wù)的評估。

實驗結(jié)果與討論

GAEA在GAEA-Bench上的表現(xiàn)優(yōu)于所有其他模型,平均準確率達到66.06%,超過GPT-4o 8.28%,超過第二好的開源模型LLaVA-OneVision 25.69%。

在標準地理定位評估中,盡管GAEA是在具有地理定位能力的大規(guī)模對話數(shù)據(jù)集上訓練的,但它在與專門的編碼器模型相比時取得了競爭性結(jié)果。在IM2GPS3k上,GAEA在所有四個距離閾值上都優(yōu)于GaGA,在25公里半徑處超過2.5%,在國家級別超過3.66%。

上圖展示了城市和國家標簽的分類準確性,GAEA建立了強大的基線,在性能上超過了幾個最新的LMM。

GAEA的應(yīng)用前景與意義

GAEA的創(chuàng)新在于它不僅能夠確定圖像的地理位置,還能提供關(guān)于該位置的豐富信息,這在多個領(lǐng)域具有直接應(yīng)用價值:

  1. 旅游業(yè):游客可以通過拍攝照片快速了解周圍環(huán)境、歷史背景、文化特色以及附近的餐廳、酒店等服務(wù)設(shè)施。
  2. 導航與探索:用戶可以通過圖像識別位置,并獲取關(guān)于該區(qū)域的詳細信息,包括交通方式、地形特點等。
  3. 城市規(guī)劃:規(guī)劃人員可以利用GAEA分析不同地區(qū)的特征和設(shè)施分布,為城市發(fā)展提供參考。
  4. 安全與應(yīng)急:在緊急情況下,可以通過圖像快速確定位置并獲取附近的醫(yī)療、警察等緊急服務(wù)設(shè)施信息。
  5. 教育與研究:GAEA可以作為地理教育的工具,幫助學生了解不同地區(qū)的地理、文化和歷史特征。

結(jié)論與未來展望

GAEA是首個具有專門地理定位能力的交互式對話模型,在大規(guī)模對話數(shù)據(jù)集GAEA-1.6M上進行了專門訓練。研究團隊精心設(shè)計了數(shù)據(jù)集,以增強GAEA的推理、對話能力和地理定位準確性。他們從MP-16、GLDv2和CityGuessr68k中收集了可地理定位的圖像,并用輔助上下文和元數(shù)據(jù)(如地理線索和氣候區(qū)域)豐富了這些圖像。

除了高質(zhì)量的指令集,研究團隊還提出了GAEA-Bench,這是一個全面的基準,可評估LMM在多種問題類型上的表現(xiàn),包括多選題、是非題、短答和長答視覺問答。結(jié)果表明,GAEA在GAEA-Bench上優(yōu)于最近的LMM,通過利用OpenStreetMap (OSM)數(shù)據(jù)展示了強大的地理定位和對話能力。

這項研究為地理定位領(lǐng)域開辟了新的研究方向,將傳統(tǒng)的坐標預(yù)測任務(wù)擴展為更加豐富、交互式的對話體驗。隨著技術(shù)的進一步發(fā)展,我們可以期待看到更多融合地理信息系統(tǒng)和大型語言模型的創(chuàng)新應(yīng)用,為用戶提供更加智能、自然的地理信息交互方式。

未來的研究方向可能包括:

  1. 進一步提高模型在非常規(guī)場景和罕見地點的地理定位準確性
  2. 增強模型對時間變化(如季節(jié)、晝夜、年代)的理解能力
  3. 擴展模型的多語言支持,使其能夠在更多語言環(huán)境中提供地理信息
  4. 探索將GAEA與其他模態(tài)(如音頻、視頻)結(jié)合的可能性
  5. 開發(fā)更加輕量級的模型版本,使其能夠在移動設(shè)備上運行

GAEA的出現(xiàn)標志著地理定位技術(shù)進入了一個新的階段,不再局限于簡單的坐標預(yù)測,而是向著更加智能、交互式的方向發(fā)展,為用戶提供更加全面、豐富的地理信息體驗。

論文:???https://arxiv.org/abs/2503.16423???

github:????https://ucf-crcv.github.io/GAEA/???

本文轉(zhuǎn)載自??頓數(shù)AI??,作者:蔥蔥

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦