一張圖實現(xiàn)街道級定位,端到端圖像地理定位大模型AdressCLIP登ECCV2024
拔草星人的好消息來啦!
中科院自動化所和阿里云一起推出了街景定位大模型,只要一張照片就能實現(xiàn)街道級精度的定位。
有了模型的幫助,再也不用害怕遇到種草“謎語人”了。
比如給模型看一張舊金山的街景之后,它直接給出了具體的拍攝位置,并列舉了附近的多個候選地址。
該模型名為AddressCLIP,基于CLIP構建。
相關論文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入選頂會ECCV2024。
圖片
傳統(tǒng)的圖像位置識別往往致力于以圖像檢索的方式來確定圖像的GPS坐標,這種方法稱為圖像地理定位。
但GPS對于普通人來說晦澀難懂,并且圖像檢索需要建立并維護一個龐大的數(shù)據(jù)庫,難以本地化部署。
本篇工作提出了更加用戶友好的,端到端的圖像地理定位任務。二者的對比示意圖如下:
圖片
針對這個任務,為了實現(xiàn)上述效果,研究人員主要從數(shù)據(jù)集構建與定制化的模型訓練兩方面入手開展了研究。
圖像地址定位數(shù)據(jù)集構建
圖像地址定位本質上是需要將街景圖像與地址文本進行圖文模態(tài)的對齊,因此首先需要收集大量的圖像-地址對。
考慮到現(xiàn)有的用于多模態(tài)訓練的圖文數(shù)據(jù)中包含地址信息的數(shù)據(jù)比例過于稀少,研究人員選擇基于圖像地理定位中的圖像-GPS數(shù)據(jù)對進行數(shù)據(jù)集的構造。
具體來說,通過使用地圖中的Reverse Geocoding API,可以對一個GPS查詢到一系列的相近的地址。
接著,通過篩選、投票等數(shù)據(jù)清洗機制,可以過濾得到每個圖像的街道級地址文本。
這一過程如下圖所示:
圖片
然而,考慮到街道本身的長短分布差異巨大,導致這個分布極度不均衡,同時街道級別的定位精度仍然過于粗糙。
因此,研究人員模仿人類描述位置的習慣,對于街道級別的地址進行了進一步的語義地址劃分。
該過程通過使用道路交叉的十字路口等信息來對地址信息進行加強,其具體過程以及最終形成的地址文本描述如下:
圖片
最終,論文構造了位于兩個城市,三種不同尺度的數(shù)據(jù)集,相關數(shù)據(jù)信息如下:
圖片
AddressCLIP具體實現(xiàn)
有了上述街景-地址文本的數(shù)據(jù)準備之后,似乎直接模仿CLIP的方式進行對比學習的微調即可。
但考慮到本任務的圖像-文本數(shù)據(jù)對的語義關聯(lián)十分微弱,這和CLIP預訓練的數(shù)據(jù)存在著比較大的差異。
因此研究人員首先從數(shù)據(jù)和損失函數(shù)層面進行了對CLIP原始的訓練框架進行了改進。
具體來說,借助以BLIP為代表的多模態(tài)生成模型的圖像標注能力,研究人員對于訓練數(shù)據(jù)中每個街景圖像進行了語義文本的自動化標注。
圖片
然后,作者將語義文本與地址文本按照一定規(guī)則直接進行拼接,顯式的彌補了本任務和CLIP預訓練任務的差異。
這樣一來,微調過程優(yōu)化更加容易,并且也能過通過語義隱式增強了地址文本的判別性。
此外,考慮到圖像特征,地址文本特征在預訓練特征空間的分布可能是十分不均勻的。
受到流形學習的啟發(fā),作者認為本任務中圖像-地址文本的理想特征應該位于一個和真實環(huán)境匹配的低維流形上。
具體來說,研究人員們引入了在真實地理環(huán)境中距離相近的兩個點,其地址與圖像特征在特征空間也應當接近,反之亦然這一假設。
利用圖像與圖像兩兩之間歸一化后的真實地理距離來監(jiān)督它們在特征空間中的距離,從而實現(xiàn)了圖像特征與真實地理環(huán)境的在距離層面的匹配,使得模型學到的特征空間更加均勻。
因此,AddressCLIP將經典的CLIP損失優(yōu)化為圖像-地址文本對比損失,圖像-語義對比損失以及圖像-地理匹配損失,最終實現(xiàn)了準確、均勻的圖像-地址文本對齊。
圖片
完成上述訓練后,AddressCLIP可以通過給定候選地址集的形式進行推理。
值得一提的是,得益于模型將圖像與各種地址的良好對齊,推理所用的候選文本可以是十分靈活與多樣的形式,而非一定要按照訓練集的書寫規(guī)則。
效果優(yōu)于通用多模態(tài)模型
在定量實驗結果中,團隊主要將模型與與zero-shot的CLIP,直接對齊地址的CLIP以及各種CLIP微調策略方法等進行對比。
可以看到,AddressCLIP在不同數(shù)據(jù)集,不同指標上均優(yōu)于各個所比較方法。
圖片
在定性實驗中,論文主要展示了AddressCLIP在推理形式上的靈活性與泛化性。
通過給定不同精細程度的地址文本的查詢(如街區(qū),街道,子街道),模型都可以在測試集圖像上展示出與其真實覆蓋地理分布一致的激活。
圖片
此外,研究人員也暢想了這一任務與數(shù)據(jù)集與多模態(tài)大模型結合的場景。
通過將數(shù)據(jù)集構造成關于地址問答的多輪對話形式,團隊對LLaVA-1.5-vicuna進行了視覺指令微調,實現(xiàn)了對圖像地址的生成式識別。
在與前沿多模態(tài)模型的對比中展現(xiàn)出明顯的優(yōu)勢,尤其是針對圖像中不存在地標與明顯線索的圖像。
圖片
作者預計,未來這一技術可以進一步擴展應用于社交媒體基于位置的個性化推薦上,或者與多模態(tài)大模型結合進行更加豐富的地址,地理信息相關問答,提供更加智能的城市、地理助手。
論文地址:https://arxiv.org/abs/2407.08156