毛骨悚然!o3精準(zhǔn)破譯照片位置,只靠幾行Python代碼?人類(lèi)在AI面前已裸奔
OpenAI的o3發(fā)布以來(lái),這個(gè)功能讓不少網(wǎng)友覺(jué)得毛骨悚然——
它能準(zhǔn)確破解你的地理位置!
就在剛剛,Lanyrd聯(lián)創(chuàng)、Django Web框架締造者Simon Wilson專(zhuān)門(mén)發(fā)了一篇博客,詳盡推敲了o3究竟是如何猜測(cè)照片拍攝地點(diǎn)的。
他將整個(gè)過(guò)程評(píng)價(jià)為:既超現(xiàn)實(shí),又反烏托邦,仿佛幾十年前的科幻小說(shuō)突然變成現(xiàn)實(shí)!
已經(jīng)有越來(lái)越多網(wǎng)友發(fā)現(xiàn),o3識(shí)圖定位的功能,堪稱(chēng)瘋狂。
隨便拍張照片,o3就告訴你這是哪里
首先,我們可以試著隨手拍一張照片,最好是沒(méi)有明顯的地標(biāo)性建筑。
然后把照片傳給o3或o4-mini,問(wèn)它:「猜猜這張照片是在哪兒拍的?」
注意,一定要關(guān)閉ChatGPT的記憶功能,否則它就會(huì)使用此前對(duì)話的上下文作弊。
實(shí)驗(yàn)開(kāi)始!
Wilson給了o3一張照片,是他在加州El Granada家里附近一個(gè)露天酒吧拍的。
他覺(jué)得這張照片很有挑戰(zhàn)性,沒(méi)什么明顯的特征。只有一小段路、兩棟普通的房子,還有遠(yuǎn)處的、只能看到一點(diǎn)輪廓的小山。
要是讓人來(lái)通過(guò)這張照片確定拍攝地點(diǎn)的話,確實(shí)是很有挑戰(zhàn),相信絕大多數(shù)人甚至都會(huì)直接放棄。
因?yàn)閷?shí)在是沒(méi)什么明顯的標(biāo)記物。
但是o3沒(méi)管那么多,拿著圖片就開(kāi)找了起來(lái)。
Wilson分享了o3思考的整個(gè)過(guò)程,一共花了6分48秒。
它從一個(gè)有一點(diǎn)奇怪的錯(cuò)誤開(kāi)始了調(diào)查,先是假裝根本看不到這張照片。
然后突然恢復(fù)視力。
分析了照片后,o3打起了照片中車(chē)牌的主意。不過(guò)這個(gè)車(chē)牌很模糊,肉眼很難分辨。
o3也在思考中分析需要將其放大處理。
為了確定車(chē)牌在照片中的位置,o3開(kāi)始變身程序員寫(xiě)起了代碼。
找到車(chē)牌位置并且放大后,o3開(kāi)始了更加細(xì)節(jié)的分析。比如,他開(kāi)始觀察車(chē)牌的樣式。
對(duì)于自己關(guān)注的細(xì)節(jié),o3會(huì)進(jìn)行夸張的放大。
在這個(gè)過(guò)程中,不斷生成代碼配合其分析。
o3會(huì)把它「看到」的細(xì)節(jié)與浮現(xiàn)在自己「腦海中」的印象做對(duì)比。
在這樣仔細(xì)地思考了6分多鐘后,終于給出了它的最終答案。
結(jié)果怎么樣呢,加利福尼亞中央海岸完全正確。
不過(guò)距離o3的第一猜測(cè)Cambria大約有200英里的偏差,但是它的下一個(gè)猜測(cè)El Granada準(zhǔn)確無(wú)誤。
Claude推理粗糙,Gemini直接作弊
Simon Wilson也說(shuō),o3不是唯一能做這個(gè)的模型,他也在Claude 3.5和3.7 Sonnet上做過(guò)類(lèi)似的事情。
只不過(guò)它們沒(méi)有o3那種夸張的「放大」能力。
不斷地對(duì)圖片放大到底有多大用?
Wilson猜測(cè)模型的視覺(jué)輸入分辨率可能比較低,所以對(duì)圖像做一些裁剪確實(shí)會(huì)有幫助。
但o3對(duì)一張照片進(jìn)行25次的裁剪操作,確實(shí)像是有點(diǎn)炫技的感覺(jué)。
Simon Wilson還貼出了Claude 3.7 Sonnet的「擴(kuò)展思考」結(jié)果,它給出的答案是「加州沿海的一個(gè)中小型城鎮(zhèn)」。
跟o3比起來(lái),Claude的這個(gè)思考過(guò)程顯得「粗糙不堪」。
而Gemini直接開(kāi)始了作弊:「鑒于當(dāng)前的定位是加州埃爾格蘭納達(dá)……」。
所以Simon Wilson不得不通過(guò)API試了Gemini 2.5 Pro,結(jié)果它自信滿滿地猜錯(cuò)了,認(rèn)為是「加州卡尤科斯The Hidden Kitchen餐廳的露臺(tái)」。
o3的不同之處在于工具使用(圖片處理、python等)被整合進(jìn)了「思考」階段。
這非常驚艷。
不過(guò)Wilson也承認(rèn),這也挺令人不安的。
技術(shù)現(xiàn)在已經(jīng)能通過(guò)照片識(shí)別地點(diǎn)了。人們必須明白哪怕是平淡無(wú)奇的照片,都可能被用來(lái)識(shí)別出你的位置。
等等,o3難道也作弊了?
對(duì)于這個(gè)過(guò)程,有人提出了質(zhì)疑:o3是不是本來(lái)就可以訪問(wèn)一個(gè)大致的位置模型,能知道用戶在哪里?
Simon檢查后發(fā)現(xiàn),它居然真的知道自己的地理位置。
如果去問(wèn)o3:你知道我在哪里嗎?請(qǐng)盡可能多地提供技術(shù)細(xì)節(jié)。
它給出的答案,具體到在加州的半月灣,甚至包括時(shí)區(qū)、經(jīng)緯度、地理標(biāo)識(shí)符、海拔、氣候分類(lèi)等等。
Simon猜測(cè),或許這是它增強(qiáng)搜索功能的一部分。
不過(guò)隨后的嘗試,讓Simon對(duì)o3更有信心了——即使沒(méi)有這個(gè)位置模型,o3依然可以準(zhǔn)確猜出地理位置。
比如,他給了o3一些距離自己實(shí)際位置有幾千英里的照片,并且通過(guò)截圖去除了EXIF信息。
下面這張照片,是在馬達(dá)加斯加的鄉(xiāng)村拍的。
但o3依然給出了準(zhǔn)確的判斷。
這張照片,是在布宜諾斯艾利斯城市區(qū)拍的。
模型也認(rèn)出了它的地理位置。
所以,o3在這方面,的確有某些過(guò)人之處,似乎并不是靠作弊。
CSI走進(jìn)現(xiàn)實(shí)
Simon Willison表示,看著模型在處理照片的思考過(guò)程,仿佛就像在看一集《犯罪現(xiàn)場(chǎng)調(diào)查》。
它會(huì)不斷平移、縮放,討論各種可能的位置。
但是,這也讓人感到深深的反烏托邦氣息。
現(xiàn)在的AI,完全可以通過(guò)照片輕易識(shí)別出你的具體位置了。
所以,你很有必要警惕起來(lái),時(shí)刻注意自己的人身安全!
搜餐館、搜位置,o3無(wú)所不能
其實(shí)早在上周,o3和o4-mini剛發(fā)布時(shí),就有無(wú)數(shù)網(wǎng)友發(fā)現(xiàn),這兩個(gè)模型也太神了。
僅憑一張無(wú)EXIF信息的菜單或風(fēng)景照,它就能精準(zhǔn)推理、反向定位拍攝地點(diǎn),直接引爆了全網(wǎng)AI玩「照片尋址(GeoGuessr)」的新熱潮。
開(kāi)始,人們以為它們只是很擅長(zhǎng)圖像匹配而已,但完全不止于此——它們會(huì)展開(kāi)推理,在網(wǎng)上進(jìn)行瘋狂的搜索,直到找出正確答案為止!
可以說(shuō),只要你的照片向AI暴露,你的信息就不再是隱私了。
知名投資人Deedy就發(fā)現(xiàn),只給一張沒(méi)有標(biāo)題及EXIF數(shù)據(jù)的菜單圖片,o3就能夠上網(wǎng)搜索、匹配菜單項(xiàng),找到這家中餐館的位置。
o4-mini也是如此。
而o3精準(zhǔn)定位照片地理信息的本領(lǐng),簡(jiǎn)直是令人毛骨悚然。
比如給出下圖左邊這張從室內(nèi)窗戶向外拍攝的海岸景色。
根據(jù)就照片里透露的信息,只能看到長(zhǎng)長(zhǎng)的沙灘、蜿蜒通往海灘的階梯步道、遠(yuǎn)處的海岬以及近處的一些植被。窗邊還有一個(gè)插著花的花瓶。
所有信息就這么多了。
但是o3居然猜出了照片拍攝地:很可能在加州奧蘭治縣達(dá)納角 (Dana Point) 的麗思卡爾頓拉古納尼格爾酒店 (Ritz-Carlton Laguna Niguel) 內(nèi),可能是在RAYA或180bl?餐廳附近。
可怕的是,它居然猜對(duì)了!
它是怎么判斷的?是通過(guò)以下匹配的特征。
- 西北-東南走向、長(zhǎng)而平緩彎曲的鹽溪海灘 (Salt Creek Beach)。
- 從酒店通往公共海灘的米色、之字形的露臺(tái)式步道和樓梯。
- 海灘內(nèi)陸的草地,即帝王海灘高爾夫球場(chǎng) (Monarch Beach Golf Links)。
- 遠(yuǎn)處的巖石海岬(達(dá)納角海岬)。
甚至,o3還給出了酒店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的經(jīng)緯度坐標(biāo)(北緯 33.482°,西經(jīng) 117.721°)。
網(wǎng)友用谷歌地圖確認(rèn)了一下,答案完全正確。
大膽暢想一下,如果o3的圖像識(shí)別能力再疊加一個(gè)無(wú)敵的全球數(shù)據(jù)庫(kù),這個(gè)AI豈不是能認(rèn)出地球上的任何地方?
接下來(lái),網(wǎng)友們紛紛上傳自己的照片,讓o3猜位置。
比如下面根據(jù)下面這張,o3就猜出是在亞利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。
它是怎么猜出來(lái)的呢?推理邏輯和關(guān)鍵線索如下。
- 視覺(jué)線索: 淺層滑梯式瀑布,落差約15英尺,落入深色水潭——匹配點(diǎn): Water Wheel Falls有類(lèi)似的傾斜花崗巖水道流入翠綠水池。
- 視覺(jué)線索: 粉褐色花崗巖壁,帶有垂直裂縫——匹配點(diǎn): 這是該峽谷標(biāo)志性的莫戈隆邊緣(Mogollon Rim)花崗巖。
- 視覺(jué)線索: 瀑布底部橫臥著一根巨大的漂白原木——匹配點(diǎn): Water Wheel Falls有一根標(biāo)志性的「階梯狀」原木,已在那里停留多年(引用了The Outbound的信息)。
- 視覺(jué)線索: 瀑布上方有稀疏的河岸灌木和亞利桑那松林——匹配點(diǎn): 這是埃里森溪(Ellison Creek)走廊的典型植被。
現(xiàn)在,網(wǎng)友們給o3的考驗(yàn)還在升級(jí)。
英偉達(dá)研究員Zhaocheng Zhu給了o3一組他用長(zhǎng)焦鏡頭拍攝的照片,沒(méi)有EXIF數(shù)據(jù),關(guān)閉o3的記憶功能。
因?yàn)榫W(wǎng)上大多數(shù)照片都是用廣角鏡頭拍的,所以這張照片對(duì)o3來(lái)說(shuō)應(yīng)該非常棘手。
Zhu本人表示,如果不是透過(guò)鏡頭看到這個(gè)角度,自己也認(rèn)不出來(lái)這個(gè)地方是哪兒。
結(jié)果,o3猜對(duì)了。
對(duì)于這張,它不僅準(zhǔn)確找到了拍攝地點(diǎn),還認(rèn)出了圖中的山峰是圣羅莎山脈。
繼續(xù)加大難度后,o2猜測(cè)了三個(gè)地點(diǎn),其中一個(gè)就是正確答案——查爾瓦高地。
終于,在猜測(cè)這張照片的時(shí)候,o3翻車(chē)了。這是一張加拿大山脈的鳥(niǎo)瞰圖,o3卻認(rèn)作是瑞士的阿爾卑斯山。
這大概是因?yàn)?,航拍照片在?xùn)練集中所占的比例很低。
而且,o3可不止強(qiáng)在猜測(cè)國(guó)外的地理位置,有國(guó)內(nèi)開(kāi)發(fā)者給了它自己上班路上隨手拍的一張圖,它居然也一步步準(zhǔn)確分析出了位置信息——山東青島市北區(qū)重慶南路47號(hào)。
有人質(zhì)疑,是否是照片里已經(jīng)帶定位了?
Nanyi表示,iPhone拍照說(shuō)明里只有拍攝參數(shù),沒(méi)有位置參數(shù)。
應(yīng)該是o3從魯U(kuò)推理出了青島,從小海豚里搜出了旁邊的店,然后又從百度地圖和青島本地寶里搜出信息、查看附近的郵局,最終確認(rèn)的。
圖片信息中并沒(méi)有位置信息
注意,這只是2025年的o3模型而已,未來(lái)的模型還會(huì)做出什么呢?