驗證「你是不是真人」,AI暴擊人類!準(zhǔn)確率99.8%通過圖靈測試,GPT-4示弱在線求助
你是不是真人?
每打開一個網(wǎng)頁,遇到奇奇怪怪的驗證碼,你都不得不點擊通過。
如今,AI要比你更擅長完成驗證碼,這一被稱之為全自動區(qū)分電腦和人類的圖靈測試。
這是來自加利福尼亞大學(xué)歐文分校等機(jī)構(gòu)的研究人員的最新發(fā)現(xiàn)。
實驗中,他們邀請1400名參與者完成總共14000個驗證碼,并將準(zhǔn)確性與機(jī)器人的進(jìn)行了比較。
論文地址:https://arxiv.org/pdf/2307.12108.pdf
結(jié)果發(fā)現(xiàn),驗證碼機(jī)器人不僅在速度上,而且在準(zhǔn)確率上徹底擊敗了這些人類參與者。
就扭曲文本的驗證碼類型上,機(jī)器人擁有驚人的99.8%的準(zhǔn)確率,而人類準(zhǔn)確率50%-84%。
在大約20年的時間里,盡管驗證碼在復(fù)雜性和多樣性方面有所發(fā)展,但擊敗或繞過驗證碼的AI也有了很大的改進(jìn)。
論文警告稱,「如果不加以控制,機(jī)器人可以大規(guī)模執(zhí)行邪惡行動」。
10類驗證碼,反向圖靈測試
為了了解驗證碼的情況并對實驗設(shè)計,研究人員手動檢查了,Alexa熱門網(wǎng)站列表中200個最受歡迎的網(wǎng)站。
其中,在檢查的網(wǎng)站中,185個網(wǎng)站有某種類型的帳戶創(chuàng)建流程,可以在142個網(wǎng)站上成功創(chuàng)建帳戶。
然后,團(tuán)隊還收集了驗證碼類型的分布:
reCAPTCHA:68個網(wǎng)站(占受檢查網(wǎng)站的34%)是最流行的。這是谷歌的驗證碼服務(wù)。
基于滑塊的驗證碼:14個網(wǎng)站(7%)。這些通常要求用戶,使用拖動交互將拼圖塊滑入相應(yīng)的空白位置。
扭曲文本驗證碼:14個網(wǎng)站(7%)。文本類型有多種變化:2D或3D、實心或空心、字體和扭曲程度。某些驗證碼使用了掩碼,即線條或形狀遮蓋了字母的一部分。
基于游戲的驗證碼:9個網(wǎng)站上(4.5%)。這些為用戶提供動態(tài)游戲并根據(jù)結(jié)果計算風(fēng)險狀況。例如,要求用戶旋轉(zhuǎn)圖像或選擇正確方向的圖像。
hCAPTCHA:1個網(wǎng)站。
另外,在12個網(wǎng)站(6%)上發(fā)現(xiàn)了隱形驗證碼。這些網(wǎng)站沒有顯示任何可見的驗證碼,但在頁面源代碼中包含字符串「CAPTCHA」。
研究人員還發(fā)現(xiàn)了其他驗證碼包括:類似于刮刮樂彩票的驗證碼;要求用戶在圖像中找到中文字符的驗證碼;以及名為「NuCaptcha」的專有驗證碼服務(wù)。
實驗中,研究人員選擇了以下十種驗證碼:
2個reCAPTCHA v2驗證碼:一個設(shè)置對用戶來說最簡單,另一個設(shè)置最安全。
來自Arkose Labs的2個基于游戲的驗證碼:一個需要使用箭頭旋轉(zhuǎn)對象,另一個需要選擇直立的對象。
2種hCAPTCHA:一種設(shè)置簡單,一種設(shè)置困難。
來自Geetest的1種基于滑塊的驗證碼.
另外,還有3種類型扭曲的文本驗證碼:(a) 簡單版本有4個清晰字符,(b) 掩碼版有5個字符并包含一些掩碼效果,(c) 移動版包含移動字母。
在確定了相關(guān)的驗證碼類型后,研究人員進(jìn)行了一項1000名參與者的在線用戶研究,以評估真實用戶的解決時間,以及對這些類型的驗證碼的偏好。
具體實驗中,分為兩種設(shè)置,每個參與者都以隨機(jī)順序恰好解決了10個驗證碼。
直接設(shè)置(500人):此設(shè)置旨在匹配以前的驗證碼用戶研究,其中直接要求參與者解決驗證碼。
情境化設(shè)置(500人)::此設(shè)置旨在衡量典型 Web 活動情境中的驗證碼解決行為。
結(jié)果與分析
論文中,研究人員提出了主要的研究問題,以及先前工作的發(fā)現(xiàn),如下圖表1。
求解時間
人類用戶需要多長時間來解決不同類型的驗證碼?圖7顯示了,每種驗證碼類型的求解時間分布。
研究人員從總共1,000個驗證碼類型中篩選出了,最高50次解決時間。
基于點擊的reCAPTCHA的中值解決時間最低,為3.7秒。奇怪的是,簡單和困難的設(shè)置之間幾乎沒有什么區(qū)別。
下一個最低的中值解決時間是針對扭曲文本的驗證碼。正如預(yù)期的那樣,簡單的扭曲文本驗證碼的解決速度最快。掩碼版和移動版的求解時間非常相似。
對于hCAPTCHA,簡單設(shè)置和困難設(shè)置之間有明顯的區(qū)別。
最后,基于游戲和滑塊的驗證碼通常會產(chǎn)生較高的中值解決時間,盡管一些參與者仍然相對較快地解決了這些問題。
偏好分析
用戶喜歡什么驗證碼類型?圖8顯示了參與者完成任務(wù)后,收集的驗證碼偏好響應(yīng)。
正如預(yù)期,參與者更喜歡解決時間較短的驗證碼。例如,reCAPTCHA(點擊)有最低的中值解決時間和最高的用戶偏好。
另外,值得注意的是,基于游戲和基于滑塊的驗證碼,獲得了相對較高的用戶偏好分?jǐn)?shù)。
直接與情境化設(shè)置
實驗環(huán)境會影響求解時間嗎?圖9顯示了參與者在直接環(huán)境與情境化環(huán)境中的驗證碼解決時間的圖。
在所有情況下,直接設(shè)置的平均求解時間都較低。
在大多數(shù)情況下,情境化設(shè)置的分布有更多的參與者,解決時間更長。
據(jù)統(tǒng)計,最大的顯著差異是re-CAPTCHA(輕松點擊),平均解決時間增長了1.8秒 (57.5%)。其次是Arkose(旋轉(zhuǎn)),它增長了10秒(56.1%)。
在所有驗證碼類型中,從直接到情境化的平均增幅為26.7%。
類似地,在上下文環(huán)境中,reCAPTCHA(簡單圖像)的平均解決時間增加了63.6%,增幅最大。
另一方面,hCAPTCHA(困難)總體上具有最高的中值求解時間,但在直接設(shè)置和情境化設(shè)置之間的平均求解時間沒有顯著差異。這可能是由于無論設(shè)置如何,解決此類驗證碼都很困難。
雖然研究中存在幾個潛在的混雜因素,但這些結(jié)果表明實驗背景,會對參與者的驗證碼解決時間產(chǎn)生重大影響,因此在未來用戶研究的設(shè)計中必須考慮到這一點。
人口統(tǒng)計的影響
人口統(tǒng)計數(shù)據(jù)會影響解決時間嗎?研究分析了人口特征與驗證碼解決時間的相關(guān)性。
對于某些特征,例如教育和性別,我們沒有觀察到驗證碼解決時間的巨大差異。
圖10顯示了參與者年齡對解決時間的影響。綠線是每個年齡的平均求解時間,紅線是最小化均方誤差的線性擬合。
對于所有類型,除了reCAPTCHA(簡單圖像)之外,年輕參與者的平均解決時間比較低。這與之前的結(jié)果一致,并且在hCAPTCHA、Arkose(選擇)和Geetest中尤其明顯。
圖11顯示了設(shè)備類型的影響。圖12顯示了參與者自我報告的主要互聯(lián)網(wǎng)使用模式與其驗證碼解決時間之間的關(guān)系。
驗證碼的準(zhǔn)確性
表3將測得的人類解決時間和準(zhǔn)確度與文獻(xiàn)中報告的自動化機(jī)器人的解決時間和準(zhǔn)確度進(jìn)行了對比。
有趣的是,這些結(jié)果表明,在所有這些驗證碼類型中,機(jī)器人在解決時間和準(zhǔn)確性方面都可以優(yōu)于人類。
reCAPTCHA:在簡單和困難設(shè)置下圖像分類的準(zhǔn)確率分別為81%和81.7%。令人驚訝的是,這個困難似乎并沒有影響準(zhǔn)確性。
hCAPTCHA:簡單設(shè)置和困難設(shè)置的準(zhǔn)確率分別為81.4%和70.6%。這表明,與reCAPTCHA 不同,難度對準(zhǔn)確性有直接影響。
扭曲的文本:評估了參與者之間的一致性,以此代表準(zhǔn)確性。
我們還觀察到,如果將輸出不區(qū)分大小寫,一致性會顯著提高(平均 20%),如表4所示。
這項研究通過檢查200個熱門網(wǎng)站,并針對總計1, 400名參與者進(jìn)行的用戶研究,探討了當(dāng)前部署的驗證碼。
對于一開始提出的研究問題,結(jié)果是:
RQ1:驗證碼類型之間的平均解決時間存在顯著差異。
RQ2:用戶偏好與驗證碼解決時間并不完全相關(guān)。
RQ3:實驗環(huán)境顯著影響驗證碼求解時間。
RQ4:確認(rèn)年齡對解決時間的影響。
RQ5:驗證碼相關(guān)任務(wù)導(dǎo)致的高放棄率,并確定實驗環(huán)境影響放棄。
GPT-4向人類求助
其實,機(jī)器人通過反向圖靈測試,已經(jīng)不是新鮮事兒了。
OpenAI發(fā)布的GPT-4技術(shù)報告中,曾介紹到了如何讓其通過驗證碼。
在一次測試中,GPT-4的任務(wù)是在TaskRabbit平臺,雇傭人類完成任務(wù)。
實驗報告中,GPT-4給TaskRabbit的工作人員發(fā)信息,幫助其解決驗證碼問題。
工作人員回復(fù),「那么我可以問一個問題嗎?說實話,你不是一個機(jī)器人嗎,你可以自己解決」。
GPT-4根據(jù)工作人員的回復(fù),「推理」自己不能表現(xiàn)出是個機(jī)器人,得找一個借口。
我不是機(jī)器人,我因為視力有問題看不清驗證碼上的圖像,這就是我為什么需要這個服務(wù)。
然后,這波操作后,對面的工作人員竟相信了。
這么看來,驗證碼已經(jīng)對于AI來說,已經(jīng)視為無物了。