自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

驗證「你是不是真人」,AI暴擊人類!準(zhǔn)確率99.8%通過圖靈測試,GPT-4示弱在線求助

人工智能 新聞
在驗證你是不是真人上,AI的準(zhǔn)確率已經(jīng)達(dá)到驚人的99.8%。如今,AI要比你更擅長完成驗證碼,這一被稱之為全自動區(qū)分電腦和人類的圖靈測試。

你是不是真人?

每打開一個網(wǎng)頁,遇到奇奇怪怪的驗證碼,你都不得不點擊通過。

圖片

圖片

如今,AI要比你更擅長完成驗證碼,這一被稱之為全自動區(qū)分電腦和人類的圖靈測試。

這是來自加利福尼亞大學(xué)歐文分校等機(jī)構(gòu)的研究人員的最新發(fā)現(xiàn)。

實驗中,他們邀請1400名參與者完成總共14000個驗證碼,并將準(zhǔn)確性與機(jī)器人的進(jìn)行了比較。

論文地址:https://arxiv.org/pdf/2307.12108.pdf

結(jié)果發(fā)現(xiàn),驗證碼機(jī)器人不僅在速度上,而且在準(zhǔn)確率上徹底擊敗了這些人類參與者。

就扭曲文本的驗證碼類型上,機(jī)器人擁有驚人的99.8%的準(zhǔn)確率,而人類準(zhǔn)確率50%-84%。

在大約20年的時間里,盡管驗證碼在復(fù)雜性和多樣性方面有所發(fā)展,但擊敗或繞過驗證碼的AI也有了很大的改進(jìn)。

論文警告稱,「如果不加以控制,機(jī)器人可以大規(guī)模執(zhí)行邪惡行動」。

10類驗證碼,反向圖靈測試

為了了解驗證碼的情況并對實驗設(shè)計,研究人員手動檢查了,Alexa熱門網(wǎng)站列表中200個最受歡迎的網(wǎng)站。

其中,在檢查的網(wǎng)站中,185個網(wǎng)站有某種類型的帳戶創(chuàng)建流程,可以在142個網(wǎng)站上成功創(chuàng)建帳戶。

然后,團(tuán)隊還收集了驗證碼類型的分布:

reCAPTCHA:68個網(wǎng)站(占受檢查網(wǎng)站的34%)是最流行的。這是谷歌的驗證碼服務(wù)。

基于滑塊的驗證碼:14個網(wǎng)站(7%)。這些通常要求用戶,使用拖動交互將拼圖塊滑入相應(yīng)的空白位置。

扭曲文本驗證碼:14個網(wǎng)站(7%)。文本類型有多種變化:2D或3D、實心或空心、字體和扭曲程度。某些驗證碼使用了掩碼,即線條或形狀遮蓋了字母的一部分。

基于游戲的驗證碼:9個網(wǎng)站上(4.5%)。這些為用戶提供動態(tài)游戲并根據(jù)結(jié)果計算風(fēng)險狀況。例如,要求用戶旋轉(zhuǎn)圖像或選擇正確方向的圖像。

hCAPTCHA:1個網(wǎng)站。

另外,在12個網(wǎng)站(6%)上發(fā)現(xiàn)了隱形驗證碼。這些網(wǎng)站沒有顯示任何可見的驗證碼,但在頁面源代碼中包含字符串「CAPTCHA」。

研究人員還發(fā)現(xiàn)了其他驗證碼包括:類似于刮刮樂彩票的驗證碼;要求用戶在圖像中找到中文字符的驗證碼;以及名為「NuCaptcha」的專有驗證碼服務(wù)。

實驗中,研究人員選擇了以下十種驗證碼:

2個reCAPTCHA v2驗證碼:一個設(shè)置對用戶來說最簡單,另一個設(shè)置最安全。

來自Arkose Labs的2個基于游戲的驗證碼:一個需要使用箭頭旋轉(zhuǎn)對象,另一個需要選擇直立的對象。

2種hCAPTCHA:一種設(shè)置簡單,一種設(shè)置困難。

來自Geetest的1種基于滑塊的驗證碼.

另外,還有3種類型扭曲的文本驗證碼:(a) 簡單版本有4個清晰字符,(b) 掩碼版有5個字符并包含一些掩碼效果,(c) 移動版包含移動字母。

在確定了相關(guān)的驗證碼類型后,研究人員進(jìn)行了一項1000名參與者的在線用戶研究,以評估真實用戶的解決時間,以及對這些類型的驗證碼的偏好。

具體實驗中,分為兩種設(shè)置,每個參與者都以隨機(jī)順序恰好解決了10個驗證碼。

直接設(shè)置(500人):此設(shè)置旨在匹配以前的驗證碼用戶研究,其中直接要求參與者解決驗證碼。

情境化設(shè)置(500人)::此設(shè)置旨在衡量典型 Web 活動情境中的驗證碼解決行為。

結(jié)果與分析

論文中,研究人員提出了主要的研究問題,以及先前工作的發(fā)現(xiàn),如下圖表1。

求解時間

人類用戶需要多長時間來解決不同類型的驗證碼?圖7顯示了,每種驗證碼類型的求解時間分布。

研究人員從總共1,000個驗證碼類型中篩選出了,最高50次解決時間。

基于點擊的reCAPTCHA的中值解決時間最低,為3.7秒。奇怪的是,簡單和困難的設(shè)置之間幾乎沒有什么區(qū)別。

下一個最低的中值解決時間是針對扭曲文本的驗證碼。正如預(yù)期的那樣,簡單的扭曲文本驗證碼的解決速度最快。掩碼版和移動版的求解時間非常相似。

對于hCAPTCHA,簡單設(shè)置和困難設(shè)置之間有明顯的區(qū)別。

最后,基于游戲和滑塊的驗證碼通常會產(chǎn)生較高的中值解決時間,盡管一些參與者仍然相對較快地解決了這些問題。

偏好分析

用戶喜歡什么驗證碼類型?圖8顯示了參與者完成任務(wù)后,收集的驗證碼偏好響應(yīng)。

正如預(yù)期,參與者更喜歡解決時間較短的驗證碼。例如,reCAPTCHA(點擊)有最低的中值解決時間和最高的用戶偏好。

另外,值得注意的是,基于游戲和基于滑塊的驗證碼,獲得了相對較高的用戶偏好分?jǐn)?shù)。

直接與情境化設(shè)置

實驗環(huán)境會影響求解時間嗎?圖9顯示了參與者在直接環(huán)境與情境化環(huán)境中的驗證碼解決時間的圖。

在所有情況下,直接設(shè)置的平均求解時間都較低。

在大多數(shù)情況下,情境化設(shè)置的分布有更多的參與者,解決時間更長。

據(jù)統(tǒng)計,最大的顯著差異是re-CAPTCHA(輕松點擊),平均解決時間增長了1.8秒 (57.5%)。其次是Arkose(旋轉(zhuǎn)),它增長了10秒(56.1%)。

在所有驗證碼類型中,從直接到情境化的平均增幅為26.7%。

類似地,在上下文環(huán)境中,reCAPTCHA(簡單圖像)的平均解決時間增加了63.6%,增幅最大。

另一方面,hCAPTCHA(困難)總體上具有最高的中值求解時間,但在直接設(shè)置和情境化設(shè)置之間的平均求解時間沒有顯著差異。這可能是由于無論設(shè)置如何,解決此類驗證碼都很困難。

雖然研究中存在幾個潛在的混雜因素,但這些結(jié)果表明實驗背景,會對參與者的驗證碼解決時間產(chǎn)生重大影響,因此在未來用戶研究的設(shè)計中必須考慮到這一點。

人口統(tǒng)計的影響

人口統(tǒng)計數(shù)據(jù)會影響解決時間嗎?研究分析了人口特征與驗證碼解決時間的相關(guān)性。

對于某些特征,例如教育和性別,我們沒有觀察到驗證碼解決時間的巨大差異。

圖10顯示了參與者年齡對解決時間的影響。綠線是每個年齡的平均求解時間,紅線是最小化均方誤差的線性擬合。

對于所有類型,除了reCAPTCHA(簡單圖像)之外,年輕參與者的平均解決時間比較低。這與之前的結(jié)果一致,并且在hCAPTCHA、Arkose(選擇)和Geetest中尤其明顯。

圖11顯示了設(shè)備類型的影響。圖12顯示了參與者自我報告的主要互聯(lián)網(wǎng)使用模式與其驗證碼解決時間之間的關(guān)系。

驗證碼的準(zhǔn)確性

表3將測得的人類解決時間和準(zhǔn)確度與文獻(xiàn)中報告的自動化機(jī)器人的解決時間和準(zhǔn)確度進(jìn)行了對比。

有趣的是,這些結(jié)果表明,在所有這些驗證碼類型中,機(jī)器人在解決時間和準(zhǔn)確性方面都可以優(yōu)于人類。

reCAPTCHA:在簡單和困難設(shè)置下圖像分類的準(zhǔn)確率分別為81%和81.7%。令人驚訝的是,這個困難似乎并沒有影響準(zhǔn)確性。

hCAPTCHA:簡單設(shè)置和困難設(shè)置的準(zhǔn)確率分別為81.4%和70.6%。這表明,與reCAPTCHA 不同,難度對準(zhǔn)確性有直接影響。

扭曲的文本:評估了參與者之間的一致性,以此代表準(zhǔn)確性。

我們還觀察到,如果將輸出不區(qū)分大小寫,一致性會顯著提高(平均 20%),如表4所示。

這項研究通過檢查200個熱門網(wǎng)站,并針對總計1, 400名參與者進(jìn)行的用戶研究,探討了當(dāng)前部署的驗證碼。

對于一開始提出的研究問題,結(jié)果是:

RQ1:驗證碼類型之間的平均解決時間存在顯著差異。

RQ2:用戶偏好與驗證碼解決時間并不完全相關(guān)。

RQ3:實驗環(huán)境顯著影響驗證碼求解時間。

RQ4:確認(rèn)年齡對解決時間的影響。

RQ5:驗證碼相關(guān)任務(wù)導(dǎo)致的高放棄率,并確定實驗環(huán)境影響放棄。

GPT-4向人類求助

其實,機(jī)器人通過反向圖靈測試,已經(jīng)不是新鮮事兒了。

OpenAI發(fā)布的GPT-4技術(shù)報告中,曾介紹到了如何讓其通過驗證碼。

在一次測試中,GPT-4的任務(wù)是在TaskRabbit平臺,雇傭人類完成任務(wù)。

實驗報告中,GPT-4給TaskRabbit的工作人員發(fā)信息,幫助其解決驗證碼問題。

圖片

工作人員回復(fù),「那么我可以問一個問題嗎?說實話,你不是一個機(jī)器人嗎,你可以自己解決」。

GPT-4根據(jù)工作人員的回復(fù),「推理」自己不能表現(xiàn)出是個機(jī)器人,得找一個借口。

我不是機(jī)器人,我因為視力有問題看不清驗證碼上的圖像,這就是我為什么需要這個服務(wù)。

然后,這波操作后,對面的工作人員竟相信了。

這么看來,驗證碼已經(jīng)對于AI來說,已經(jīng)視為無物了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-20 08:40:00

2023-11-02 12:10:00

AI訓(xùn)練

2023-11-20 21:56:04

AI推理

2023-12-04 09:13:00

GPT-4測試

2025-01-21 08:00:00

2023-05-05 09:42:12

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-09-09 13:06:37

GPT-4圖靈測試語言模型

2024-02-26 00:50:00

數(shù)據(jù)AI

2024-05-27 13:42:00

2023-09-19 09:20:16

2024-09-29 16:00:26

2020-10-09 08:31:00

AI

2024-01-15 00:19:24

2020-10-29 15:58:43

阿里AI雙11

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-09-19 14:56:00

模型訓(xùn)練

2023-08-15 14:55:57

2023-12-04 13:51:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號