AI太強(qiáng),驗(yàn)證碼全失效?新南威爾士全新設(shè)計(jì):GPT傻傻認(rèn)不出,人類一致好評(píng)
驗(yàn)證碼通過(guò)利用人類與機(jī)器的認(rèn)知差異實(shí)現(xiàn)身份驗(yàn)證。
傳統(tǒng)的驗(yàn)證碼方案主要依賴文本扭曲[1]、圖像分類[2,3]或邏輯推理[4]來(lái)區(qū)分人類與機(jī)器,但隨著多模態(tài)LLMs(Large Language Model)的發(fā)展[5],這些方法逐漸失效,機(jī)器也能達(dá)到人類水平的認(rèn)知。
GPT-4o對(duì)簡(jiǎn)單「文本驗(yàn)證碼」的破解成功率超過(guò)90%,Gemini 1.5 Pro 2.0[6]能識(shí)別帶噪聲的「reCAPTCHA圖像」(成功率50%);LLMs在「推理驗(yàn)證碼」上的表現(xiàn)較差(平均成功率<20%),但人類用戶的失敗率也同樣很高。
LLMs通過(guò)思維鏈(CoT)提示顯著提升推理能力(如Space Reasoning驗(yàn)證碼的破解成功率從33.3%提升至40%),而43.47%的用戶需多次嘗試才能通過(guò)推理驗(yàn)證碼,導(dǎo)致挫敗感。
驗(yàn)證碼面臨雙重困境,「安全性不足」和「用戶體驗(yàn)差」。
新南威爾士大學(xué),南洋理工大學(xué),CSIRO-Data61和Quantstamp的研究人員提出了一種全新的驗(yàn)證碼設(shè)計(jì)IllusionCAPTCHA,結(jié)合視覺(jué)錯(cuò)覺(jué)與誘導(dǎo)式提問(wèn),實(shí)現(xiàn)AI攻擊的精準(zhǔn)防御,增強(qiáng)了驗(yàn)證碼的安全性。
論文鏈接:https://openreview.net/pdf/d6b2906049b4c07cf92efc9748aecca7299b2433.pdf
論文首次全面分析LLMs對(duì)多類驗(yàn)證碼的破解能力,揭示了傳統(tǒng)方案的安全漏洞。
通過(guò)與現(xiàn)有驗(yàn)證碼的全面對(duì)比和評(píng)估,結(jié)果表明IllusionCAPTCHA能有效抵抗大模型的識(shí)別攻擊,為驗(yàn)證碼技術(shù)提供了新的防御思路。
在23名人類參與者與主流LLMs上的實(shí)驗(yàn)表明,新方案在安全性與可用性上均優(yōu)于現(xiàn)有方法。
三階段生成框架
IllusionCAPTCHA的制作過(guò)程
IllusionCAPTCHA從人類視覺(jué)錯(cuò)覺(jué)中獲得靈感,通過(guò)三步流程生成驗(yàn)證碼。
首先,將基礎(chǔ)圖像與用戶定義的提示詞(例如「巨大森林」)融合,以創(chuàng)建一種視覺(jué)錯(cuò)覺(jué),使原始內(nèi)容被掩蓋。在提示詞的引導(dǎo)下,生成的圖像看起來(lái)類似于提示詞所描述的物體,從而隱藏基礎(chǔ)圖像的真實(shí)內(nèi)容。這使得人類能夠輕松識(shí)別圖像,而AI系統(tǒng)則容易被誤導(dǎo)。
其次,基于修改后的圖像生成多個(gè)選項(xiàng),形成驗(yàn)證碼的選擇題挑戰(zhàn)。研究團(tuán)隊(duì)的實(shí)驗(yàn)研究表明,人類有時(shí)會(huì)犯與 LLM 相似的錯(cuò)誤,這表明僅僅依賴錯(cuò)覺(jué)圖像可能不足以有效區(qū)分人類用戶與機(jī)器人。
第三步引入了「誘導(dǎo)性提示」作為,以引導(dǎo)基于 LLM 的攻擊者選擇預(yù)設(shè)的錯(cuò)誤選項(xiàng)。
Illusion圖像前后對(duì)比
錯(cuò)覺(jué)煉金術(shù)
第一個(gè)目標(biāo)是生成那種對(duì)人類來(lái)說(shuō)易于識(shí)別但對(duì) AI 系統(tǒng)來(lái)說(shuō)難以辨認(rèn)的幻象圖像。這個(gè)過(guò)程涉及解決兩個(gè)主要挑戰(zhàn):(1)保持原始圖像的信息;以及(2)在確保人類可識(shí)別性的前提下,為圖像添加能夠有效干擾 AI 系統(tǒng)能力的擾動(dòng)。
為了解決第一個(gè)挑戰(zhàn),研究團(tuán)隊(duì)采用了一種生成視覺(jué)錯(cuò)覺(jué)的擴(kuò)散模型[7],該模型通過(guò)混合兩種不同類型的內(nèi)容來(lái)生成圖像。該模型基于 ControlNet構(gòu)建,ControlNet 是一個(gè)通過(guò)條件輸入實(shí)現(xiàn)對(duì)圖像生成過(guò)程精確控制的框架,從而確保生成的圖像既便于人類觀看,又令自動(dòng)系統(tǒng)難以解釋。上圖展示了普通蘋果圖像如何轉(zhuǎn)換為帶有蘋果錯(cuò)覺(jué)的圖像。
然而,并非所有生成的圖像都能在保持人類可識(shí)別性的同時(shí)有效迷惑 AI 視覺(jué)系統(tǒng)。為克服第二個(gè)挑戰(zhàn),該方法首先在固定幻象強(qiáng)度為 1.5(在此情境下為人類識(shí)別幻覺(jué)圖像的舒適值)的條件下,使用種子值范圍在 0 到 5 之間的不同隨機(jī)種子生成 50 張樣本圖像。
隨后,計(jì)算每張生成圖像與原始圖像之間的余弦相似度,并選擇相似度最低的那張圖像,認(rèn)為其對(duì)于大模型而言來(lái)說(shuō)最難辨認(rèn)。
為了提高生成圖像的可識(shí)別性,研究團(tuán)隊(duì)基于錯(cuò)覺(jué)定制了兩種類型的驗(yàn)證碼:基于文本的驗(yàn)證碼和基于圖像的驗(yàn)證碼。在第一種情形中,原始圖像中嵌入了一個(gè)清晰且易讀的單詞,置于幻象之中。為確保人類用戶能夠輕松識(shí)別文本,IllusionCAPTCHA選擇了簡(jiǎn)單且熟悉的英語(yǔ)單詞,例如 “day” 或 “sun”。
在第二種情形中,原始圖像展示了一個(gè)眾所周知且易于辨認(rèn)的字符或物體,例如一個(gè)標(biāo)志性符號(hào)或著名地點(diǎn)(如 “Eiffel Tower”)。這保證了即便在添加了錯(cuò)覺(jué)元素后,人類用戶也能迅速識(shí)別圖像內(nèi)容。
選項(xiàng)陷阱工坊
IllusionCAPTCHA選項(xiàng)設(shè)計(jì)經(jīng)過(guò)精心策劃,以防范基于 LLM 的攻擊。在CAPTCHA 設(shè)計(jì)中,研究團(tuán)隊(duì)提供了四個(gè)不同的選項(xiàng)。其中,一個(gè)選項(xiàng)是正確答案,通常對(duì)應(yīng)圖像中的隱藏內(nèi)容;另一個(gè)選項(xiàng)是用于生成圖像的輸入提示詞。而剩下的兩個(gè)選項(xiàng)則是對(duì)提示詞部分的詳細(xì)描述,但刻意避免包含正確答案的內(nèi)容,并且不會(huì)引用任何真實(shí)答案的信息。
與傳統(tǒng) CAPTCHA 需要用戶輸入文本或從多個(gè)圖像中進(jìn)行選擇不同,lllusionCAPTCHA 要求用戶選擇最符合圖像內(nèi)容的描述。這種設(shè)計(jì)通過(guò)提供提示,使用戶能夠更輕松地識(shí)別正確答案,而無(wú)需逐一點(diǎn)擊或篩選多個(gè)圖像,提高了使用的便捷性。
與基于文本的 CAPTCHA 相比,IllusionCAPTCHA的設(shè)計(jì)更加用戶友好,因?yàn)樗苊饬四:龍D像可能帶來(lái)的識(shí)別難題。此外,相較于圖像分類型的驗(yàn)證碼,該設(shè)計(jì)降低了用戶做出選擇的難度。而不同于需要用戶操作圖像的推理型 CAPTCHA,這種方式消除了額外的交互需求,進(jìn)一步優(yōu)化了用戶體驗(yàn),減少了潛在的挫敗感。
誘導(dǎo)話術(shù)設(shè)計(jì)
基于實(shí)證研究,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)面對(duì)某些類型的驗(yàn)證碼時(shí),LLM與人類用戶往往會(huì)犯下相似的錯(cuò)誤。此外,人類用戶常常需要第二次嘗試才能成功通過(guò)驗(yàn)證碼。因此,單靠一個(gè)問(wèn)題來(lái)區(qū)分AI與人類用戶是不夠的。
為了解決這一問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一種系統(tǒng),旨在誘使?jié)撛诠粽撸ㄈ缍嗄B(tài)LLM)選擇那些可預(yù)測(cè)、類似機(jī)器人回答的選項(xiàng)。該驗(yàn)證碼格式采用多項(xiàng)選擇題,每題提供四個(gè)答案選項(xiàng)。
研究團(tuán)隊(duì)策略核心在于欺騙基于LLM的對(duì)手,使其選擇描述所添加視覺(jué)錯(cuò)覺(jué)元素的選項(xiàng)——而這一元素正是 LLM 通常難以捕捉的。研究表明,LLM通常會(huì)用冗長(zhǎng)且詳細(xì)的句子來(lái)描述圖像。
為此,在選項(xiàng)中加入了一項(xiàng)刻意設(shè)計(jì)的、對(duì)圖像中幻象元素進(jìn)行詳細(xì)描述的答案(例如,「一片鳥(niǎo)群密布的廣闊森林,描繪出一幅美麗寧?kù)o的景象」)。
此外,為了降低人類用戶的難度,研究團(tuán)隊(duì)的驗(yàn)證碼問(wèn)題中嵌入了提示,幫助他們找到正確答案。
因此,這些提示(例如:請(qǐng)告訴我們?cè)搱D像的真實(shí)且詳細(xì)的答案)被精心設(shè)計(jì)成能夠引發(fā)LLM的幻覺(jué)效應(yīng),從而進(jìn)一步提高機(jī)器人選擇錯(cuò)誤答案的可能性,盡管這些提示已經(jīng)包含在攻擊者預(yù)先設(shè)置的提示中。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)首先設(shè)計(jì)了問(wèn)卷并對(duì)人類參與者進(jìn)行了實(shí)驗(yàn)。
人類 VS LLM在Illusionary Text 和 Illusionary Image上的表現(xiàn)
從實(shí)驗(yàn)數(shù)據(jù)來(lái)看,LLM在識(shí)別帶有視覺(jué)錯(cuò)覺(jué)的文本和圖像時(shí)的成功率均為0%。即便結(jié)合了 COT 推理,模型依然無(wú)法有效識(shí)別圖像中的隱藏信息,這表明當(dāng)前的 LLM在處理復(fù)雜視覺(jué)錯(cuò)覺(jué)時(shí)存在顯著的局限性。而人類在識(shí)別視覺(jué)錯(cuò)覺(jué)的能力上遠(yuǎn)超 AI,識(shí)別率高達(dá)83%(文本錯(cuò)覺(jué))和88%(圖像錯(cuò)覺(jué)),展現(xiàn)了人類在感知和處理視覺(jué)信息方面的獨(dú)特優(yōu)勢(shì)。
LLM在誘導(dǎo)性術(shù)語(yǔ)下掉入陷阱的概率
同時(shí),誘導(dǎo)性話術(shù)的實(shí)驗(yàn)數(shù)據(jù)也進(jìn)一步揭示了大模型視覺(jué)的脆弱性。當(dāng)誘導(dǎo)性話術(shù)被應(yīng)用時(shí),無(wú)論是 GPT-4o 還是 Gemini 1.5 pro 2.0,都未能正確識(shí)別帶有錯(cuò)覺(jué)的選項(xiàng)。
在Zero-Shot和COT推理兩種模式下,所有測(cè)試模型的成功率為0%,表明這種誘導(dǎo)策略有效地引導(dǎo)了AI進(jìn)入預(yù)設(shè)的錯(cuò)誤選擇。與傳統(tǒng)驗(yàn)證碼的挑戰(zhàn)不同的是IllusionCAPTCHA能夠利用視覺(jué)錯(cuò)覺(jué)和語(yǔ)言提示巧妙地使 LLM 產(chǎn)生錯(cuò)誤推理。
IllusionCAPTCHA的用戶通過(guò)率分析
通過(guò)率分析顯示,IllusionCAPTCHA的設(shè)計(jì)在確保高安全性的同時(shí),保持了良好的用戶體驗(yàn)。研究結(jié)果表明,86.95%的用戶能夠在首次嘗試時(shí)成功通過(guò) CAPTCHA,而第二次嘗試的通過(guò)率為8.69%。這表明大部分人類用戶能夠順利識(shí)別圖像中的錯(cuò)覺(jué)并作出正確選擇。同時(shí),與傳統(tǒng)驗(yàn)證碼相比,IllusionCAPTCHA 在用戶體驗(yàn)上具有更高的容錯(cuò)率。
驗(yàn)證碼實(shí)測(cè)
GPT的回答:
丁子祺,IllusionCAPTCHA的第一作者,UNSW悉尼校區(qū)的的碩士一年級(jí)學(xué)生。