文字順序不影響GPT-4閱讀理解,別的大模型都不行
研表究明,漢字序順并不定一影閱響讀(對(duì)于英文來說,則是每一個(gè)單詞中的字母順序)。
現(xiàn)在,日本東京大學(xué)的一項(xiàng)實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)“定理”居然也適合GPT-4。
比如面對(duì)這樣一段“鬼畫符”,幾乎里面每一個(gè)單詞的每一個(gè)字母都被打亂:
oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。
但GPT-4居然完美地恢復(fù)出了原始句子(紅框部分):
原來是一個(gè)叫做Jon Rahm的人贏得了2023年美國大師賽(高爾夫)的故事。
并且,如果你直接就這段亂碼對(duì)GPT-4進(jìn)行提問,它也能先理解再給出正確答案,一點(diǎn)兒也不影響閱讀:
對(duì)此,研究人員感到非常吃驚:
按理說亂碼單詞會(huì)對(duì)模型的tokenization處理造成嚴(yán)重干擾,GPT-4居然和人類一樣不受影響,這有點(diǎn)違反直覺啊。
值得一提的是,這項(xiàng)實(shí)驗(yàn)也測(cè)試了其他大模型,但它們?nèi)继魬?zhàn)失敗——有且僅有GPT-4成功。
具體怎么說?
文字順序不影響GPT-4閱讀
為了測(cè)試大模型抗文字錯(cuò)亂干擾的能力,作者構(gòu)建了一個(gè)專門的測(cè)試基準(zhǔn):Scrambled Bench。
它共包含兩類任務(wù):
一是加擾句子恢復(fù)(ScrRec),即測(cè)試大模型恢復(fù)亂序句子的能力。
它的量化指標(biāo)包括一個(gè)叫做恢復(fù)率(RR)的東西,可以簡(jiǎn)單理解為大模型恢復(fù)單詞的比例。
二是加擾問答(ScrQA),測(cè)量大模型在上下文材料中的單詞被打亂時(shí)正確理解并回答問題的能力。
由于每個(gè)模型本身的能力并不相同,我們不好直接用準(zhǔn)確性來評(píng)估這一項(xiàng)任務(wù),因此作者在此采用了一個(gè)叫做相對(duì)性能增益(RPG)的量化指標(biāo)。
具體測(cè)試素材則選自三個(gè)數(shù)據(jù)庫:
一個(gè)是RealtimeQA,它每周公布當(dāng)前LLM不太可能知道的最新消息;
第二個(gè)是DREAM(Sun et al.,2019),一個(gè)基于對(duì)話的多項(xiàng)選擇閱讀綜合數(shù)據(jù)集;
最后是AQuARAT,一個(gè)需要多步推理才能解決的數(shù)學(xué)問題數(shù)據(jù)集。
對(duì)于每個(gè)數(shù)據(jù)集,作者從中挑出題目,并進(jìn)行不同程度和類型的干擾,包括:
1、隨機(jī)加擾(RS),即對(duì)每一個(gè)句子,隨機(jī)選擇一定比例(20%、50%、100%)的單詞,對(duì)這些單詞中的所有字母進(jìn)行打亂(數(shù)字不變)。
2、保持每個(gè)單詞的第一個(gè)字母不變,剩下的隨意排列(KF)。
3、保持每個(gè)單詞的首字母和最后一個(gè)字母不變,剩下的隨機(jī)打亂(KFL)。
參與測(cè)試的模型有很多,文章正文主要報(bào)告了以下幾個(gè):
text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。
首先來看不同干擾類型的影響。
如下圖所示:
在KFL設(shè)置中(即首尾字母不變),不管是加擾句子恢復(fù)還是加擾問答任務(wù),模型之間的性能差距都不大。
然而,隨著干擾難度越來越高(變?yōu)镵F和RS后),模型的性能都迎來顯著下降——除了GPT-4。
具體而言,在加擾句子恢復(fù)(ScrRec)任務(wù)中,GPT-4的恢復(fù)率始終高于95%,在加擾問答(ScrQA)任務(wù)中,GPT-4的相對(duì)準(zhǔn)確性也都始終維在85%-90%左右。
相比之下,其他模型有的都掉到了不足20%。
其次是不同加擾率的影響。
如下圖所示,可以看到,在加擾句子恢復(fù)(ScrRec)任務(wù)中,隨著一個(gè)句子中被干擾的單詞數(shù)量越來越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能沒有顯著變化,當(dāng)然,GPT-4還是比GPT-3.5優(yōu)先了很大一截。
而在加擾問答(ScrQA)任務(wù)中,隨著句子中被打亂的單詞數(shù)量越來越多,所有模型性能都出現(xiàn)了都顯著下降,且差距越來越大。
但在其中,GPT-4還能以87.8%的成績(jī)保持遙遙領(lǐng)先,并且下降幅度也是最輕微的。
所以簡(jiǎn)單總結(jié)來說就是:
大多數(shù)模型都可以處理一定比例的干擾文本,但到極端程度時(shí)(比如單詞全部打亂),就只有GPT-4表現(xiàn)最好,只有GPT-4面對(duì)完全混亂的詞序,幾乎不怎么被影響。
GPT-4還擅長(zhǎng)分詞
在文章最后,作者指出:
除了打亂單詞字母順序之外,還可以研究插入字母、替換字母等情況的影響。
唯一的問題是,由于GPT-4為閉源,大家也不好調(diào)查為什么GPT-4可以不被詞序影響。
有網(wǎng)友發(fā)現(xiàn),除了本文所證明的情況,GPT-4也非常擅長(zhǎng)將下面這一段完全連起來的英文:
UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA
NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV
EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN
OWITHOLDSTHEKEYSTOUNTOLDPOWER
正確分隔開來:
Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.
按理來說,這種分詞操作是一件很麻煩的事兒,通常需要?jiǎng)討B(tài)編程等操作。
GPT-4表現(xiàn)出來的能力再次讓這位網(wǎng)友感到驚訝。
他還把這段內(nèi)容放進(jìn)了OpenA官方的tokenizer工具,發(fā)現(xiàn)GPT-4看到的token其實(shí)是這樣的:
UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA
這里面除了“UNDER”、“SEA”和“OF”之外,幾乎剩下的所有token都看起來“毫無邏輯”,這更加使人費(fèi)解了。
對(duì)此,大伙是怎么看的呢?