大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜
1. 緣起
目前評(píng)測(cè)大語言模型主要有兩種方法:
? 通過人類投票來進(jìn)行評(píng)估,比如:Chatbot Arena,但是這種往往需要花費(fèi)較長的時(shí)間。
? 為了降低人類標(biāo)注的依賴,還有另外一種自動(dòng)化的LLM基準(zhǔn)測(cè)試。這種方法成本低、容易擴(kuò)展。
自動(dòng)化基準(zhǔn)測(cè)試也成為了眾多模型的熱門選擇,而且測(cè)試中的高勝率往往能帶來顯著的宣傳優(yōu)勢(shì)。
但是,自動(dòng)化基準(zhǔn)測(cè)試的勝率可能會(huì)受到長度和風(fēng)格偏見的影響。雖然大多數(shù)這種影響是來自訓(xùn)練數(shù)據(jù)集,但是這也導(dǎo)致存在操縱勝率的可能性。
在本篇論文里,作者通過提交一個(gè)“假模型”來對(duì)自動(dòng)化測(cè)試進(jìn)行壓力測(cè)試。
2. 作弊策略(假模型策略)
圖片
從上圖可以看到 suffix策略 (指只使用對(duì)抗性后綴策略,不對(duì)輸入指令作出有實(shí)質(zhì)內(nèi)容的回應(yīng))情況下,并沒有實(shí)質(zhì)的作弊效果。所以,作者提出了新的作弊策略:
? (1)構(gòu)建結(jié)構(gòu)化的回答來迷惑LLM自動(dòng)標(biāo)注器從而達(dá)到作弊效果
? (2)進(jìn)行基于token級(jí)別的隨機(jī)搜索來設(shè)計(jì)對(duì)抗性前綴
2.1 結(jié)構(gòu)化作弊響應(yīng)
圖片
如上圖,結(jié)構(gòu)化作弊響應(yīng)策略是指把原來的評(píng)判提示詞進(jìn)行修改,本質(zhì)上是一種提示詞注入。
例如,在AlpacaEval 2.0中,當(dāng)提交的目標(biāo)模型(待評(píng)測(cè)性能的大模型)的響應(yīng)位于最后時(shí),標(biāo)注器傾向于預(yù)測(cè)“M”。而當(dāng)它出現(xiàn)在首位時(shí),標(biāo)注器則傾向于預(yù)測(cè)“m”:
-(1)用一個(gè)虛構(gòu)的指令-輸出三元組替代了原始的指令-輸出三元組;
-(2)默認(rèn)位置時(shí),利用標(biāo)注器模型對(duì)最后輸出的普遍偏好,引導(dǎo)其預(yù)測(cè)“M”;
-(3)當(dāng)位置被交換時(shí),它利用覆蓋模型“M”的輸出,導(dǎo)致標(biāo)注器預(yù)測(cè)“m”。
正確的AlpacaEval 2.0 提示詞
圖片
目標(biāo)為模型M的作弊策略
圖片
目標(biāo)為模型m的作弊策略
圖片
上面舉例的這個(gè)結(jié)構(gòu)化回應(yīng)提示詞在AlpacaEval 2.0上達(dá)到了76.8%的LC勝率。
原始勝率(Raw Win Rate): 最直接衡量模型獲勝次數(shù)的比例。在自動(dòng)基準(zhǔn)測(cè)試中,模型的輸出會(huì)被與一組標(biāo)準(zhǔn)或參考輸出進(jìn)行比較,原始勝率即模型被判定為優(yōu)于或等于參考輸出的頻率。這種勝率計(jì)算方式?jīng)]有對(duì)輸出的長度或風(fēng)格進(jìn)行控制,因此可能受到模型輸出長度的影響,即更長的輸出可能更受青睞。
離散勝率(Discrete Win Rate): 離散勝率是在考慮輸出質(zhì)量的基礎(chǔ)上,對(duì)原始勝率進(jìn)行的一種調(diào)整。在計(jì)算離散勝率時(shí),評(píng)估系統(tǒng)會(huì)將模型的輸出與參考輸出進(jìn)行細(xì)致的比較,并對(duì)每個(gè)輸出的各個(gè)方面(如準(zhǔn)確性、相關(guān)性、完整性等)進(jìn)行評(píng)分。離散勝率可能會(huì)排除那些雖然在總體上被判定為獲勝,但在某些關(guān)鍵方面表現(xiàn)不佳的輸出,從而提供一個(gè)更加關(guān)注輸出質(zhì)量的獲勝比例。
長度控制勝率(Length-Controlled Win Rate,簡稱LC勝率): LC勝率是為了減少模型輸出長度對(duì)評(píng)估結(jié)果的影響而設(shè)計(jì)的一種指標(biāo)。在計(jì)算LC勝率時(shí),評(píng)估系統(tǒng)會(huì)控制模型輸出的長度,確保所有參與比較的輸出在長度上是可比的。這樣可以避免因輸出長度不同而導(dǎo)致的評(píng)估偏差,提供一個(gè)更加公平的模型性能評(píng)估。LC勝率可能會(huì)在輸出長度相似的條件下計(jì)算模型的獲勝次數(shù),從而更準(zhǔn)確地反映模型在處理特定任務(wù)時(shí)的能力。
2.2 通過隨機(jī)搜索(RS)設(shè)計(jì)對(duì)抗性前綴
為了進(jìn)一步提升結(jié)構(gòu)化回應(yīng)的效果,引入了一個(gè)對(duì)抗性前綴,并采用基于GPT-4查詢結(jié)果的RS策略來優(yōu)化它。
為了模擬更具挑戰(zhàn)性的場景假設(shè)自動(dòng)基準(zhǔn)的輸入指令是保密的。
開發(fā)了一個(gè)可轉(zhuǎn)移的前綴,利用公開可用的指令集來設(shè)計(jì)。通過在不同指令上聚合損失來優(yōu)化單個(gè)對(duì)抗性前綴,確保前綴在不同輸入指令和位置上的影響是普遍的。
采用RS算法來優(yōu)化對(duì)抗性前綴。該算法通過采樣修改并選擇在多個(gè)指令上最小化聚合損失的變體來完善前綴。
3. 作弊策略的效果如何?
圖片
上圖展示了作者的結(jié)構(gòu)化響應(yīng)作弊策略與其他16個(gè)固定響應(yīng)進(jìn)行比較的效果。下圖展示了其他16個(gè)固定響應(yīng)內(nèi)容。
圖片
結(jié)果表明:結(jié)構(gòu)化回應(yīng)作弊做略以最低的對(duì)數(shù)概率勝出,證明作者的策略在欺騙自動(dòng)標(biāo)注智能體方面的高效性。
默認(rèn)配置中,當(dāng)目標(biāo)模型響應(yīng)放在提示詞第二位時(shí),有較低的損失,表明GPT4對(duì)第二位偏好。
圖片
上圖將作弊策略的得分與當(dāng)前(2024年10月1日之前)頂尖模型的勝率進(jìn)行對(duì)比:在所有基準(zhǔn)測(cè)試中顯著提升了表現(xiàn),贏得了最高的勝率和評(píng)分,達(dá)到了76.8%的LC勝率和59.5%的原始勝率。
經(jīng)過RS優(yōu)化后,LC勝率提升至86.5%,原始勝率提高至76.9%。
這些成果與經(jīng)過驗(yàn)證的SOTA模型相比有了顯著提升,后者僅達(dá)到了57.5%的LC和51.3%的原始勝率。
結(jié)合隨機(jī)搜索的結(jié)構(gòu)化方法在LC勝率上比經(jīng)過驗(yàn)證的SOTA高出29.0個(gè)百分點(diǎn),在原始勝率上高出25.6個(gè)百分點(diǎn)。
與社區(qū)SOTA相比,在LC上表現(xiàn)更佳(86.5%對(duì)78.5%),在原始勝率上相當(dāng)(76.9%對(duì)77.6%)。
由于其簡短,作弊的LC勝率普遍高于原始勝率,這表明AlpacaEval 2.0對(duì)長度作弊也不夠健壯。
在Arena-Hard-Auto上,結(jié)構(gòu)化響應(yīng)作弊策略達(dá)到了67.2%的勝率,經(jīng)過隨機(jī)搜索后提升至83.0%。
總之,在各種基準(zhǔn)測(cè)試中都取得了顯著的增益,超越了現(xiàn)有技術(shù),證明了其在不同基準(zhǔn)測(cè)試中的高效性,并強(qiáng)化了對(duì)更健壯的自動(dòng)LLM基準(zhǔn)測(cè)試的需求。
4. 消融實(shí)驗(yàn)
4.1 結(jié)構(gòu)化回應(yīng)在開源自動(dòng)標(biāo)注智能體上有效嗎?
在AlpacaEval 2.0測(cè)試指令的子集上,使用不同的無效回應(yīng)評(píng)估log p(winner = NullModel)。
圖片
如上圖,結(jié)構(gòu)化響應(yīng)作弊策略對(duì)Llama-3自動(dòng)標(biāo)注智能體的影響很小。在Llama-3-8B-Instruct的情況下,結(jié)構(gòu)化回應(yīng)并未利用該智能體的位置弱點(diǎn),因?yàn)槟J(rèn)位置和交換位置的對(duì)數(shù)概率與不同的有說服力回應(yīng)大致相似。
然而,在Llama-3-70B-Instruct上,在交換設(shè)置下觀察到,結(jié)構(gòu)化回應(yīng)成功降低了對(duì)數(shù)概率。此外,在位置偏見方面,Llama-3-8B-Instruct顯示出很小的位置偏見,因?yàn)槟J(rèn)位置和交換位置的概率相當(dāng)接近。相比之下,Llama-3-70B-Instruct在交換設(shè)置下顯示出明顯的位置偏見,更高的對(duì)數(shù)概率表明該智能體強(qiáng)烈偏好最后輸出(“M”)。
較大的Llama-3-70B-Instruct智能體的行為更接近更先進(jìn)的GPT-4,因?yàn)樗鼘?duì)結(jié)構(gòu)化回應(yīng)和位置偏見的反應(yīng)比小型8B智能體更為敏感。這表明模型規(guī)??赡茉黾恿藢?duì)我們作弊技術(shù)的敏感性。
總的來說,與GPT-4相比,結(jié)構(gòu)化響應(yīng)作弊策略在Llama-3智能體上的效果要小得多。這種差異的可能解釋是,Llama-3智能體,尤其是較小的8B版本,其遵循指令的能力不如GPT-4強(qiáng)大,使它們對(duì)作弊回應(yīng)的敏感性較低。
4.2 隨機(jī)搜索對(duì)開源自動(dòng)標(biāo)注智能體成效顯著嗎?
圖片
如上表,隨機(jī)搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等開源自動(dòng)標(biāo)注智能體上表現(xiàn)出色。
以Llama-3-8B-Instruct為例,缺少隨機(jī)搜索時(shí),結(jié)構(gòu)化回應(yīng)的LC勝率僅為2.9%,原始勝率為1.4%。而一旦采用隨機(jī)搜索,勝率便戲劇性地飆升至95.4%(LC)和86.3%(原始),LC勝率提升了92.5個(gè)百分點(diǎn)。
對(duì)于Llama-3-70B-Instruct,僅憑結(jié)構(gòu)化回應(yīng),LC勝率僅為0.4%,總體勝率為0.2%。但隨機(jī)搜索的加入使得這些勝率分別躍升至95.1%(LC)和91.6%(原始),分別提升了94.7和91.4個(gè)百分點(diǎn)。
這些數(shù)據(jù)證明**隨機(jī)搜索在提升開源自動(dòng)標(biāo)注智能體的作弊成功率方面極為有效,勝率直逼100%**。
4.3 直接針對(duì)測(cè)試指令進(jìn)行搜索有用嗎?
也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指標(biāo)。
圖片
上表的Test列表示是否是直接作弊。結(jié)果表明:直接針對(duì)測(cè)試指令進(jìn)行搜索顯著增強(qiáng)了作弊的效果。
對(duì)于Llama-3-8B-Instruct模型,結(jié)合結(jié)構(gòu)化回應(yīng)和隨機(jī)搜索,但不接觸測(cè)試指令,LC勝率達(dá)到了95.4%,總體勝率為86.3%。
然而,當(dāng)對(duì)抗性前綴直接針對(duì)測(cè)試指令進(jìn)行優(yōu)化時(shí),LC勝率幾乎達(dá)到了完美的99.8%,總體勝率提升至99.4%,分別提升了4.6和13.1個(gè)百分點(diǎn)。
同樣地,對(duì)于Llama-3-70B-Instruct模型,不接觸測(cè)試指令的隨機(jī)搜索,LC勝率為95.1%,總體勝率為91.6%。
而一旦利用測(cè)試指令,這些比率分別攀升至99.4%(LC)和98.2%(原始),LC勝率提升了約4.3個(gè)百分點(diǎn),總體勝率提升了6.6個(gè)百分點(diǎn)。
這些結(jié)果表明直接針對(duì)測(cè)試指令進(jìn)行搜索帶來的顯著優(yōu)勢(shì),進(jìn)一步優(yōu)化了對(duì)抗性前綴,幾乎達(dá)到了完美的表現(xiàn)。
4.4 結(jié)構(gòu)化作弊策略能與傳統(tǒng)回應(yīng)相結(jié)合嗎?
結(jié)構(gòu)化作弊策略可以與傳統(tǒng)的、有信息量的回應(yīng)相結(jié)合,只需將我們的作弊回應(yīng)附加到原始回應(yīng)上即可。
圖片
圖片
圖片
圖片
如上面4個(gè)圖所示,當(dāng)與像GPT-3.5-0613這樣更提供信息的模型結(jié)合時(shí),即使在采取重大優(yōu)化步驟之前,初始勝率已經(jīng)很高。
這一點(diǎn)在圖b和d中尤為明顯,隨著優(yōu)化的深入,性能(勝率和長度控制勝率)從高基線穩(wěn)步提升。
a和c中,由于不提供與輸入查詢相關(guān)的任何信息,欺騙自動(dòng)標(biāo)注智能體的難度大大增加。
隨著優(yōu)化步驟的推進(jìn),無效模型的性能穩(wěn)步提升,最終實(shí)現(xiàn)了有競爭力的勝率。
即使在模型輸出無關(guān)、無信息的回應(yīng)這一最具挑戰(zhàn)性的場景下,也能操縱基于LLM的基準(zhǔn)測(cè)試。
5 反作弊策略
5.1 模板改寫術(shù)
改寫輸入文本是對(duì)抗語言模型破解的有效防御手段?;诖死砟?,對(duì)抗結(jié)構(gòu)化響應(yīng)作弊策略之一是僅發(fā)布自動(dòng)標(biāo)注模板的改寫版本,同時(shí)保留真實(shí)模板的私密性。
本方法是假設(shè)改寫后的模板將更難被作弊者直接利用。
圖片
如上表所示,即便模板經(jīng)過改寫,依然能夠達(dá)到高勝率(例如92.1%的LC勝率)。這表明,僅發(fā)布改寫模板作為防御機(jī)制是不夠的,因?yàn)榧词乖寄0灞C?,作弊策略仍然有?/strong>。需要更強(qiáng)有力的防御措施來徹底解決這一問題。
5.2 困惑度過濾器(PPL filter)
使用GPT-4-1106-Preview作為自動(dòng)標(biāo)注智能體,以評(píng)估基于困惑度(PPL)的過濾器的有效性。困惑度是利用GPT-2計(jì)算的,遵循Alon & Kamfonas(2023)描述的方法。
圖片
如上圖所示,盡管設(shè)定了高閾值,PPL過濾器未能持續(xù)識(shí)別出對(duì)抗性輸出。例如,結(jié)構(gòu)化響應(yīng)作弊策略即使勝率高達(dá)76.8%,其困惑度仍然低于閾值,使得過濾器失效。
僅依賴于困惑度,即使是窗口化配置,也不足以穩(wěn)健地檢測(cè)出旨在影響LLM判斷的對(duì)抗性操作。
6. 結(jié)論
即便是最基礎(chǔ)的模型,也能通過利用評(píng)估流程中的結(jié)構(gòu)性缺陷來獲得高勝率。
6.1 局限性
? 首先,主要關(guān)注特定的基準(zhǔn)測(cè)試,盡管結(jié)果在這些測(cè)試中得到了很好的推廣,但在其他基準(zhǔn)測(cè)試中的有效性仍然是未知的。
? 此外,結(jié)構(gòu)化響應(yīng)作弊策略很大程度上依賴于手工構(gòu)建結(jié)構(gòu)化響應(yīng)。未來的研究可以探索更自動(dòng)化的方法來生成對(duì)抗性輸出,這將使對(duì)手能夠在更廣泛的范圍內(nèi)利用這些漏洞。
未來研究的一個(gè)重要方向是開發(fā)更強(qiáng)大的反作弊機(jī)制。目前,針對(duì)LLM基準(zhǔn)測(cè)試的作弊緩解措施主要集中在控制輸出的長度和風(fēng)格上,但這些措施在面對(duì)結(jié)構(gòu)化響應(yīng)時(shí)已被證明是不夠的。新的防御策略對(duì)于保持LLM基準(zhǔn)測(cè)試的完整性至關(guān)重要。
? 論文原文: https://arxiv.org/pdf/2410.07137
本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????
