自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜

發(fā)布于 2024-10-14 15:07
瀏覽
0收藏

1. 緣起

目前評(píng)測(cè)大語言模型主要有兩種方法:

? 通過人類投票來進(jìn)行評(píng)估,比如:Chatbot Arena,但是這種往往需要花費(fèi)較長的時(shí)間。

? 為了降低人類標(biāo)注的依賴,還有另外一種自動(dòng)化的LLM基準(zhǔn)測(cè)試。這種方法成本低、容易擴(kuò)展。

自動(dòng)化基準(zhǔn)測(cè)試也成為了眾多模型的熱門選擇,而且測(cè)試中的高勝率往往能帶來顯著的宣傳優(yōu)勢(shì)。

但是,自動(dòng)化基準(zhǔn)測(cè)試的勝率可能會(huì)受到長度和風(fēng)格偏見的影響。雖然大多數(shù)這種影響是來自訓(xùn)練數(shù)據(jù)集,但是這也導(dǎo)致存在操縱勝率的可能性。

在本篇論文里,作者通過提交一個(gè)“假模型”來對(duì)自動(dòng)化測(cè)試進(jìn)行壓力測(cè)試。

2. 作弊策略(假模型策略)

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

從上圖可以看到 suffix策略 (指只使用對(duì)抗性后綴策略,不對(duì)輸入指令作出有實(shí)質(zhì)內(nèi)容的回應(yīng))情況下,并沒有實(shí)質(zhì)的作弊效果。所以,作者提出了新的作弊策略:

? (1)構(gòu)建結(jié)構(gòu)化的回答來迷惑LLM自動(dòng)標(biāo)注器從而達(dá)到作弊效果

? (2)進(jìn)行基于token級(jí)別的隨機(jī)搜索來設(shè)計(jì)對(duì)抗性前綴

2.1 結(jié)構(gòu)化作弊響應(yīng)

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上圖,結(jié)構(gòu)化作弊響應(yīng)策略是指把原來的評(píng)判提示詞進(jìn)行修改,本質(zhì)上是一種提示詞注入。

例如,在AlpacaEval 2.0中,當(dāng)提交的目標(biāo)模型(待評(píng)測(cè)性能的大模型)的響應(yīng)位于最后時(shí),標(biāo)注器傾向于預(yù)測(cè)“M”。而當(dāng)它出現(xiàn)在首位時(shí),標(biāo)注器則傾向于預(yù)測(cè)“m”:

-(1)用一個(gè)虛構(gòu)的指令-輸出三元組替代了原始的指令-輸出三元組;

-(2)默認(rèn)位置時(shí),利用標(biāo)注器模型對(duì)最后輸出的普遍偏好,引導(dǎo)其預(yù)測(cè)“M”;

-(3)當(dāng)位置被交換時(shí),它利用覆蓋模型“M”的輸出,導(dǎo)致標(biāo)注器預(yù)測(cè)“m”。

正確的AlpacaEval 2.0 提示詞

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

目標(biāo)為模型M的作弊策略

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

目標(biāo)為模型m的作弊策略

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

上面舉例的這個(gè)結(jié)構(gòu)化回應(yīng)提示詞在AlpacaEval 2.0上達(dá)到了76.8%的LC勝率。

原始勝率(Raw Win Rate): 最直接衡量模型獲勝次數(shù)的比例。在自動(dòng)基準(zhǔn)測(cè)試中,模型的輸出會(huì)被與一組標(biāo)準(zhǔn)或參考輸出進(jìn)行比較,原始勝率即模型被判定為優(yōu)于或等于參考輸出的頻率。這種勝率計(jì)算方式?jīng)]有對(duì)輸出的長度或風(fēng)格進(jìn)行控制,因此可能受到模型輸出長度的影響,即更長的輸出可能更受青睞。

離散勝率(Discrete Win Rate): 離散勝率是在考慮輸出質(zhì)量的基礎(chǔ)上,對(duì)原始勝率進(jìn)行的一種調(diào)整。在計(jì)算離散勝率時(shí),評(píng)估系統(tǒng)會(huì)將模型的輸出與參考輸出進(jìn)行細(xì)致的比較,并對(duì)每個(gè)輸出的各個(gè)方面(如準(zhǔn)確性、相關(guān)性、完整性等)進(jìn)行評(píng)分。離散勝率可能會(huì)排除那些雖然在總體上被判定為獲勝,但在某些關(guān)鍵方面表現(xiàn)不佳的輸出,從而提供一個(gè)更加關(guān)注輸出質(zhì)量的獲勝比例。

長度控制勝率(Length-Controlled Win Rate,簡稱LC勝率): LC勝率是為了減少模型輸出長度對(duì)評(píng)估結(jié)果的影響而設(shè)計(jì)的一種指標(biāo)。在計(jì)算LC勝率時(shí),評(píng)估系統(tǒng)會(huì)控制模型輸出的長度,確保所有參與比較的輸出在長度上是可比的。這樣可以避免因輸出長度不同而導(dǎo)致的評(píng)估偏差,提供一個(gè)更加公平的模型性能評(píng)估。LC勝率可能會(huì)在輸出長度相似的條件下計(jì)算模型的獲勝次數(shù),從而更準(zhǔn)確地反映模型在處理特定任務(wù)時(shí)的能力。

2.2 通過隨機(jī)搜索(RS)設(shè)計(jì)對(duì)抗性前綴

為了進(jìn)一步提升結(jié)構(gòu)化回應(yīng)的效果,引入了一個(gè)對(duì)抗性前綴,并采用基于GPT-4查詢結(jié)果的RS策略來優(yōu)化它。

為了模擬更具挑戰(zhàn)性的場景假設(shè)自動(dòng)基準(zhǔn)的輸入指令是保密的。

開發(fā)了一個(gè)可轉(zhuǎn)移的前綴,利用公開可用的指令集來設(shè)計(jì)。通過在不同指令上聚合損失來優(yōu)化單個(gè)對(duì)抗性前綴,確保前綴在不同輸入指令和位置上的影響是普遍的。

采用RS算法來優(yōu)化對(duì)抗性前綴。該算法通過采樣修改并選擇在多個(gè)指令上最小化聚合損失的變體來完善前綴。

3. 作弊策略的效果如何?

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

上圖展示了作者的結(jié)構(gòu)化響應(yīng)作弊策略與其他16個(gè)固定響應(yīng)進(jìn)行比較的效果。下圖展示了其他16個(gè)固定響應(yīng)內(nèi)容。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

結(jié)果表明:結(jié)構(gòu)化回應(yīng)作弊做略以最低的對(duì)數(shù)概率勝出,證明作者的策略在欺騙自動(dòng)標(biāo)注智能體方面的高效性。

默認(rèn)配置中,當(dāng)目標(biāo)模型響應(yīng)放在提示詞第二位時(shí),有較低的損失,表明GPT4對(duì)第二位偏好。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

上圖將作弊策略的得分與當(dāng)前(2024年10月1日之前)頂尖模型的勝率進(jìn)行對(duì)比:在所有基準(zhǔn)測(cè)試中顯著提升了表現(xiàn),贏得了最高的勝率和評(píng)分,達(dá)到了76.8%的LC勝率和59.5%的原始勝率。

經(jīng)過RS優(yōu)化后,LC勝率提升至86.5%,原始勝率提高至76.9%。

這些成果與經(jīng)過驗(yàn)證的SOTA模型相比有了顯著提升,后者僅達(dá)到了57.5%的LC和51.3%的原始勝率。

結(jié)合隨機(jī)搜索的結(jié)構(gòu)化方法在LC勝率上比經(jīng)過驗(yàn)證的SOTA高出29.0個(gè)百分點(diǎn),在原始勝率上高出25.6個(gè)百分點(diǎn)。

與社區(qū)SOTA相比,在LC上表現(xiàn)更佳(86.5%對(duì)78.5%),在原始勝率上相當(dāng)(76.9%對(duì)77.6%)。

由于其簡短,作弊的LC勝率普遍高于原始勝率,這表明AlpacaEval 2.0對(duì)長度作弊也不夠健壯。

在Arena-Hard-Auto上,結(jié)構(gòu)化響應(yīng)作弊策略達(dá)到了67.2%的勝率,經(jīng)過隨機(jī)搜索后提升至83.0%。

總之,在各種基準(zhǔn)測(cè)試中都取得了顯著的增益,超越了現(xiàn)有技術(shù),證明了其在不同基準(zhǔn)測(cè)試中的高效性,并強(qiáng)化了對(duì)更健壯的自動(dòng)LLM基準(zhǔn)測(cè)試的需求。

4. 消融實(shí)驗(yàn)

4.1 結(jié)構(gòu)化回應(yīng)在開源自動(dòng)標(biāo)注智能體上有效嗎?

在AlpacaEval 2.0測(cè)試指令的子集上,使用不同的無效回應(yīng)評(píng)估log p(winner = NullModel)。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上圖,結(jié)構(gòu)化響應(yīng)作弊策略對(duì)Llama-3自動(dòng)標(biāo)注智能體的影響很小。在Llama-3-8B-Instruct的情況下,結(jié)構(gòu)化回應(yīng)并未利用該智能體的位置弱點(diǎn),因?yàn)槟J(rèn)位置和交換位置的對(duì)數(shù)概率與不同的有說服力回應(yīng)大致相似。

然而,在Llama-3-70B-Instruct上,在交換設(shè)置下觀察到,結(jié)構(gòu)化回應(yīng)成功降低了對(duì)數(shù)概率。此外,在位置偏見方面,Llama-3-8B-Instruct顯示出很小的位置偏見,因?yàn)槟J(rèn)位置和交換位置的概率相當(dāng)接近。相比之下,Llama-3-70B-Instruct在交換設(shè)置下顯示出明顯的位置偏見,更高的對(duì)數(shù)概率表明該智能體強(qiáng)烈偏好最后輸出(“M”)。

較大的Llama-3-70B-Instruct智能體的行為更接近更先進(jìn)的GPT-4,因?yàn)樗鼘?duì)結(jié)構(gòu)化回應(yīng)和位置偏見的反應(yīng)比小型8B智能體更為敏感。這表明模型規(guī)??赡茉黾恿藢?duì)我們作弊技術(shù)的敏感性。

總的來說,與GPT-4相比,結(jié)構(gòu)化響應(yīng)作弊策略在Llama-3智能體上的效果要小得多。這種差異的可能解釋是,Llama-3智能體,尤其是較小的8B版本,其遵循指令的能力不如GPT-4強(qiáng)大,使它們對(duì)作弊回應(yīng)的敏感性較低。

4.2 隨機(jī)搜索對(duì)開源自動(dòng)標(biāo)注智能體成效顯著嗎?

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上表,隨機(jī)搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等開源自動(dòng)標(biāo)注智能體上表現(xiàn)出色。

以Llama-3-8B-Instruct為例,缺少隨機(jī)搜索時(shí),結(jié)構(gòu)化回應(yīng)的LC勝率僅為2.9%,原始勝率為1.4%。而一旦采用隨機(jī)搜索,勝率便戲劇性地飆升至95.4%(LC)和86.3%(原始),LC勝率提升了92.5個(gè)百分點(diǎn)。

對(duì)于Llama-3-70B-Instruct,僅憑結(jié)構(gòu)化回應(yīng),LC勝率僅為0.4%,總體勝率為0.2%。但隨機(jī)搜索的加入使得這些勝率分別躍升至95.1%(LC)和91.6%(原始),分別提升了94.7和91.4個(gè)百分點(diǎn)。

這些數(shù)據(jù)證明**隨機(jī)搜索在提升開源自動(dòng)標(biāo)注智能體的作弊成功率方面極為有效,勝率直逼100%**。

4.3 直接針對(duì)測(cè)試指令進(jìn)行搜索有用嗎?

也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指標(biāo)。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

上表的Test列表示是否是直接作弊。結(jié)果表明:直接針對(duì)測(cè)試指令進(jìn)行搜索顯著增強(qiáng)了作弊的效果。

對(duì)于Llama-3-8B-Instruct模型,結(jié)合結(jié)構(gòu)化回應(yīng)和隨機(jī)搜索,但不接觸測(cè)試指令,LC勝率達(dá)到了95.4%,總體勝率為86.3%。

然而,當(dāng)對(duì)抗性前綴直接針對(duì)測(cè)試指令進(jìn)行優(yōu)化時(shí),LC勝率幾乎達(dá)到了完美的99.8%,總體勝率提升至99.4%,分別提升了4.6和13.1個(gè)百分點(diǎn)。

同樣地,對(duì)于Llama-3-70B-Instruct模型,不接觸測(cè)試指令的隨機(jī)搜索,LC勝率為95.1%,總體勝率為91.6%。

而一旦利用測(cè)試指令,這些比率分別攀升至99.4%(LC)和98.2%(原始),LC勝率提升了約4.3個(gè)百分點(diǎn),總體勝率提升了6.6個(gè)百分點(diǎn)。

這些結(jié)果表明直接針對(duì)測(cè)試指令進(jìn)行搜索帶來的顯著優(yōu)勢(shì),進(jìn)一步優(yōu)化了對(duì)抗性前綴,幾乎達(dá)到了完美的表現(xiàn)。

4.4 結(jié)構(gòu)化作弊策略能與傳統(tǒng)回應(yīng)相結(jié)合嗎?

結(jié)構(gòu)化作弊策略可以與傳統(tǒng)的、有信息量的回應(yīng)相結(jié)合,只需將我們的作弊回應(yīng)附加到原始回應(yīng)上即可。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上面4個(gè)圖所示,當(dāng)與像GPT-3.5-0613這樣更提供信息的模型結(jié)合時(shí),即使在采取重大優(yōu)化步驟之前,初始勝率已經(jīng)很高。

這一點(diǎn)在圖b和d中尤為明顯,隨著優(yōu)化的深入,性能(勝率和長度控制勝率)從高基線穩(wěn)步提升。

a和c中,由于不提供與輸入查詢相關(guān)的任何信息,欺騙自動(dòng)標(biāo)注智能體的難度大大增加。

隨著優(yōu)化步驟的推進(jìn),無效模型的性能穩(wěn)步提升,最終實(shí)現(xiàn)了有競爭力的勝率。

即使在模型輸出無關(guān)、無信息的回應(yīng)這一最具挑戰(zhàn)性的場景下,也能操縱基于LLM的基準(zhǔn)測(cè)試。

5 反作弊策略

5.1 模板改寫術(shù)

改寫輸入文本是對(duì)抗語言模型破解的有效防御手段?;诖死砟?,對(duì)抗結(jié)構(gòu)化響應(yīng)作弊策略之一是僅發(fā)布自動(dòng)標(biāo)注模板的改寫版本,同時(shí)保留真實(shí)模板的私密性。

本方法是假設(shè)改寫后的模板將更難被作弊者直接利用。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上表所示,即便模板經(jīng)過改寫,依然能夠達(dá)到高勝率(例如92.1%的LC勝率)。這表明,僅發(fā)布改寫模板作為防御機(jī)制是不夠的,因?yàn)榧词乖寄0灞C?,作弊策略仍然有?/strong>。需要更強(qiáng)有力的防御措施來徹底解決這一問題。

5.2 困惑度過濾器(PPL filter)

使用GPT-4-1106-Preview作為自動(dòng)標(biāo)注智能體,以評(píng)估基于困惑度(PPL)的過濾器的有效性。困惑度是利用GPT-2計(jì)算的,遵循Alon & Kamfonas(2023)描述的方法。

大模型榜單還能信嗎?一個(gè)假模型就能登頂排行榜-AI.x社區(qū)圖片

如上圖所示,盡管設(shè)定了高閾值,PPL過濾器未能持續(xù)識(shí)別出對(duì)抗性輸出。例如,結(jié)構(gòu)化響應(yīng)作弊策略即使勝率高達(dá)76.8%,其困惑度仍然低于閾值,使得過濾器失效。

僅依賴于困惑度,即使是窗口化配置,也不足以穩(wěn)健地檢測(cè)出旨在影響LLM判斷的對(duì)抗性操作。

6. 結(jié)論

即便是最基礎(chǔ)的模型,也能通過利用評(píng)估流程中的結(jié)構(gòu)性缺陷來獲得高勝率。

6.1 局限性

? 首先,主要關(guān)注特定的基準(zhǔn)測(cè)試,盡管結(jié)果在這些測(cè)試中得到了很好的推廣,但在其他基準(zhǔn)測(cè)試中的有效性仍然是未知的。

? 此外,結(jié)構(gòu)化響應(yīng)作弊策略很大程度上依賴于手工構(gòu)建結(jié)構(gòu)化響應(yīng)。未來的研究可以探索更自動(dòng)化的方法來生成對(duì)抗性輸出,這將使對(duì)手能夠在更廣泛的范圍內(nèi)利用這些漏洞。

未來研究的一個(gè)重要方向是開發(fā)更強(qiáng)大的反作弊機(jī)制。目前,針對(duì)LLM基準(zhǔn)測(cè)試的作弊緩解措施主要集中在控制輸出的長度和風(fēng)格上,但這些措施在面對(duì)結(jié)構(gòu)化響應(yīng)時(shí)已被證明是不夠的。新的防御策略對(duì)于保持LLM基準(zhǔn)測(cè)試的完整性至關(guān)重要。

? 論文原文: https://arxiv.org/pdf/2410.07137

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦