自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法

發(fā)布于 2024-4-19 12:03
瀏覽
0收藏

如今,大型語(yǔ)言模型(LLM)已經(jīng)成為了我們生活中的好幫手。


當(dāng)用戶使用大模型時(shí),模型首先會(huì)將輸入的內(nèi)容拆分成一個(gè)個(gè)的詞元(token),通過分析這些詞元來生成答案,為我們解答疑惑、提供建議、翻譯外語(yǔ)、撰寫報(bào)告······但是,你能想象大模型也會(huì)出錯(cuò)嗎?


想象一下,你正在使用最新款的智能手機(jī),它快速、聰明、幾乎可以做任何你想要的事情。


但偶爾,你發(fā)現(xiàn)手機(jī)的一兩個(gè)按鍵不按常理出牌——比如說,你按下「S」,它偏偏跳出「E」,或者干脆點(diǎn)了沒反應(yīng),那估計(jì)用的時(shí)候就只想砸手機(jī)了。


大模型中存在一些故障詞元(glitch token),一個(gè)個(gè)本應(yīng)協(xié)助模型流暢運(yùn)行的小小詞元,偏偏要搞點(diǎn)小破壞。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

針對(duì)這個(gè)情況,由華中科技大學(xué)、南洋理工大學(xué)等高校聯(lián)合組成的研究團(tuán)隊(duì)近日發(fā)表了一項(xiàng)研究,該工作已經(jīng)被軟件工程領(lǐng)域國(guó)際頂級(jí)會(huì)議——FSE 2024接收。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

論文鏈接:??https://arxiv.org/abs/2404.09894??

項(xiàng)目鏈接:??https://sites.google.com/view/glitchhunter-fse2024/glitchhunter??


該研究是第一個(gè)關(guān)于故障詞元的全面研究,并且研究中針對(duì)故障詞元的檢測(cè)方法為減少大模型中與分詞(tokenizer)相關(guān)的錯(cuò)誤提供了有意義的見解。


簡(jiǎn)單來說,這項(xiàng)研究就像是在告訴我們:在大模型的世界里,有些小故障不僅僅是小插曲,它們可以大大影響模型的輸出質(zhì)量。通過識(shí)別出這些故障,可以更好地理解和優(yōu)化這些聰明但偶爾會(huì)犯糊涂的大型語(yǔ)言模型。


論文簡(jiǎn)介

這篇工作中,作者首先提出了一個(gè)實(shí)證研究來了解故障詞元在大語(yǔ)言模型中的存在性與普遍性。作者調(diào)查了包括GPT-4,Llama-2在內(nèi)的七種熱門的大模型,其中包含了三種不同的分詞器,總共分析了十八萬個(gè)不同的詞元。


作者要求大模型完成針對(duì)詞元的三個(gè)基礎(chǔ)且簡(jiǎn)單的任務(wù):復(fù)現(xiàn),拼寫以及求長(zhǎng)度。根據(jù)不同的詞元的完成情況,作者從完成形式上不能完成任務(wù)的詞元分為了如下圖所示的5個(gè)種類。在此基礎(chǔ)上,只要這個(gè)詞元不能夠完成以上的三個(gè)任務(wù)之一,他就會(huì)被標(biāo)記為故障詞元。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

實(shí)證研究的第二個(gè)問題是對(duì)故障詞元的形式進(jìn)行分類。這些詞元有些是不同單詞的組合,一些是無意義字母的堆疊,還有一些是單純的無意義的符號(hào)。作者通過人工標(biāo)注的方法,將這些所有的故障詞元分為了表所示的5個(gè)種類。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

實(shí)證研究的第三個(gè)問題故障詞元在真實(shí)的數(shù)據(jù)集中的存在情況。作者研究了包括Alpaca,ShareGPT在內(nèi)的用于大模型微調(diào)的主流數(shù)據(jù)集,發(fā)現(xiàn)在每個(gè)數(shù)據(jù)集中平均有2%以上的故障詞元。這說明了故障詞元在數(shù)據(jù)集中很普遍,而且很可能會(huì)影響到使用這些數(shù)據(jù)集進(jìn)行微調(diào)的模型的效果。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

在實(shí)證研究中作者還發(fā)現(xiàn),故障詞元在嵌入空間中有聚集效應(yīng),這便啟發(fā)作者可以通過聚類的算法來完成針對(duì)故障詞元的識(shí)別工作。

專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)

作者基于上述的發(fā)現(xiàn)構(gòu)建了GlitchHunter,一種用于檢測(cè)大模型中故障詞元的自動(dòng)化工具,主要依賴迭代聚類技術(shù)來識(shí)別潛在的故障詞元群組,整個(gè)檢測(cè)流程分為幾個(gè)步驟:


- 構(gòu)建詞元嵌入圖(TEG, Token Embedding Graph):首先,GlitchHunter會(huì)構(gòu)建一個(gè)包括所有詞元及其相應(yīng)的嵌入向量的詞元嵌入圖,來展示所有詞元在嵌入空間中的位置和相互之間的關(guān)系。


- 候選聚類:接著,GlitchHunter在詞元嵌入圖上尋找緊密聚集的詞元,使用Leiden聚類算法形成潛在的故障詞元群組,這些詞元通常有相似的特征。


- 假設(shè)檢驗(yàn):在每個(gè)詞元群組內(nèi),GlitchHunter進(jìn)行假設(shè)檢驗(yàn),通過分析群組內(nèi)詞元的行為和輸出結(jié)果來找出群組內(nèi)行為顯著偏離預(yù)期規(guī)范的詞元,確定哪些群組實(shí)際上包含故障詞元。


- 更新與迭代:選定包含故障詞元的群組后,這些詞元會(huì)被整合到一個(gè)更新的詞元嵌入圖中。隨后,GlitchHunter會(huì)繼續(xù)進(jìn)行聚類和檢測(cè),直到詞元嵌入圖不再經(jīng)歷任何更新,即沒有新的故障詞元被發(fā)現(xiàn)。


專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)


通過這種方法,GlitchHunter能夠有效地在大數(shù)據(jù)集中快速定位并處理故障詞元,減少錯(cuò)誤輸出,提高語(yǔ)言模型的整體質(zhì)量和可靠性。


為了驗(yàn)證GlitchHunter的效果,本文采用了幾項(xiàng)關(guān)鍵指標(biāo)來比較GlitchHunter與幾種基線方法的性能,包括隨機(jī)抽樣、基于規(guī)則的隨機(jī)抽樣和K-means聚類。評(píng)估結(jié)果顯示,GlitchHunter在各個(gè)測(cè)試模型中普遍表現(xiàn)出色。


專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)


首先,GlitchHunter的真陽(yáng)性率(True Positive Rate)顯著高于其他方法,這表明它在實(shí)際檢測(cè)到故障詞元的準(zhǔn)確性方面表現(xiàn)優(yōu)異。同時(shí),其精確度(Precision)達(dá)到接近或等于100%,遠(yuǎn)高于其他比較方法,這反映了其在識(shí)別故障詞元時(shí)的高精確性。


在召回率(Recall)方面,GlitchHunter同樣展現(xiàn)了較高的性能,有效地識(shí)別了大部分存在的故障詞元,確保了較少的遺漏。


專治大模型說胡話,精確率100%!華科等提出首個(gè)「故障token」檢測(cè)/分類方法-AI.x社區(qū)


此外,GlitchHunter相較于完整遍歷詞元表的方法,顯著減少了所需的時(shí)間和處理的詞元數(shù)量,展示了其在達(dá)到高性能的同時(shí)保持了較低的資源開銷。這些評(píng)估結(jié)果充分驗(yàn)證了GlitchHunter在實(shí)際應(yīng)用中提高LLM輸出質(zhì)量和可靠性的潛力,證明了其作為故障詞元檢測(cè)工具的有效性和實(shí)用性。


未來工作

在這個(gè)工作中,作者完成了對(duì)故障詞元的系統(tǒng)性探究,但是對(duì)于故障詞元出現(xiàn)的原因以及如何進(jìn)行修復(fù)并未進(jìn)行過多的探討,而這也是進(jìn)行故障詞元研究的終極目標(biāo):解決掉所有這樣的故障詞元,完善大語(yǔ)言模型對(duì)于每一個(gè)詞元的理解。

 

本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Zj_Py4yrpwi_AKl-JeYS2A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦