清華等高校推出首個(gè)開源大模型水印工具包MarkLLM,支持近10種最新水印算法
本文由清華大學(xué)、上海交通大學(xué)、悉尼大學(xué)、UCSB、香港中文大學(xué)、香港科技大學(xué)、香港科技大學(xué)(廣州)聯(lián)合完成。主要作者包括:潘樂怡(第一作者),清華大學(xué)本科生,研究方向?yàn)榇竽P退〉龋粍a瑋,清華大學(xué)博士生,研究方向?yàn)榘踩尚糯竽P偷?;何志威,上海交通大學(xué)博士生,研究方向?yàn)榇竽P退?、大模型智能體等;高梓添,悉尼大學(xué)本科生,研究方向?yàn)榇竽P退?;趙宣棟,UCSB博士生,研究方向?yàn)榭尚派墒紸I等;胡旭明,香港科技大學(xué)/香港科技大學(xué)(廣州)助理教授,研究方向?yàn)榘踩尚糯竽P汀⑿畔⒊槿〉?;聞立杰?清華大學(xué)長聘副教授,研究方向?yàn)榱鞒掏诰?,自然語言處理 。
本?介紹由清華等?校聯(lián)合推出的?個(gè)開源的?模型?印?具包 MarkLLM。MarkLLM 提供了統(tǒng)?的?模型?印算法實(shí)現(xiàn)框架、直觀的?印算法機(jī)制可視化?案以及系統(tǒng)性的評估模塊,旨在?持研究?員?便地實(shí)驗(yàn)、理解和評估最新的?印技術(shù)進(jìn)展。通過 MarkLLM,作者期望在給研究者提供便利的同時(shí)加深公眾對?模型?印技術(shù)的認(rèn)知,推動(dòng)該領(lǐng)域的共識(shí)形成,進(jìn)?促進(jìn)相關(guān)研究的發(fā)展和推?應(yīng)?。
- 論?名稱:MarkLLM: An Open-Source Toolkit for LLM Watermarking
- 論?鏈接:https://arxiv.org/abs/2405.10051
- 代碼倉庫:https://github.com/THU- BPM/MarkLLM
?模型?印技術(shù)的發(fā)展現(xiàn)狀 & 仍然?臨的問題
?模型?印是近期新興的?項(xiàng)技術(shù),通過在模型?成?本過程中植?特定的特征,來實(shí)現(xiàn)機(jī)??本的辨別和來源追溯。它可?于虛假新聞檢測、維護(hù)學(xué) 術(shù)誠信、數(shù)據(jù)和模型版權(quán)保護(hù)等場景。
?前主流的?模型?印算法是在?模型推理階段植??印,這類?法主要分為兩?算法家族:
- KGW 家族:通過?預(yù)打分向量添加?印,將詞表分為紅綠列表,給綠?詞加偏置,使輸出偏好綠?詞匯;
- Christ 家族:在打分向量?成后,?偽隨機(jī)數(shù)?預(yù)采樣過程,使?印?本與該隨機(jī)數(shù)更相關(guān),以此植??印。
然?,就像所有新興技術(shù)?樣,?語?模型?印技術(shù)在使?和理解上也?臨?些挑戰(zhàn)。
1. 如何便捷地使?各個(gè)?模型?印算法進(jìn)??印添加和檢測?
各類?模型?印算法不斷涌現(xiàn)。然?它們的實(shí)現(xiàn)?都基于作者??的需求,缺乏統(tǒng)?的類和調(diào)?接?設(shè)計(jì),使得研究?員和?眾需要投??量精?去使?和復(fù)現(xiàn)這些算法。
2. 如何直觀地理解各個(gè)?模型?印算法的內(nèi)部機(jī)制?
?模型?印算法的底層機(jī)制相對復(fù)雜,涉及對?模型?成?本過程中打分向量?成以及采樣過程的?預(yù),不便于研究者和?眾理解。
3. 如何便捷、全?的評估各個(gè)?模型?印算法?
評估?度和指標(biāo)多樣(包含可檢測性、魯棒性、對?本質(zhì)量的影響等),且?次評估涉及多步驟,全?快速評估算法性能極具挑戰(zhàn)。
MarkLLM:?個(gè)開源?模型?印多功能?具包
針對剛才提到的 3 個(gè)問題,作者設(shè)計(jì)并實(shí)現(xiàn)了?向?語?模型?印技術(shù)的?具包 MarkLLM。
MarkLLM 的主要貢獻(xiàn)可總結(jié)如下:
1. 功能?度
- 統(tǒng)?的?模型?印算法實(shí)現(xiàn)框架:?持兩個(gè)關(guān)鍵?印算法家族(KGW 家族和 Christ 家族)的 9 種具體算法。
- ?致、??友好的頂層調(diào)?接?:1 ?代碼實(shí)現(xiàn)添加?印、檢測?印等各類操作。
- 定制化的?模型?印算法機(jī)制可視化解決?案:使??能夠在各種配置下可視化不同?模型?印算法的內(nèi)部機(jī)制。
- 全?、系統(tǒng)的?模型?印算法評估模塊:包含覆蓋 3 個(gè)評估?度的共 12 個(gè)評估?具,以及兩類?動(dòng)化評估流?線。
2. 設(shè)計(jì)?度:模塊化、松耦合架構(gòu)設(shè)計(jì),具有極?的可擴(kuò)展性和靈活性。
3. 實(shí)驗(yàn)?度:作者? MarkLLM 作為研究?具,對?持的 9 種算法做了 3 個(gè)評估?度的全?實(shí)驗(yàn),在證明 MarkLLM 的實(shí)?性的同時(shí),為后續(xù)研究提供了寶貴的數(shù)據(jù)參考。
4. 對開源社區(qū)的影響?:MarkLLM 在 GitHub 上線 以來已經(jīng)獲得了較多關(guān)注,?前已有 140+ stars, 并吸引了同?通過 Pull Request 進(jìn)?代碼貢獻(xiàn),以及在 issue 欄?進(jìn)?交流討論。
作者衷?希望 MarkLLM ?具包在為研究?員提供便利的同時(shí),提??眾對?語?模型?印技術(shù)的理解和參與度,促進(jìn)學(xué)術(shù)界和公眾之間就該技術(shù)達(dá)成共識(shí),推動(dòng)?語?模型?印研究和應(yīng)?的進(jìn)?步發(fā)展,為?語?模型使?安全貢獻(xiàn)?量。
作者真誠歡迎?家提出寶貴意?、相互交流學(xué)習(xí), 也?分歡迎通過 pull request 貢獻(xiàn)代碼,通過?家的共同努?維護(hù)更好的?模型?印技術(shù)?態(tài)!