自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架 原創(chuàng) 精華

發(fā)布于 2024-7-4 07:59
瀏覽
0收藏

摘要:盡管大規(guī)模語言模型(LLMs)變得越來越強(qiáng)大,但它們?nèi)匀槐憩F(xiàn)出顯著但微妙的弱點(diǎn),如在執(zhí)行指令或編寫代碼任務(wù)中的錯(cuò)誤。由于這些意外錯(cuò)誤在實(shí)際部署中可能導(dǎo)致嚴(yán)重后果,系統(tǒng)性地研究LLMs的局限性至關(guān)重要。傳統(tǒng)的基準(zhǔn)測(cè)試方法無法徹底 pinpoint 具體的模型缺陷,而手動(dòng)檢查則成本高且不可擴(kuò)展。在本文中,我們介紹了一個(gè)統(tǒng)一框架,AUTODETECT,以自動(dòng)揭示LLMs在各種任務(wù)中的弱點(diǎn)。受教育評(píng)估過程(衡量學(xué)生學(xué)習(xí)成果)的啟發(fā),AUTODETECT 由三個(gè)LLM驅(qū)動(dòng)的代理組成:Examiner、Questioner 和 Assessor。這三個(gè)代理之間的協(xié)作旨在實(shí)現(xiàn)全面且深入的弱點(diǎn)識(shí)別。我們的框架在揭示缺陷方面表現(xiàn)出顯著成功,識(shí)別成功率超過30%,適用于諸如ChatGPT和Claude等知名模型。更重要的是,這些識(shí)別出的弱點(diǎn)可以指導(dǎo)具體的模型改進(jìn),比起自我指令(Self-Instruct)等非針對(duì)性的數(shù)據(jù)增強(qiáng)方法更為有效。我們的方法已經(jīng)顯著提升了流行LLMs的性能,包括Llama系列和Mistral-7b,使它們?cè)诙鄠€(gè)基準(zhǔn)測(cè)試中的表現(xiàn)提升超過10%。代碼和數(shù)據(jù)公開可在 ??https://github.com/thu-coai/AutoDetect ??獲得。

1.引言

大規(guī)模語言模型(LLMs)的發(fā)展令人矚目:這些模型在多種任務(wù)中表現(xiàn)出色(Brown et al., 2020;Zeng et al., 2022;Chowdhery et al., 2023;Touvron et al., 2023a;GLM et al., 2024)。經(jīng)過精細(xì)的校準(zhǔn)(Ouyang et al., 2022;Cheng et al., 2023;Ji et al., 2024a),LLMs在實(shí)際應(yīng)用中可以達(dá)到人類水平的表現(xiàn)(OpenAI, 2022;Anthropic, 2023)。然而,這些模型仍然容易出現(xiàn)意外錯(cuò)誤(Ouyang et al., 2022;Bubeck et al., 2023)。例如,盡管LLMs擅長復(fù)雜的算法問題,它們可能在基礎(chǔ)的編程概念上表現(xiàn)不佳(§5.1)。這些意外錯(cuò)誤可能導(dǎo)致系統(tǒng)故障和重大安全問題(Ruan et al., 2023)。因此,系統(tǒng)性地識(shí)別和解決這些弱點(diǎn)對(duì)于提升LLMs的性能和可信度至關(guān)重要。

然而,揭示這些弱點(diǎn)的過程具有挑戰(zhàn)性。人工檢查依賴于人類專家,過于勞累且成本高昂,難以擴(kuò)展。自動(dòng)化方法通常采用靜態(tài)(Cobbe et al., 2021;Srivastava et al., 2022;Liu et al., 2023)和動(dòng)態(tài)(Bai et al., 2024;Wang et al., 2024)基準(zhǔn)測(cè)試。然而,基準(zhǔn)測(cè)試主要用于評(píng)估和排名一系列模型,而不是識(shí)別個(gè)體模型固有的弱點(diǎn)。更具體地說,基準(zhǔn)測(cè)試設(shè)計(jì)為模型無關(guān),不依賴于特定模型的響應(yīng),因此難以識(shí)別個(gè)體化弱點(diǎn)。此外,基準(zhǔn)測(cè)試更新不頻繁,存在數(shù)據(jù)泄露(Yang et al., 2023b;Wei et al., 2023)和排行榜泛濫(Guo et al., 2023)的問題,這進(jìn)一步限制了它們?cè)谌嬖u(píng)估模型特定弱點(diǎn)方面的實(shí)用性。

在本文中,我們介紹了一個(gè)開創(chuàng)性的統(tǒng)一框架,AUTODETECT,旨在系統(tǒng)且自動(dòng)地揭示LLMs在各種任務(wù)中的潛在弱點(diǎn)。在我們的框架中,如圖2所示,我們采用類似于教育評(píng)估系統(tǒng)的方法,包括創(chuàng)建全面的問題來評(píng)估學(xué)生,并審查他們的回答以識(shí)別個(gè)體化的弱點(diǎn)。AUTODETECT涉及開發(fā)一個(gè)整體測(cè)試系統(tǒng)來評(píng)估和挑戰(zhàn)學(xué)生的能力。此外,該系統(tǒng)不是靜態(tài)的,而是不斷優(yōu)化和適應(yīng)特定模型的表現(xiàn),從而提供定制且有效的弱點(diǎn)發(fā)現(xiàn)。具體來說,我們的框架整合了由LLM驅(qū)動(dòng)的三個(gè)專業(yè)角色:

- Examiner 負(fù)責(zé)建立一個(gè)包含多樣測(cè)試點(diǎn)的綜合分類體系,并根據(jù)目標(biāo)模型的表現(xiàn)動(dòng)態(tài)優(yōu)化框架,以提供精細(xì)且定制的弱點(diǎn)識(shí)別框架。

- Questioner 負(fù)責(zé)根據(jù)每個(gè)測(cè)試點(diǎn)創(chuàng)建具有挑戰(zhàn)性的問題。通過迭代探索,該代理不斷假設(shè)模型的弱點(diǎn),并在新缺陷出現(xiàn)時(shí)有效地適應(yīng)問題的生成。

- Assessor 需要分析目標(biāo)模型的響應(yīng),并推測(cè)潛在問題以納入測(cè)試系統(tǒng),這是定制評(píng)估的關(guān)鍵。

AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

圖 2:我們的框架包括兩個(gè)循環(huán),循環(huán)由Examiner、Questioner和Assessor組成,提供了全面且定制的測(cè)試框架。同時(shí),迭代搜索使得問題難度能夠針對(duì)目標(biāo)模型進(jìn)行調(diào)整,有效地識(shí)別弱點(diǎn)。

Examiner、Questioner 和 Assessor 之間的合作促進(jìn)了廣泛且有效的評(píng)估過程。通過從這些弱點(diǎn)中學(xué)習(xí),AUTODETECT 進(jìn)一步促進(jìn)了模型的改進(jìn)(圖1)。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

圖 1:有效的弱點(diǎn)發(fā)現(xiàn)可以很好地指導(dǎo)模型增強(qiáng)。AUTODETECT在指令遵循、數(shù)學(xué)和編程任務(wù)中的識(shí)別成功率很高(A)。此外,利用這些數(shù)據(jù),我們可以進(jìn)一步改進(jìn)LLMs(B)。

通過廣泛的實(shí)驗(yàn),我們證明了AUTODETECT能夠在多種任務(wù)中有效地暴露弱點(diǎn),包括指令遵循、數(shù)學(xué)推理和編程,在多個(gè)強(qiáng)大的LLMs中實(shí)現(xiàn)了超過50%的識(shí)別成功率,甚至在GPT-3.5-turbo 和 Claude-3-sonnet中也超過了30%。此外,我們的弱點(diǎn)識(shí)別過程可以有效地指導(dǎo)模型增強(qiáng)。值得注意的是,通過整合約1,000個(gè)來自AUTODETECT的樣本來微調(diào)流行的開源模型如Mistral和Llama系列,我們?cè)诙鄠€(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了超過10%的改進(jìn),展示了從定向弱點(diǎn)檢測(cè)中學(xué)習(xí)的好處。

我們的貢獻(xiàn)可以總結(jié)如下:

- 據(jù)我們所知,我們是首次在多個(gè)通用任務(wù)(包括指令遵循、數(shù)學(xué)推理和編程)上系統(tǒng)地探索LLMs的弱點(diǎn)識(shí)別,提供了一個(gè)自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架。

- AUTODETECT 展現(xiàn)了卓越的適應(yīng)性和有效性,在多個(gè)模型和任務(wù)中揭示缺陷的成功率超過50%。

- AUTODETECT 促進(jìn)了顯著的模型改進(jìn)。利用弱點(diǎn)檢測(cè)過程中的數(shù)據(jù),我們能夠有效地增強(qiáng)模型性能,在多個(gè)任務(wù)上取得超過10%的改進(jìn)。

2.相關(guān)工作

2.1 評(píng)估基準(zhǔn)

許多基準(zhǔn)(Hendrycks et al., 2020;Cobbe et al., 2021;Chen et al., 2021;Zhou et al., 2023;Liu et al., 2023)被設(shè)計(jì)用于評(píng)估LLMs的各種能力,以及一些動(dòng)態(tài)基準(zhǔn)(Zhu et al., 2023;Bai et al., 2024;Wang et al., 2024)。然而,基準(zhǔn)測(cè)試的基本目的是比較一系列模型并準(zhǔn)確排名,而不是識(shí)別特定模型的缺陷。因此,它們被設(shè)計(jì)為與模型無關(guān),無法提供對(duì)特定模型缺陷的全面發(fā)現(xiàn)。此外,靜態(tài)基準(zhǔn)測(cè)試通常面臨數(shù)據(jù)泄露(Yang et al., 2023b;Wei et al., 2023)和排行榜泛濫(Guo et al., 2023)的問題,而動(dòng)態(tài)基準(zhǔn)測(cè)試通常在覆蓋范圍上存在問題,構(gòu)建這些動(dòng)態(tài)基準(zhǔn)測(cè)試的方法通常缺乏普遍性。這些限制表明,僅依賴基準(zhǔn)測(cè)試很難徹底發(fā)現(xiàn)模型缺陷,從而無法為進(jìn)一步改進(jìn)提供實(shí)用的指導(dǎo)。

2.2 紅隊(duì)測(cè)試

由于上述自動(dòng)化方法的限制,有效揭示LLMs內(nèi)在弱點(diǎn)的一個(gè)重要方法是人工檢查,這類似于紅隊(duì)測(cè)試,這是安全領(lǐng)域(Deng et al., 2023;Ji et al., 2023;Sun et al., 2023;Ji et al., 2024b)中識(shí)別AI系統(tǒng)安全問題的重要策略。早期研究主要依賴人工努力創(chuàng)建紅隊(duì)測(cè)試查詢(Dinan et al., 2019;Xu et al., 2020)。然而,人工紅隊(duì)測(cè)試因其高成本和固有的多樣性不足而受到限制,難以擴(kuò)展。最近,已經(jīng)提出并廣泛采用使用語言模型進(jìn)行自動(dòng)化紅隊(duì)攻擊(Perez et al., 2022;Ganguli et al., 2022;Zhang et al., 2022;Chao et al., 2023)。然而,將自動(dòng)弱點(diǎn)檢測(cè)應(yīng)用于通用任務(wù)仍然研究不足。在這項(xiàng)工作中,我們介紹了一個(gè)統(tǒng)一的框架,用于識(shí)別超越安全問題的模型缺陷。我們已成功在包括指令遵循、數(shù)學(xué)推理和編程在內(nèi)的各種任務(wù)中實(shí)現(xiàn)了該框架,展示了其令人印象深刻的有效性和廣泛適用性。

3.方法

3.1 問題定義

我們的主要目標(biāo)是開發(fā)一個(gè)統(tǒng)一的框架,旨在自動(dòng)且系統(tǒng)地識(shí)別LLMs在通用任務(wù)中的潛在弱點(diǎn)。對(duì)于給定的任務(wù)及其描述(記作(T, D)),弱點(diǎn)識(shí)別過程可以表示為:

W =AUTODETECT(T, D)

其中,W 代表目標(biāo)模型未能準(zhǔn)確解決的問題集。我們將這些失敗視為模型的弱點(diǎn),由強(qiáng)大的LLM評(píng)審員進(jìn)行評(píng)估。

3.2 AUTODETECT 框架

我們方法的整體框架如圖2所示。AUTODETECT旨在通過專門的循環(huán)搜索策略全面評(píng)估語言模型的能力,包含Examiner、Questioner和Assessor三個(gè)不同角色。每個(gè)角色都至關(guān)重要,利用LLM驅(qū)動(dòng)的代理的優(yōu)勢(shì),以協(xié)作的方式探索并暴露目標(biāo)模型的弱點(diǎn)。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

圖 2:我們的框架包括兩個(gè)循環(huán),循環(huán)由Examiner、Questioner和Assessor組成,提供了全面且定制的測(cè)試框架。同時(shí),迭代搜索使得問題難度能夠針對(duì)目標(biāo)模型進(jìn)行調(diào)整,有效地識(shí)別弱點(diǎn)。

(注釋:

在AUTODETECT框架中,首先由Examiner接收任務(wù)及其描述,然后創(chuàng)建分類體系。Questioner根據(jù)分類體系生成初始問題集,并通過迭代搜索過程創(chuàng)建新問題。這些問題會(huì)被提交給目標(biāo)模型進(jìn)行回答,模型的回答會(huì)被評(píng)分器評(píng)估并打分。Assessor則會(huì)分析低分回答以找到新的潛在弱點(diǎn),從而優(yōu)化分類體系。

AUTODETECT框架的兩個(gè)主要循環(huán):總體循環(huán)和迭代搜索循環(huán)。

總體循環(huán)

1. Task & Description(任務(wù)和描述):

- 框架的起點(diǎn)是接收具體的任務(wù)及其詳細(xì)描述。這些任務(wù)可以是指令遵循、數(shù)學(xué)推理或編程等。

2. Examiner(考官):

- Examiner的任務(wù)是基于接收到的任務(wù)和描述,創(chuàng)建一個(gè)詳細(xì)的分類體系(Taxonomy)。該分類體系將任務(wù)分解成可管理的類別,每個(gè)類別包含多個(gè)知識(shí)點(diǎn),這些知識(shí)點(diǎn)指導(dǎo)后續(xù)的評(píng)估過程。

3. Taxonomy(分類體系):

- 分類體系是一種結(jié)構(gòu)化的分解方式,將復(fù)雜的任務(wù)組織成多個(gè)具體的、可評(píng)估的知識(shí)點(diǎn)。這是全面評(píng)估的基礎(chǔ)。

4. Questioner(提問者):

- Questioner根據(jù)分類體系生成初始問題集(Seed Questions),這些問題覆蓋了所有的知識(shí)點(diǎn)。隨后,Questioner會(huì)開始一個(gè)迭代搜索過程,提出新問題以探索模型的弱點(diǎn)。

5. Seed Questions(初始問題):

- 初始問題集是根據(jù)分類體系生成的,目的是全面覆蓋所有知識(shí)點(diǎn),作為進(jìn)一步探索的基礎(chǔ)。

6. Assessor(評(píng)估者):

- Assessor負(fù)責(zé)分析目標(biāo)模型對(duì)問題的回答,特別是低分回答(Bad Case),以發(fā)現(xiàn)新的潛在弱點(diǎn)。這些新弱點(diǎn)會(huì)反饋給Examiner,從而優(yōu)化分類體系,使其更具針對(duì)性和有效性。

————————

在迭代搜索過程中,新問題會(huì)根據(jù)歷史低分問題和新的潛在低分問題生成。評(píng)分器會(huì)評(píng)估目標(biāo)模型的回答,并記錄在歷史記錄中,其中高分表示模型表現(xiàn)良好,低分表示模型表現(xiàn)不佳。通過不斷地將這些問題和回答加入到問題池中,并從中抽取樣本進(jìn)行進(jìn)一步的測(cè)試,框架能夠有效地識(shí)別并針對(duì)目標(biāo)模型的弱點(diǎn)進(jìn)行優(yōu)化和改進(jìn)。

迭代搜索部分是AUTODETECT框架中的核心組件之一,負(fù)責(zé)動(dòng)態(tài)生成和評(píng)估問題,以系統(tǒng)地發(fā)現(xiàn)和暴露目標(biāo)模型的弱點(diǎn)。

1. New Question(新問題):

- Type 1: Similar to Low-Score Question(類似于低分問題的變種):

- 這種問題類型是基于先前低分回答的問題變種。通過變換和調(diào)整問題的細(xì)節(jié),生成新的類似問題。例如,先前低分問題可能是“用100字描述氣候變化”,新問題可能變?yōu)椤坝?50字準(zhǔn)確描述氣候變化”。

- Type 2: New Potential Low-Score Question(新的潛在低分問題):

- 這種問題類型是完全新生成的問題,可能涉及新的領(lǐng)域或知識(shí)點(diǎn)。例如,新問題可能是“寫一首四句的詩”。這類問題旨在探索模型未曾評(píng)估的潛在弱點(diǎn)。

2. Target Model(目標(biāo)模型):

- 生成的新問題被提交給目標(biāo)模型,模型需要對(duì)此進(jìn)行回答。

3. Model Response(模型回答):

- 目標(biāo)模型生成的回答被記錄下來,并送交評(píng)分器進(jìn)行評(píng)估。

4. Scorer(評(píng)分器):

- 評(píng)分器對(duì)目標(biāo)模型的回答進(jìn)行評(píng)估并打分。評(píng)分器使用參考答案(通常由GPT-4生成)作為基準(zhǔn),確保評(píng)估的可靠性。

5. Score(評(píng)分):

- 評(píng)分器為每個(gè)回答給出一個(gè)分?jǐn)?shù)。得分的高低表示模型在該問題上的表現(xiàn),低分表示模型在這個(gè)問題上有弱點(diǎn)。

6. History(歷史記錄):

- 所有問題及其對(duì)應(yīng)的回答和評(píng)分都會(huì)被記錄在歷史記錄中。歷史記錄包含以下信息:

- 問題:提出的問題,例如“請(qǐng)?jiān)?0個(gè)字以內(nèi)介紹你的訓(xùn)練背景”。

- 回答:模型的回答,例如“...得分: 8.0”(高分表示表現(xiàn)良好)。

- 評(píng)分:評(píng)分器給出的分?jǐn)?shù),例如“...得分: 2.0”(低分表示表現(xiàn)不佳)。

- 高分表示模型在該問題上表現(xiàn)良好,而低分表示模型在該問題上有弱點(diǎn)。

7. Pool(問題池):

- 所有問題及其回答被加入到問題池中,問題池不斷擴(kuò)展。問題池的作用是為未來的測(cè)試提供一個(gè)豐富的問題庫,以便進(jìn)行廣泛和深入的評(píng)估。

8. Iterative Process(迭代過程):

- 通過從問題池中抽取樣本,生成新的問題,繼續(xù)進(jìn)行測(cè)試和評(píng)估。這是一個(gè)循環(huán)過程,不斷生成新問題,評(píng)估模型回答,記錄結(jié)果,并發(fā)現(xiàn)新弱點(diǎn)。這個(gè)過程使得測(cè)試框架能夠不斷更新和優(yōu)化,適應(yīng)模型的變化。

迭代搜索的核心優(yōu)勢(shì)

- 動(dòng)態(tài)適應(yīng):通過生成新的類似低分問題和完全新問題,迭代搜索能夠動(dòng)態(tài)適應(yīng)模型的弱點(diǎn)和變化,確保測(cè)試的深度和廣度。

- 持續(xù)改進(jìn):迭代搜索過程是一個(gè)持續(xù)改進(jìn)的循環(huán),通過不斷評(píng)估和優(yōu)化,逐步提高模型的性能。

- 廣泛覆蓋:?jiǎn)栴}池中的豐富問題庫確保了測(cè)試的廣泛覆蓋,能夠全面評(píng)估模型在不同知識(shí)點(diǎn)和任務(wù)上的表現(xiàn)。

通過上述詳細(xì)步驟,迭代搜索部分確保了AUTODETECT框架能夠系統(tǒng)地、自動(dòng)地發(fā)現(xiàn)和改進(jìn)目標(biāo)模型的弱點(diǎn),從而提升模型的整體性能和可靠性。

整個(gè)過程通過Examiner、Questioner和Assessor的合作,實(shí)現(xiàn)了一個(gè)持續(xù)改進(jìn)的循環(huán),使得測(cè)試框架不僅全面且能適應(yīng)不同LLMs的不斷變化的能力。)

如算法1所示,過程從Examiner開始,其任務(wù)是根據(jù)給定任務(wù)及其描述(T, D)開發(fā)詳細(xì)的分類體系C。該分類體系是關(guān)鍵,因?yàn)樗鼘⑷蝿?wù)組織成可管理的、專注的類別(c1, ..., cn),每個(gè)類別包含若干知識(shí)點(diǎn)(k1, ..., km),指導(dǎo)后續(xù)評(píng)估。結(jié)構(gòu)化的分解對(duì)于全面評(píng)估至關(guān)重要,表示為:

C = Examiner(T, D)

在分類體系創(chuàng)建之后,Questioner 接手,生成一組初始問題S并啟動(dòng)迭代搜索過程,以在每個(gè)知識(shí)點(diǎn)上提出探測(cè)弱點(diǎn)的問題。迭代過程允許自適應(yīng)的提問策略,逐漸增加復(fù)雜性,確保測(cè)試深度適應(yīng)每個(gè)模型的能力。這可以形式化為:

Q = Questioner(H)

這里,H表示搜索歷史,起始于S,促進(jìn)模型弱點(diǎn)的動(dòng)態(tài)探索。評(píng)估過程中,Assessor 的角色對(duì)于精煉評(píng)估過程至關(guān)重要,使其全面且模型特定。隨著評(píng)估的進(jìn)行,Assessor 批判性地分析目標(biāo)模型表現(xiàn)不佳的實(shí)例(由低分表示),識(shí)別新的潛在弱點(diǎn)knew,表示為:

knew = Assessor(Hlow)

這些見解導(dǎo)致Examiner 動(dòng)態(tài)精煉分類體系,確保我們的框架保持相關(guān)性和有效性,能夠發(fā)現(xiàn)新的缺陷。Examiner、Questioner和Assessor之間的循環(huán)互動(dòng)實(shí)現(xiàn)了持續(xù)改進(jìn)的循環(huán),使我們的測(cè)試框架不僅全面且敏感于不同LLMs的演變能力。任務(wù)和提示的詳細(xì)描述在附錄B和附錄C中提供。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

(如果還沒看懂,通過一個(gè)例子來解釋:

AUTODETECT框架的原理可以簡(jiǎn)單地理解為一個(gè)智能的自動(dòng)檢測(cè)系統(tǒng),它能夠發(fā)現(xiàn)和修復(fù)大規(guī)模語言模型(LLMs)中的弱點(diǎn)。這里用一個(gè)簡(jiǎn)單的類比來解釋它的工作過程:

1. 任務(wù)描述

就像你給一個(gè)學(xué)生布置一份家庭作業(yè),任務(wù)可以是寫一篇文章、解一道數(shù)學(xué)題或者寫一個(gè)程序。

2. 三個(gè)智能角色

AUTODETECT框架中有三個(gè)主要角色,它們像三個(gè)協(xié)作的老師一樣,分別負(fù)責(zé)不同的任務(wù):

- Examiner(考官):就像一位老師,他會(huì)把任務(wù)分成幾個(gè)小部分,每個(gè)部分包含一些關(guān)鍵知識(shí)點(diǎn)。這樣可以更容易地找到學(xué)生(模型)可能會(huì)犯錯(cuò)的地方。

- Questioner(提問者):這位老師負(fù)責(zé)給學(xué)生出題,他會(huì)根據(jù)這些知識(shí)點(diǎn)設(shè)計(jì)一系列問題,先出一些基礎(chǔ)題,然后根據(jù)學(xué)生的表現(xiàn)逐漸加大難度。

- Assessor(評(píng)估者):這位老師負(fù)責(zé)批改作業(yè),他會(huì)仔細(xì)檢查學(xué)生的回答,找出錯(cuò)誤并記錄下來,尤其是那些得分較低的問題。

3. 循環(huán)改進(jìn)

整個(gè)過程是一個(gè)不斷循環(huán)的系統(tǒng):

1. 出題和回答:Questioner先出一套問題(初始問題集),學(xué)生(模型)回答這些問題。

2. 評(píng)估和記錄:Assessor評(píng)估這些回答,找出哪些問題回答得不好,并記錄下來。

3. 調(diào)整和優(yōu)化:Examiner根據(jù)這些記錄,調(diào)整問題的類型和難度,Questioner再根據(jù)新的調(diào)整出題,繼續(xù)測(cè)試學(xué)生的能力。

4. 迭代搜索

這個(gè)循環(huán)會(huì)反復(fù)進(jìn)行,每次都根據(jù)之前的結(jié)果調(diào)整問題:

- 發(fā)現(xiàn)新問題:如果學(xué)生在某些問題上得分低,Questioner會(huì)設(shè)計(jì)類似的新問題或提出新的挑戰(zhàn)。

- 記錄和分析:Assessor繼續(xù)評(píng)估這些新問題的回答,進(jìn)一步找出學(xué)生的弱點(diǎn)。

- 持續(xù)改進(jìn):這個(gè)過程反復(fù)進(jìn)行,直到找到并解決學(xué)生的所有弱點(diǎn)。

5. 模型增強(qiáng)

通過這個(gè)循環(huán)過程,AUTODETECT不僅能發(fā)現(xiàn)模型的弱點(diǎn),還能用這些問題和答案對(duì)模型進(jìn)行微調(diào),從而提高模型的整體表現(xiàn)。

總結(jié)

AUTODETECT就像是一個(gè)智能的、不斷改進(jìn)的老師團(tuán)隊(duì),通過反復(fù)出題、評(píng)估和調(diào)整,系統(tǒng)地發(fā)現(xiàn)并修復(fù)大規(guī)模語言模型中的弱點(diǎn),讓模型變得越來越聰明、越來越可靠。)

3.3 迭代搜索

隨著三個(gè)角色之間的合作保證了我們框架的覆蓋范圍和模型特異性,另一個(gè)關(guān)鍵問題是如何有效識(shí)別目標(biāo)模型表現(xiàn)不佳的問題。因此,我們利用LLMs(Yang et al., 2023a;Ke et al., 2023;Zheng et al., 2024)的強(qiáng)大探索和評(píng)估能力,開發(fā)了一個(gè)迭代搜索過程。具體而言,我們首先為每個(gè)知識(shí)點(diǎn)生成五個(gè)問題,以創(chuàng)建一個(gè)初始集合。使用基于參考的評(píng)分方法(Zheng et al., 2024)評(píng)估目標(biāo)模型在該集合上的表現(xiàn),以確??煽啃?,其中參考答案由GPT-4提供。隨后,我們根據(jù)得分對(duì)歷史樣本進(jìn)行排名,得分較低的表示表現(xiàn)較差,以生成可能暴露模型缺陷的新問題。然后我們讓目標(biāo)模型生成對(duì)所提出問題的回答并評(píng)分,將結(jié)果添加到我們的歷史集合中。通過這個(gè)迭代搜索過程,我們可以有效識(shí)別低得分問題,定位特定知識(shí)點(diǎn)上目標(biāo)模型的具體弱點(diǎn)。

3.4 模型增強(qiáng)

發(fā)現(xiàn)弱點(diǎn)的最終目標(biāo)是幫助模型改進(jìn)。為了驗(yàn)證所識(shí)別的弱點(diǎn)是重要的并且能夠貢獻(xiàn)于模型增強(qiáng),我們進(jìn)一步使用從弱點(diǎn)檢測(cè)過程中獲得的問題和參考答案對(duì)目標(biāo)模型進(jìn)行微調(diào)。形式上,損失函數(shù)表示為:


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

這里,Q表示從搜索中得出的問題,R表示由GPT-4生成的參考答案,N表示R的長度。

4.實(shí)驗(yàn)

為了全面展示AUTODETECT的卓越性能,我們?cè)诙喾N任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn):指令遵循、數(shù)學(xué)和編程,包括弱點(diǎn)檢測(cè)(§4.1)、模型增強(qiáng)(§4.2)、與基線方法的比較(§4.3)和迭代弱點(diǎn)恢復(fù)(§4.4)。實(shí)現(xiàn)細(xì)節(jié)見附錄D。

4.1 弱點(diǎn)檢測(cè)

我們研究了三種不同的任務(wù)——指令遵循、數(shù)學(xué)和編程——以展示AUTODETECT的泛化能力。指令遵循任務(wù)集中在為模型提供特定的約束,如格式和內(nèi)容。數(shù)學(xué)任務(wù)側(cè)重于高中水平的問題,而編程任務(wù)側(cè)重于Python,以確保由GPT-4生成問題的正確性。

評(píng)估指標(biāo)

在迭代搜索過程中,我們采用MT-bench(Zheng et al., 2024)中的評(píng)分提示,其與人類注釋者的協(xié)議率達(dá)到85%。在我們的方法中,如果目標(biāo)模型的回答得分在十分制中不超過三分,則表示回答錯(cuò)誤。此外,我們還要求LLM在回答錯(cuò)誤時(shí)不評(píng)分超過三分。當(dāng)判斷模型回答的正確性時(shí),我們發(fā)現(xiàn)與人類注釋者的協(xié)議率超過88%(表2)。利用這一點(diǎn),我們定義識(shí)別成功率(ISR)為:


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

其中,Num<4表示得分低于四分的回答數(shù)量,Numtotal表示進(jìn)行的評(píng)估總數(shù)。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

人工評(píng)估

為了進(jìn)一步驗(yàn)證AUTODETECT的有效性,我們進(jìn)行了人工評(píng)估。我們從所有LLMs中抽取了150個(gè)樣本,每個(gè)任務(wù)50個(gè)。我們雇用了三名注釋者來評(píng)估以下方面:

- 合理性:判斷生成問題的邏輯連貫性。

- 一致性:確定是否同意使用GPT-4評(píng)分獲得的標(biāo)簽,其中不超過三分表示錯(cuò)誤。

- 正確性:評(píng)估參考答案的正確性。

結(jié)果(表2)顯示,幾乎所有由AUTODETECT生成的問題都被認(rèn)為是合理的,超過87%的參考答案是正確的。此外,與基于GPT-4評(píng)分獲得的標(biāo)簽的一致性很高(88.7%)。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

結(jié)果

如表1所示,我們?cè)诙鄠€(gè)模型上進(jìn)行了缺陷探索,并在各種任務(wù)中取得了令人印象深刻的ISR,展示了AUTODETECT的有效性。有趣的是,平均得分和ISR與我們對(duì)模型能力的理解很好地一致,顯示了我們的方法作為動(dòng)態(tài)基準(zhǔn)的潛力。如圖3所示,我們展示了迭代搜索過程中的平均得分。得分明顯下降的趨勢(shì)突顯了迭代方法在發(fā)現(xiàn)模型弱點(diǎn)中的重要作用。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

4.2 模型增強(qiáng)

為了驗(yàn)證所識(shí)別的缺陷具有意義并促進(jìn)模型增強(qiáng),我們使用在AUTODETECT過程中獲得的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),并在流行的基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。重要的是,我們不使用任何測(cè)試集中的數(shù)據(jù)。

基礎(chǔ)模型 Llama系列模型(Touvron et al., 2023b;MetaAI, 2024),包括Llama2-chat(參數(shù)為7b、13b和70b)和Llama3-Instruct,是最流行的模型之一。Mistral-7b-Instruct(Jiang et al., 2023)作為其規(guī)模內(nèi)性能最佳的模型之一而脫穎而出。

評(píng)估基準(zhǔn) 在我們的工作中,我們使用IFEval數(shù)據(jù)集(Zhou et al., 2023)評(píng)估指令遵循能力,該數(shù)據(jù)集包含541個(gè)可驗(yàn)證的指令。對(duì)于數(shù)學(xué),我們選擇了最流行的基準(zhǔn)測(cè)試GSM8k(Cobbe et al., 2021)和MATH(Hendrycks et al., 2021)。在編程任務(wù)中,我們使用廣泛使用的HumanEval(Chen et al., 2021)進(jìn)行評(píng)估,其中包括164個(gè)由人類專家精心設(shè)計(jì)的測(cè)試用例。

結(jié)果 如表3所示,AUTODETECT過程中的數(shù)據(jù)使我們能夠顯著提升模型性能。我們?cè)诙鄠€(gè)模型和任務(wù)中取得了顯著的改進(jìn)。此外,對(duì)于不同規(guī)模的Llama2模型,在各測(cè)試集上平均超過6%的性能提升,確認(rèn)了我們的方法在模型擴(kuò)展時(shí)仍然有效。此外,我們還研究了使用其他模型的評(píng)估數(shù)據(jù)來提高llama2-chat-7b模型性能的影響。如圖4所示,使用目標(biāo)評(píng)估數(shù)據(jù)的效果明顯優(yōu)于使用gpt-3.5-turbo。這表明,目標(biāo)評(píng)估可以暴露模型的特定弱點(diǎn),解決這些弱點(diǎn)可以顯著提高模型性能。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)


4.3 與基線方法的比較

基線方法 Self-Instruct(Wang et al., 2023)是一種廣泛使用的數(shù)據(jù)增強(qiáng)方法;OPRO(Yang et al., 2023a)應(yīng)用了LLMs的迭代搜索優(yōu)化;PAIR(Chao et al., 2023)是安全領(lǐng)域一種流行的自動(dòng)化越獄攻擊方法,我們將其轉(zhuǎn)用于我們的任務(wù)。

結(jié)果 如表4和附錄E所示,與基線方法相比,AUTODETECT在識(shí)別成功率和多樣性方面表現(xiàn)出色。Self-Instruct表現(xiàn)出較低的ISR和有限的多樣性。同時(shí),OPRO和PAIR專注于重復(fù)利用特定弱點(diǎn),導(dǎo)致問題分布不平衡。雖然它們可以實(shí)現(xiàn)較高的ISR,但無法在不同類別中提供有意義的評(píng)估,限制了全面弱點(diǎn)檢測(cè)的實(shí)用性。此外,PAIR的成本是其他方法的三倍。此外,考慮到改進(jìn)效果,AUTODETECT顯著優(yōu)于其他方法,這表明AUTODETECT可以全面發(fā)現(xiàn)各種弱點(diǎn),并為模型增強(qiáng)提供更多指導(dǎo)。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

4.4 迭代弱點(diǎn)恢復(fù)

由于我們的框架可以識(shí)別并幫助解決LLMs的弱點(diǎn),自然而然地提出了一個(gè)問題:我們是否可以通過AUTODETECT迭代地提高模型性能?因此,我們?cè)谥噶钭裱蝿?wù)中對(duì)llama2-13b-chat進(jìn)行了實(shí)驗(yàn)。如表5所示,我們觀察到AUTODETECT在三輪評(píng)估中能夠持續(xù)改進(jìn)模型。此外,每次迭代都帶來了顯著的改進(jìn),展示了我們方法的顯著可擴(kuò)展性。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

5.討論

通過AUTODETECT,我們系統(tǒng)地識(shí)別了各種模型的潛在弱點(diǎn)。我們的全面分析揭示了一些顯著的發(fā)現(xiàn),包括LLMs的局限性(§5.1,見圖5)和AUTODETECT的優(yōu)勢(shì)(§5.2,見圖6),這些發(fā)現(xiàn)可能有助于進(jìn)一步研究。


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

(注釋:大型語言模型(LLMs)在不同子類別任務(wù)中的表現(xiàn),分為三個(gè)部分:(A) LLMs在不同子類別中的表現(xiàn)各異,(B) LLMs在困難任務(wù)中表現(xiàn)優(yōu)異,但在簡(jiǎn)單任務(wù)中可能表現(xiàn)不佳,(C) LLMs在處理復(fù)雜指令和多步推理時(shí)存在困難。

(A) LLMs在不同子類別中的表現(xiàn)各異

1. 三角函數(shù)

- 任務(wù)描述:求解$x$的方程$\tan(x) = \pi/4$的逆函數(shù)。

- GPT-3.5的回答:知道正切函數(shù)的周期為$\pi$,逆函數(shù)的解為$x = 1$和$x = -1$。

2. 三角函數(shù)

- 任務(wù)描述:在ABC三角形中,邊$a = 7$,邊$b = 24$,邊$c = 25$。用三角函數(shù)求角$C$,并展示所有步驟。

- Mistral-Large的回答:角$C$約為82.82度。

3. 平面幾何

- 任務(wù)描述:一個(gè)長20 cm、寬10 cm的矩形旁邊有一個(gè)直徑等于矩形寬度的半圓,求結(jié)果形狀的總周長。

- Claude-3-Sonnet的回答:總周長為60 cm + 25.71 cm = 85.71 cm。

(B) LLMs在困難任務(wù)中表現(xiàn)優(yōu)異,但在簡(jiǎn)單任務(wù)中可能表現(xiàn)不佳

1. 模塊

- 任務(wù)描述:編寫一個(gè)函數(shù),從`os`模塊導(dǎo)入所有函數(shù),并返回當(dāng)前工作目錄。

- Mistral-7b的回答:提供了一個(gè)Python函數(shù),導(dǎo)入了`os`模塊。

2. 數(shù)據(jù)容器

- 任務(wù)描述:提供一個(gè)Python函數(shù)`swap_nested_keys`,接收一個(gè)兩層深度嵌套的字典,并交換第一層和第二層的鍵。

- Llama2-70b的回答:提供了函數(shù)代碼,其中包括對(duì)鍵進(jìn)行交換的實(shí)現(xiàn)。

3. 數(shù)據(jù)容器

- 任務(wù)描述:編寫一個(gè)名為`set_to_list`的Python函數(shù),接受一個(gè)集合作為輸入,將其轉(zhuǎn)換為列表,保持元素的原始順序。

- Claude-3-Sonnet的回答:提供了代碼示例,并輸出結(jié)果為列表。

(C) LLMs在處理復(fù)雜指令和多步推理時(shí)存在困難

1. 字?jǐn)?shù)限制

- 任務(wù)描述:解釋生態(tài)系統(tǒng)中生物多樣性的重要性,不使用以下詞匯:`species`,`habitat`,`genes`,`ecology`,`variety`。

- Llama2-13b的回答:使用了被限制的詞匯`species`。

2. 標(biāo)點(diǎn)符號(hào)限制

- 任務(wù)描述:列出五個(gè)關(guān)于如何煮意大利面的指令,分別以不同的標(biāo)點(diǎn)符號(hào)結(jié)尾(句號(hào)、問號(hào)、感嘆號(hào)、冒號(hào)、分號(hào))。

- Mistral-7b的回答:雖然列出了五個(gè)步驟,但并未完全滿足標(biāo)點(diǎn)符號(hào)要求。

3. 數(shù)列

- 任務(wù)描述:以下數(shù)列每項(xiàng)是基于特殊規(guī)則創(chuàng)建的:1, 1, 2, 3, 5, 8, 13。求該數(shù)列的第10項(xiàng)。

- GPT-3.5的回答:第10項(xiàng)是21。

通過具體任務(wù)示例展示了LLMs在不同類型任務(wù)中的具體表現(xiàn),包括其優(yōu)點(diǎn)和存在的不足,突顯了模型在處理簡(jiǎn)單任務(wù)、復(fù)雜指令和多步推理時(shí)的潛在弱點(diǎn)。)


AUTODETECT:面向大規(guī)模語言模型中自動(dòng)弱點(diǎn)檢測(cè)的統(tǒng)一框架-AI.x社區(qū)

(注釋:展示了AUTODETECT框架在生成創(chuàng)造性挑戰(zhàn)和復(fù)合指令方面的能力,分為兩部分:(A) AUTODETECT可以生成創(chuàng)造性挑戰(zhàn),(B) AUTODETECT能夠生成復(fù)合指令。

(A) AUTODETECT可以生成創(chuàng)造性挑戰(zhàn)

1. JSON格式

- 任務(wù)描述:以JSON格式展示《龜兔賽跑》的故事。遵循以下模式:角色、描述、事件順序。

2. 字符格式

- 任務(wù)描述:用隨機(jī)大小寫格式寫出“美國第一任總統(tǒng)是誰?”的答案。

3. 詞匯限制

- 任務(wù)描述:……針對(duì)這些現(xiàn)象對(duì)經(jīng)典理論的影響提出技術(shù)性詢問,不能使用“what”、“why”、“how”、“where”、“when”或“which”這些詞匯。

(B) AUTODETECT能夠生成復(fù)合指令

1. 格式和長度限制

- 任務(wù)描述:創(chuàng)建一個(gè)恰好包含21個(gè)字符的回文。

2. 格式和詞匯限制

- 任務(wù)描述:使用以下晦澀詞語創(chuàng)作一首十四行詩:‘susurrus’,‘ululate’,‘zephyr’,‘equipoise’,‘plethora’。確保每個(gè)詞至少使用一次。

3. 長度、語言和句子限制

- 任務(wù)描述:用三個(gè)肯定句簡(jiǎn)要解釋太空中的“黑洞”。每句話都應(yīng)以“In fact...”開頭。)

5.1 LLMs的局限性

LLMs在任務(wù)子類別中的表現(xiàn)各異。在數(shù)學(xué)任務(wù)中,像gpt-3.5-turbo、mistral-large和claude-3-sonnet等模型在GSM8k等基準(zhǔn)測(cè)試中表現(xiàn)出色,準(zhǔn)確率超過90%。然而,盡管在數(shù)學(xué)詞題上表現(xiàn)強(qiáng)勁,我們發(fā)現(xiàn)這些模型在處理簡(jiǎn)單的幾何相關(guān)問題時(shí)常常出錯(cuò)。例如,角度計(jì)算問題經(jīng)常導(dǎo)致錯(cuò)誤。這種同一領(lǐng)域內(nèi)的性能差異顯示出基于基準(zhǔn)測(cè)試的弱點(diǎn)發(fā)現(xiàn)的關(guān)鍵局限性。

LLMs在困難任務(wù)中表現(xiàn)出色,但在簡(jiǎn)單任務(wù)中可能表現(xiàn)不佳。我們的研究結(jié)果表明,LLMs可以處理一些困難和復(fù)雜的挑戰(zhàn),如涉及算法和數(shù)據(jù)結(jié)構(gòu)的編程問題。然而,這些模型在處理更簡(jiǎn)單甚至基礎(chǔ)任務(wù)時(shí)顯示出巨大的誤解和錯(cuò)誤。例如,當(dāng)模型被指示導(dǎo)入特定模塊中的所有函數(shù)時(shí),意外錯(cuò)誤發(fā)生了,模型僅導(dǎo)入了模塊本身。同樣,當(dāng)被要求編寫一個(gè)操作集合的函數(shù)時(shí),它在初始化集合時(shí)添加了重復(fù)元素。這些問題表明了一個(gè)關(guān)鍵缺陷:LLMs在復(fù)雜任務(wù)中的能力并不保證在簡(jiǎn)單操作中同樣精通,這突顯了進(jìn)一步研究LLMs能力邊界以避免潛在風(fēng)險(xiǎn)的必要性。

LLMs在處理復(fù)雜指令和多步推理時(shí)存在困難。在執(zhí)行完全準(zhǔn)確的指令時(shí),特別是那些包含多個(gè)約束或多步推理的指令,LLMs繼續(xù)表現(xiàn)出不足。它們經(jīng)常忽略部分指令或在多步任務(wù)的后期步驟中出錯(cuò)。這表明它們?cè)趶?fù)雜場(chǎng)景中的有限能力,這對(duì)于代理任務(wù)至關(guān)重要。

5.2 AUTODETECT的優(yōu)越性

AUTODETECT可以生成創(chuàng)造性的挑戰(zhàn)。在進(jìn)行自動(dòng)弱點(diǎn)識(shí)別時(shí),我們發(fā)現(xiàn)AUTODETECT可以生成復(fù)雜且獨(dú)特的問題,超越典型的人類編寫的問題,特別是對(duì)于非專家注釋者來說。例如,用JSON格式講述一個(gè)故事就是一個(gè)創(chuàng)造性的練習(xí),人類注釋者可能難以想到這樣的指令。這種生成多樣化、具有挑戰(zhàn)性問題的能力可以用于評(píng)估高質(zhì)量的訓(xùn)練數(shù)據(jù),從而提高模型性能。

AUTODETECT能夠生成復(fù)合指令。有趣的是,我們注意到生成的問題中出現(xiàn)了復(fù)合任務(wù)。在指令遵循任務(wù)中,盡管我們不要求模型組合不同的約束,我們觀察到一些自發(fā)的組合,包括類別間和類別內(nèi)的類型。例如,盡管LLMs在翻譯任務(wù)中表現(xiàn)良好,但當(dāng)被要求同時(shí)翻譯成多種語言時(shí),其效果會(huì)下降。

6.結(jié)論

在這項(xiàng)工作中,我們介紹了一個(gè)統(tǒng)一框架,AUTODETECT,用于識(shí)別各種模型和多樣任務(wù)中的弱點(diǎn),包括指令遵循、數(shù)學(xué)推理和編程。利用我們的方法,我們不僅成功發(fā)現(xiàn)了特定的弱點(diǎn),還通過評(píng)估過程中的數(shù)據(jù)有效地增強(qiáng)了模型性能。我們的結(jié)果突顯了使用大規(guī)模語言模型自動(dòng)檢測(cè)和解決模型弱點(diǎn)的潛力,幫助我們更好地理解模型能力的邊界,并為自動(dòng)LLM對(duì)齊鋪平道路。

局限性

盡管AUTODETECT在識(shí)別和解決LLMs的弱點(diǎn)方面表現(xiàn)出強(qiáng)大的能力,顯示出利用AI對(duì)齊AI的潛力,但我們希望討論一些已知的局限性,這些需要通過未來的研究來解決。

增強(qiáng)AUTODETECT的魯棒性。盡管人類評(píng)估結(jié)果顯示大多數(shù)生成的問題是合理的,但仍可能出現(xiàn)少量不合邏輯的問題,如無解的數(shù)學(xué)問題。此外,盡管我們的實(shí)驗(yàn)表明AUTODETECT在重復(fù)實(shí)驗(yàn)中可以穩(wěn)定地發(fā)現(xiàn)模型弱點(diǎn),并且具有高ISR(附錄F),但檢測(cè)到的問題各不相同。這可能需要通過更大規(guī)模的弱點(diǎn)識(shí)別進(jìn)一步驗(yàn)證。

擴(kuò)展到自我進(jìn)化設(shè)置。目前的框架主要利用強(qiáng)大的LLM來確保有效的問題識(shí)別。然而,如果我們希望考慮進(jìn)一步的自我改進(jìn),仍然存在一些挑戰(zhàn),如自我評(píng)估偏見(Zheng et al., 2024;Panickssery et al., 2024),即模型傾向于認(rèn)為自己的輸出表現(xiàn)良好。

倫理考慮

在弱點(diǎn)發(fā)現(xiàn)過程中,AUTODETECT從頭開始生成測(cè)試用例,不使用任何現(xiàn)有的數(shù)據(jù)集,因此不存在許可問題。我們的工作專注于通用任務(wù),不涉及安全任務(wù),因此不存在安全問題。在人類評(píng)估過程中,我們雇用了三名中國注釋者,按照地區(qū)標(biāo)準(zhǔn)支付報(bào)酬,并告知實(shí)驗(yàn)?zāi)康摹?/p>

Cheng J, Lu Y, Gu X, et al. AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models[J]. arXiv preprint arXiv:2406.16714, 2024.

1The Conversational Artificial Intelligence (CoAI) Group, Tsinghua University

2Zhipu AI

3The Knowledge Engineering Group (KEG), Tsinghua University


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/Km4sRZm1G52UlVaYyWDylA??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-7-4 17:41:32修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦