自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

警惕大型語言模型評估中的不可靠數(shù)據(jù)——基于Flan-T5的提示選擇案例研究

譯文 精選
人工智能
本文通過基于谷歌Flan-T5大型語言模型的提示選擇案例研究指出,在大型語言模型評估中存在不可靠數(shù)據(jù);除非清潔測試數(shù)據(jù),否則可能會為大型語言模型選擇次優(yōu)提示方案(或通過模型評估做出其他次優(yōu)選擇)。

譯者 | 朱先忠

審校 | 重樓

引言

可靠的模型評估是MLOP和LLMops的核心,負責指導關鍵決策,如部署哪個模型或提示符(以及是否部署)。在本文中,我們使用各種提示關鍵詞來提示Google Research的FLAN-T5大型語言模型,試圖將文本分類為禮貌或不禮貌兩個類型。

在提示候選中,我們發(fā)現(xiàn),根據(jù)觀察到的測試準確性,看起來表現(xiàn)最好的提示實際上往往比其他提示候選詞還差。對測試數(shù)據(jù)的仔細審查表明,這是由于不可靠的注釋造成的。因此,在現(xiàn)實世界的應用程序中,您可能會為大型語言模型選擇次優(yōu)提示(或在模型評估的指導下做出其他次優(yōu)選擇),除非您清理測試數(shù)據(jù)以確保其可靠。

選擇好的提示詞對于確保大型語言模型的準確響應至關重要選擇好的提示詞對于確保大型語言模型的準確響應至關重要

雖然噪聲注釋的危害在訓練數(shù)據(jù)中得到了很好的表征,但本文在測試數(shù)據(jù)中展示了它們經(jīng)常被忽視的后果。

我目前的職務是Cleanlab的數(shù)據(jù)科學家,我很高興能與大家分享高質量測試數(shù)據(jù)的重要性,以確保最佳大型語言模型的提示選擇。

概述

你可以在鏈接處下載本文有關測試數(shù)據(jù)。

本文研究了斯坦福禮貌數(shù)據(jù)集二元分類變體(在CC BY許可證v4.0下使用),其中的文本短語被標記為禮貌或不禮貌兩種類型。我們使用包含700個短語的固定測試數(shù)據(jù)集來評估模型。

顯示文本和基本事實禮貌標簽的數(shù)據(jù)集快照顯示文本和基本事實禮貌標簽的數(shù)據(jù)集快照

標準做法是通過對照給定標簽來評估分類模型的“好”的程度,例如模型在訓練過程中沒有看到的例子,通常被稱為“測試”、“評估”或“驗證”數(shù)據(jù)。這提供了一個數(shù)字指標來衡量模型A與模型B的優(yōu)劣——如果模型A顯示出更高的測試精度,我們估計它是更好的模型,并會選擇將其部署在模型B之上。除了模型選擇之外,相同的決策框架還可以應用于其他選擇,如是否使用:超參數(shù)設置A或B、提示A或B,特征集A或B等。

真實世界測試數(shù)據(jù)中的一個常見問題是,一些例子的標簽是不正確的,無論是由于人為注釋錯誤、數(shù)據(jù)處理錯誤還是由于傳感器噪聲等因素導致。在這種情況下,測試準確性成為模型A和模型B之間相對性能的不太可靠的指標。讓我們用一個非常簡單的例子來說明這一點。想象一下,你的測試數(shù)據(jù)集中存在兩個不禮貌的文本示例,但在不知不覺中,它們被(錯誤地)標記為禮貌”類型。例如,在我們的斯坦福禮貌數(shù)據(jù)集中,我們看到一個真正的人類注釋者錯誤地將“你現(xiàn)在瘋了嗎?!到底發(fā)生了什么?”Are you crazy down here?! What the heck is going on?這段文字標記為禮貌”(polite)類型,而語言表達顯然很激動

現(xiàn)在,您的工作是選擇最佳模型來對這些示例進行分類。模型A指出兩個實例都是不禮貌的,模型B指出兩個實例都是禮貌的?;谶@些(不正確的)標簽,模型A得分為0%,而模型B得分為100%——你選擇模型B進行部署!但請稍一下再想想:到底哪種模型實際上更強一些呢?

盡管上述類似影響微不足道,而且許多人都意識到現(xiàn)實世界的數(shù)據(jù)充滿了標簽錯誤,但人們往往只關注訓練數(shù)據(jù)中的噪聲標簽,忘記了仔細策劃測試數(shù)據(jù)——即使當其指導了關鍵決策的時候。本文使用真實數(shù)據(jù)說明了高質量測試數(shù)據(jù)在指導大型語言模型提示選擇方面的重要性,并展示了一種通過算法技術輕松提高數(shù)據(jù)質量的方法。

觀察測試精度與清潔測試精度

在這里,我們考慮由同一組文本示例構建的兩個可能的測試集,它們只在某些(~30%)標簽上有所不同。代表你用來評估準確性的典型數(shù)據(jù),一個版本的標簽來源于每個例子的單個注釋(人工評分器),我們將在此版本上計算的模型預測的準確性報告為觀察測試準確性Observed Test Accuracy。同一測試集的第二個更干凈的版本具有高質量的標簽,這些標簽是通過每個示例的許多一致注釋(源自多個人工評分者)之間的共識建立的。我們將在清潔版本上測量的精度報告為清潔測試精度Clean Test Accuracy。因此,清潔測試精度更緊密地反映了您所關心的內容(實際模型部署性能),但在大多數(shù)應用程序中,觀察測試準確性是您所能觀察到的全部內容,除非您首先清潔測試數(shù)據(jù)!

下面是兩個測試示例,其中單個人工注釋器錯誤地標記了示例,但由許多人工注釋器組成的小組同意正確的標記。

需要說明的是,從單個注釋器收集的橙色注釋收集起來更便宜,但通常是不正確的。藍色注釋是從多個注釋器中收集的,這些注釋器更昂貴,但通常更準確。

在現(xiàn)實世界的項目中,你通常無法使用這種“清潔”(clean)的標簽,所以你只能測量觀察測試準確性。如果您正在根據(jù)此指標做出關鍵決策,例如使用哪種大型語言模型或提示,請確保首先驗證標簽是高質量的;否則,我們發(fā)現(xiàn)您可能會做出錯誤的決定,如接下來所展示的在選擇禮貌分類提示時出現(xiàn)的情況

噪聲評估數(shù)據(jù)的影響

作為一種對文本禮貌進行分類的預測模型,使用預先訓練的大型語言模型(LLM)是很自然的。在這里,我們特別使用了數(shù)據(jù)科學家最喜歡的大型語言模型——開源的FLAN-T5模型。為了讓大型語言模型準確地預測文本的禮貌屬性,我們必須給它提供正確的提示。提示工程可以非常敏感,微小的變化會極大地影響準確性!

下面顯示的提示A和B(突出顯示的文本)是思維鏈提示的兩個不同示例,它們可以附加在任何文本樣本前面,以便大型語言模型對其禮貌屬性進行分類。這些提示結合了一些鏡頭和指令提示(稍后詳細介紹),提供了示例、正確的響應和鼓勵大型語言模型解釋其推理的理由。這兩個提示之間的唯一區(qū)別是高亮顯示的文本實際上是從大型語言模型中獲得響應。少數(shù)鏡頭的例子和推理保持不變。

思維鏈提示為模型提供了推理,說明為什么給出的每個文本示例的答案都是正確的。

決定哪種提示更好的自然方法是基于他們觀察到的測試準確性。當用于提示FLAN-T5大型語言模型時,我們在下面看到,提示A產(chǎn)生的分類在原始測試集上的觀察測試精度高于提示B產(chǎn)生的分類。所以很明顯,我們應該使用提示A部署我們的大型語言模型,對吧?回答是:不要那么快速作出決定

當我們評估每個提示的清潔測試準確性時,我們發(fā)現(xiàn)提示B實際上比提示A好得多(提高了4.5個百分點)。由于清潔測試精度更能反映我們真正關心的真實性能,如果我們僅僅依賴原始測試數(shù)據(jù)而不檢查其標簽質量,我們就會做出錯誤的決定!

使用觀察到的準確性,您可以更好地選擇提示A。但是,當在清潔過的測試集上進行評估時,提示B實際上是更好的提示

這只是統(tǒng)計波動嗎?

McNemar檢驗是評估ML準確性差異的統(tǒng)計學顯著性的推薦方法。當我們應用該測試來評估700個文本示例中提示A與提示B之間4.5%的清潔測試準確性差異時,該差異具有高度統(tǒng)計學意義(p值=0.007,X2=7.086)。因此,所有證據(jù)都表明提示B是一個有意義的更好選擇——我們不應該沒有通過仔細審核原始測試數(shù)據(jù)來選擇它!

這是不是這兩個提示碰巧出現(xiàn)的僥幸結果?

讓我們也看看其他類型的提示,看看我們的兩個思維鏈提示的結果是否只是巧合。

指令提示

這種類型的提示只是向大型語言模型提供一條指令,說明它需要如何處理給定的文本示例??紤]以下兩個提示,我們可能希望在其中進行選擇。

少量訓練(Few-Shot)提示

這種類型的提示使用兩個指令,一個前綴和一個后綴,還包括來自文本語料庫的兩個(預先選擇的)示例,以便向大型語言模型提供所需輸入輸出映射的清晰演示。考慮以下兩個提示,我們可能希望在其中進行選擇。

模板化提示

這種類型的提示除了選擇題格式外,還使用了兩條指令,一個可選前綴和一個后綴,這樣模型就可以作為選擇題答案進行分類,而不是直接用預測類進行響應??紤]以下兩個提示,我們可能希望在其中進行選擇。

各種類型提示的結果對比

除此之外,我們還評估了具有這三種額外類型提示的同一FLAN-T5大型語言模型的分類性能。通過繪制以下所有提示實現(xiàn)的觀察測試精度與清潔測試精度,我們看到許多提示對都存在相同的上述問題,依賴觀察到的檢測精度會導致選擇實際上更差的提示。

作為一名使用可用測試數(shù)據(jù)的提示工程師,您可以選擇左上角的灰色A提示(最高觀測精度),但最佳提示實際上是右上角的灰度B提示(最高清潔精度)。

僅根據(jù)觀察到的測試準確性,您將傾向于在每種類型的提示中選擇“A”提示而不是“B”提示。然而,每種提示類型的更好提示實際上是提示B(它具有更高的清潔測試精度)。這些提示對中的每一個都強調了驗證測試數(shù)據(jù)質量的必要性,否則,由于數(shù)據(jù)問題(如嘈雜的注釋),您可能會做出次優(yōu)決策。

由于存在較高的觀察準確性,所有A提示似乎都更好,但當根據(jù)實際測試數(shù)據(jù)進行評估時,所有B提示在客觀上都更好。

您還可以在該圖中看到,所有A提示觀察到的精度都是如何圈出的,這意味著它們的精度高于B提示。類似地,所有B提示的清潔準確度都被圈出,這意味著它們的準確度高于B提示的準確度。就像本文開頭的簡單示例一樣,您傾向于選擇所有的A提示,而實際上B提示做得更好。

改進可用的測試數(shù)據(jù)以實現(xiàn)更可靠的評估

希望高質量評價數(shù)據(jù)的重要性是顯而易見的。讓我們來看看修復可用測試數(shù)據(jù)的幾種方法。

手動校正

確保測試數(shù)據(jù)質量的最簡單方法就是簡單地手工審核!確保仔細查看每個示例,以驗證其標記是否正確。根據(jù)測試集的大小,這可能可行,也可能不可行。如果你的測試集相對較?。ù蠹s100個例子),你可以仔細查看它們,并做出任何必要的更正。如果你的測試集很大(1000多個例子),那么手工完成這項工作將過于耗時和耗費精力。我們的測試集相當大,所以我們不會使用這種方法!

算法校正

評估可用(可能有噪聲)測試集的另一種方法是使用以數(shù)據(jù)為中心的人工智能算法來診斷可以解決的問題,以獲得同一數(shù)據(jù)集的更可靠版本(而不必收集許多額外的人工注釋)。在這里,我們使用Confident Learning算法(通過開源的cleanlab軟件包)來檢查我們的測試數(shù)據(jù),這些數(shù)據(jù)會自動估計哪些示例被錯誤標記。然后,我們只檢查這些自動檢測到的標簽問題,并根據(jù)需要修復它們的標簽,以生成更高質量的測試數(shù)據(jù)集版本。我們將在這個版本的測試數(shù)據(jù)集上進行的模型精度測量稱為CL測試精度。

所有B提示的CL測試精度都更高。使用CL,我們更正了原始測試數(shù)據(jù),現(xiàn)在可以信任我們的模型并及時做出決定。

使用這個新的CL校正測試集進行模型評估,我們看到以前的所有B提示現(xiàn)在都正確地顯示出比A提示更高的準確性。這意味著我們可以相信,基于CL校正測試集做出的決策比基于有噪聲的原始測試數(shù)據(jù)做出的決策更可靠。

當然,自信學習不能神奇地識別任何數(shù)據(jù)集中的所有錯誤。該算法檢測標記錯誤的效果將取決于基線ML模型的合理預測,即使如此,某些類型的系統(tǒng)引入的錯誤仍將無法檢測(例如,如果我們完全交換兩類的定義)。

關于可以證明自信學習有效的數(shù)學假設的精確列表,請參閱Northcutt等人的原始論文。對于許多真實世界的文本/圖像/音頻/表格數(shù)據(jù)集,該算法似乎至少提供了一種有效的方法,可以將有限的數(shù)據(jù)審查資源集中在大型數(shù)據(jù)集中最可疑的例子上。

因此,你并不總是需要花費時間/資源來策劃一個“完美”的評估集——使用Confident Learning等算法來診斷和糾正可用測試集中可能存在的問題,可以提供高質量的數(shù)據(jù),以確保最佳的提示和模型選擇。

最后,除非另有說明,否則本文中所有圖片均由作者本人提供。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Beware of Unreliable Data in Model Evaluation: A LLM Prompt Selection case study with Flan-T5,作者:Chris Mauck

責任編輯:華軒 來源: 51CTO
相關推薦

2010-06-12 15:30:57

UDP協(xié)議

2022-06-15 07:42:00

谷歌T5模型

2010-04-16 17:16:34

2021-04-07 14:29:05

開發(fā)技能代碼

2015-03-20 09:45:17

IP協(xié)議

2025-01-09 10:48:36

2012-03-12 14:17:10

2021-07-27 12:27:21

工業(yè)物聯(lián)網(wǎng)IIOT物聯(lián)網(wǎng)

2011-11-29 09:48:43

2021-09-07 09:40:39

漏洞網(wǎng)絡安全代碼

2023-04-28 17:39:01

2013-07-24 10:26:40

華為數(shù)據(jù)存儲華為存儲華為

2023-12-11 07:26:14

云原生業(yè)務可觀測性

2022-11-16 14:33:45

工業(yè)物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全

2016-12-16 11:56:56

大數(shù)據(jù)數(shù)據(jù)科學

2013-09-26 10:38:14

VDI企業(yè)桌面

2021-10-25 16:25:07

模型人工智能計算

2021-04-23 23:29:20

比特幣加密貨幣匿名幣

2025-01-15 07:52:53

2009-05-14 08:39:33

英特爾歐盟反壟斷
點贊
收藏

51CTO技術棧公眾號