ChatGPT要把數(shù)據(jù)標(biāo)注行業(yè)干掉了?比人便宜20倍,而且還更準
沒想到,AI 進化之后淘汰掉的第一批人,就是幫 AI 訓(xùn)練的人。
很多 NLP 應(yīng)用程序需要為各種任務(wù)手動進行大量數(shù)據(jù)注釋,特別是訓(xùn)練分類器或評估無監(jiān)督模型的性能。根據(jù)規(guī)模和復(fù)雜程度,這些任務(wù)可能由眾包工作者在 MTurk 等平臺上以及訓(xùn)練有素的標(biāo)注人(如研究助理)執(zhí)行。
我們知道,語言大模型(LLM)在規(guī)模到達一定程度之后可以「涌現(xiàn)」—— 即獲得此前無法預(yù)料的新能力。作為推動 AI 新一輪爆發(fā)的大模型,ChatGPT 在很多任務(wù)上的能力也超出了人們的預(yù)期,其中就包括給數(shù)據(jù)集做標(biāo)注這種自己訓(xùn)練自己的工作。
近日,來自蘇黎世大學(xué)的研究者證明了 ChatGPT 在多項注釋任務(wù)(包括相關(guān)性、立場、主題和框架檢測)上優(yōu)于眾包工作平臺和人類工作助理。
此外,研究人員還做了計算:ChatGPT 的每條注釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結(jié)果顯示了大型語言模型在大幅提高文本分類效率方面的潛力。
論文鏈接:?https://arxiv.org/abs/2303.15056?
研究細節(jié)
許多 NLP 應(yīng)用程序需要高質(zhì)量的標(biāo)注數(shù)據(jù),特別是用于訓(xùn)練分類器或評估無監(jiān)督模型的性能。例如,研究人員有時需要過濾嘈雜的社交媒體數(shù)據(jù)以獲得相關(guān)性,將文本分配給不同的主題或概念類別,或者衡量他們的情緒立場。無論用于這些任務(wù)的具體方法是什么(監(jiān)督、半監(jiān)督或無監(jiān)督學(xué)習(xí)),都需要準確地標(biāo)注數(shù)據(jù)來構(gòu)建訓(xùn)練集,或用其作為評估性能的黃金標(biāo)準。
對此,人們通常的處理方式是招募研究助理,或者使用 MTurk 這樣的眾包平臺。OpenAI 在打造 ChatGPT 時,也將負面內(nèi)容問題分包給了肯尼亞的數(shù)據(jù)標(biāo)注機構(gòu),進行了大量標(biāo)注訓(xùn)練才敢正式上線。
由瑞士蘇黎世大學(xué)提交的這篇報告探討了大語言模型(LLM)在文本標(biāo)注任務(wù)中的潛力,并重點關(guān)注了 2022 年 11 月發(fā)布的 ChatGPT。它證明了零樣本(即沒有任何額外訓(xùn)練)ChatGPT 在分類任務(wù)上優(yōu)于 MTurk 標(biāo)注 ,而成本僅需人工的幾十分之一。
研究人員使用了之前的研究收集的 2382 條推文樣本。這些推文由訓(xùn)練有素的注釋者(研究助理)標(biāo)記為五種不同的任務(wù):相關(guān)性、立場、主題和兩種框架檢測。實驗中,研究者將任務(wù)作為零樣本分類提交給 ChatGPT,并同時給 MTurk 上的眾包工作者,然后根據(jù)兩個基準評估了 ChatGPT 的性能:相對于眾包平臺上人類工作者的準確性,以及相對于研究助理注釋者的準確性。
結(jié)果發(fā)現(xiàn),在五分之四的任務(wù)上,ChatGPT 的零樣本準確率高于 MTurk。對于所有任務(wù),ChatGPT 的編碼器協(xié)議都超過了 MTurk 和訓(xùn)練有素的注釋者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五個分類任務(wù)在 ChatGPT(25264 個注釋)上的成本約為 68 美元,在 MTurk(12632 個注釋)上的成本約為 657 美元。
這么一算,ChatGPT 的每條注釋成本約為 0.003 美元,即三分之一美分 —— 比 MTurk 便宜約 20 倍,而且質(zhì)量更高。鑒于此,我們現(xiàn)在已有可能對更多樣本進行注釋,或者為監(jiān)督學(xué)習(xí)創(chuàng)建大型訓(xùn)練集。根據(jù)現(xiàn)有的測試,10 萬個注釋的成本約為 300 美元。
研究人員表示,雖然需要進一步研究以更好地了解 ChatGPT 和其他 LLM 如何在更廣泛的環(huán)境中發(fā)揮作用,但這些結(jié)果表明它們有可能改變研究人員進行數(shù)據(jù)注釋的方式,并破壞 MTurk 等平臺的部分業(yè)務(wù)模型。
實驗過程
研究人員使用了包含 2382 條推文的數(shù)據(jù)集,這些推文是之前針對內(nèi)容審核相關(guān)任務(wù)的研究手動注釋的。具體來說,訓(xùn)練有素的注釋者(研究助理)為五個具有不同類別數(shù)量的概念類別構(gòu)建了黃金標(biāo)準:推文與內(nèi)容審核問題的相關(guān)性(相關(guān) / 不相關(guān));關(guān)于第 230 條(美國 1996 年《通信規(guī)范法》的一部分)的立場,這是美國互聯(lián)網(wǎng)立法的一個關(guān)鍵部分;主題識別(六類);第一組框架(內(nèi)容審核作為問題、解決方案或中性);以及第二組框架(十四類)。
然后,研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對于 ChatGPT 進行了四組標(biāo)注。為了探索控制輸出隨機程度的 ChatGPT 溫度參數(shù)的影響,這里使用默認值 1 和 0.2 進行注釋,這意味著隨機性較小。對于每個溫度值,研究人員進行了兩組注釋來計算 ChatGPT 的編碼器協(xié)議。
對于專家,該研究找到了兩名政治學(xué)研究生,對所有五項任務(wù)對推文進行注釋。對于每項任務(wù),編碼員都獲得了相同指令集,其被要求逐個任務(wù)獨立地注釋推文。為了計算 ChatGPT 和 MTurk 的準確性,對比只考慮了兩個訓(xùn)練有素的注釋者都同意的推文。
對于 MTurk,研究的目標(biāo)是選擇最好的工作者群體,特別是通過篩選被亞馬遜歸類為「MTurk 大師」、好評超過 90% 且在美國的工作者。
該研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。注釋于 2023 年 3 月 9 日至 3 月 20 日之間進行。對于每個注釋任務(wù),研究人員有意避免添加任何特定于 ChatGPT 的提示(prompt),例如「讓我們逐步思考」,以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。
在測試了幾種變體之后,人們決定使用這樣的提示將推文一條一條地提供給 ChatGPT:「這是我選擇的推文,請將其標(biāo)記為 [任務(wù)特定說明(例如,說明中的主題之一)]。此外,該研究中每條推文收集了四個 ChatGPT 響應(yīng),也為每條推文創(chuàng)建一個新的聊天會話,以確保 ChatGPT 結(jié)果不受注釋歷史記錄的影響。
圖 1. 與 MTurk 上高分標(biāo)注人相比,ChatGPT zero-shot 的文本標(biāo)注能力。ChatGPT 在五項任務(wù)中的四項中的準確性優(yōu)于 MTurk。
在上圖中 ChatGPT 有優(yōu)勢的四項任務(wù)中,在一種情況下(相關(guān)性)ChatGPT 略有優(yōu)勢,但其性能與 MTurk 非常相似。其他三種情況下(frams I、frams II 和 Stance),ChatGPT 的性能比 MTurk 高 2.2 到 3.4 倍。此外,考慮到任務(wù)的難度、類的數(shù)量以及注釋是零樣本的事實,ChatGPT 的準確度總體來說綽綽有余。
對于相關(guān)性,有兩個類別(相關(guān) / 不相關(guān)),ChatGPT 的準確率為 72.8%,而對于立場,有三個類別(正面 / 負面 / 中性)的準確率為 78.7%。隨著類別數(shù)量的增加,準確性會降低,盡管任務(wù)的內(nèi)在難度也有影響。關(guān)于編碼器協(xié)議,圖 1 顯示 ChatGPT 的性能非常高,當(dāng)溫度參數(shù)設(shè)置為 0.2 時,所有任務(wù)的性能都超過 95%。這些值高于任何人類,包括訓(xùn)練有素的注釋者。即使使用默認溫度值 1(這意味著更多的隨機性),編碼器間一致性始終超過 84%。編碼器間一致性和準確性之間的關(guān)系是正的,但很弱(皮爾遜相關(guān)系數(shù):0.17)。盡管相關(guān)性僅基于五個數(shù)據(jù)點,但它表明較低的溫度值可能更適合注釋任務(wù),因為它似乎可以提高結(jié)果的一致性而不會大幅降低準確性。
必須強調(diào)的是,對 ChatGPT 進行測試非常困難。內(nèi)容審核是一個復(fù)雜的主題,需要大量資源。除了立場之外,研究人員還為特定研究目的開發(fā)了概念類別。此外,一些任務(wù)涉及大量類別,然而 ChatGPT 仍然達到了很高的準確率。
使用模型來注釋數(shù)據(jù)并不是什么新鮮事,在使用大規(guī)模數(shù)據(jù)集的計算機科學(xué)研究中,人們經(jīng)常會標(biāo)注少量樣本然后用機器學(xué)習(xí)進行擴增。不過在表現(xiàn)超過人類之后,未來我們或許可以更加信任來自 ChatGPT 的判斷了。