自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南 原創(chuàng) 精華

發(fā)布于 2024-5-31 10:32
瀏覽
0收藏

編者按: 目前,LLMs 在機(jī)器翻譯、文本生成、多輪問答等任務(wù)上已表現(xiàn)得非常出色了。人們開始思考它們是否也可以用于數(shù)據(jù)標(biāo)注工作。數(shù)據(jù)標(biāo)注是訓(xùn)練和評估各種機(jī)器學(xué)習(xí)模型的基礎(chǔ),一直是一項昂貴且耗時的工作。是否能夠借助 LLMs 的強(qiáng)大能力來為數(shù)據(jù)標(biāo)注流程降本增效呢?本文深入探討了這一問題。

本文作者從業(yè)界最新研究入手,全面評估了 LLMs 在數(shù)據(jù)標(biāo)注領(lǐng)域的應(yīng)用前景。文章指出,在某些場景下使用 LLMs 確實可以加快標(biāo)注流程、降低成本,但也需要注意 LLMs 存在一些局限性,如對提示詞的高度敏感性、不能支持多種人類語言符號,以及難以模擬人類的內(nèi)在推理邏輯等。因此,我們不能期望 LLMs 完全取代人工標(biāo)注,特別是在涉及需要主觀判斷或敏感內(nèi)容的領(lǐng)域。

本文立足前沿,觀點中肯,為 LLMs 在數(shù)據(jù)標(biāo)注領(lǐng)域的應(yīng)用前景勾勒出了輪廓,同時也直面了其短板,啟發(fā)讀者理性審視這一新興技術(shù)在實踐中的利弊權(quán)衡,為未來研究和實踐提供了極有價值的思路,對于推動人工智能技術(shù)在數(shù)據(jù)標(biāo)注領(lǐng)域的良性發(fā)展具有重要意義。

作者 | Maja Pavlovic

編譯 | 岳揚(yáng)

本文旨在提供一份簡單易懂的技術(shù)總結(jié),介紹有關(guān)使用 LLMs 對數(shù)據(jù)進(jìn)行標(biāo)注的研究。我們將探討當(dāng)前關(guān)于使用 LLMs1 標(biāo)注文本數(shù)據(jù)的觀點,以及在實踐中使用該技術(shù)方案時需要注意的事項。

文章總覽:

  • 為什么使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注?
  • 當(dāng)前業(yè)界主流觀點
  • 使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注時需要注意哪些事項
  • Summary | TL;DR

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

Source: Pexels

01 為什么使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注?

高質(zhì)量的標(biāo)注數(shù)據(jù)是訓(xùn)練和評估各種機(jī)器學(xué)習(xí)模型的基礎(chǔ)。 目前,最常見的數(shù)據(jù)標(biāo)注方法是雇傭眾包工人(例如 Amazon Mechanical Turk),或在涉及專業(yè)知識時雇傭相關(guān)領(lǐng)域?qū)<摇?/p>

這些方法可能相當(dāng)昂貴且極其耗時,因此很多人開始想了解是否可以使用 LLMs 完成數(shù)據(jù)標(biāo)注工作。對于預(yù)算有限的企業(yè),可以通過構(gòu)建滿足其特定需求的專用數(shù)據(jù)標(biāo)注模型(specialised models)來完成數(shù)據(jù)標(biāo)注需求。在醫(yī)學(xué)等較為敏感的領(lǐng)域,可以通過讓相關(guān)領(lǐng)域?qū)<覍彶楹托拚?LLM 的標(biāo)注內(nèi)容來加快標(biāo)注流程,而不是從頭開始進(jìn)行數(shù)據(jù)標(biāo)注。

此外, 卡內(nèi)基梅隆大學(xué)(Carnegie Mellon) 和 谷歌(Google)的研究人員還發(fā)現(xiàn),保護(hù)人工標(biāo)注者免受標(biāo)注過程中(例如仇恨言論)造成的心理傷害,以及保證數(shù)據(jù)中觀點的多樣性,也是行業(yè)推動使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注的動機(jī)之一。

02 當(dāng)前業(yè)界主流觀點

關(guān)于 LLMs 是否有潛力成為優(yōu)秀的數(shù)據(jù)標(biāo)注工具,各項研究的意見不一。雖然一些研究對其能力持樂觀態(tài)度,但也有一些研究持懷疑態(tài)度。表 1 概述了十二項相關(guān)研究的研究方法和研究結(jié)論。您可以在本文末尾的參考文獻(xiàn)中找到這些內(nèi)容的出處。

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

表 1 — z: zero-shot,f: few-shot,z&f: zero&few-shot;en+: 主要為英文語料 | 圖片由原文作者提供

2.1 模型2

表 1 中的 Model Families 列元素數(shù)量顯示 —— 大多數(shù)研究只測試了一個 Model Families。查看使用的具體模型可以發(fā)現(xiàn),除了研究[7][11]外,幾乎所有研究都使用了 GPT。 研究[7]是唯一專注于探索開源 LLMs 的研究(見表2)。

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

表 2 | 圖片由原文作者提供

2.2 數(shù)據(jù)集

表 1 的 Number of Datasets 列介紹了該研究用于數(shù)據(jù)標(biāo)注的數(shù)據(jù)集數(shù)量。不同的研究所探索的任務(wù)不同,因此也探索使用了不同的數(shù)據(jù)集。大多數(shù)研究在多個數(shù)據(jù)集上進(jìn)行了性能測試。研究[3]通過在20個不同數(shù)據(jù)集上測試 LLM 的分類性能(LLM classification performance)而顯得特別突出。關(guān)于數(shù)據(jù)集的更多細(xì)節(jié),請在下方的表 3 中尋找,應(yīng)當(dāng)可以幫助您找到最相關(guān)的研究。

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

表 3 | 圖片由原文作者提供

如果一開始手頭沒有標(biāo)注數(shù)據(jù):請尋找、查看現(xiàn)有的與目標(biāo)任務(wù)類似的標(biāo)注數(shù)據(jù)集(labelled datasets),并用 LLM 對其進(jìn)行標(biāo)注。通過詳細(xì)分析錯誤和潛在問題(the errors and potential issues),將 LLM 生成的標(biāo)簽與人工標(biāo)注的標(biāo)簽進(jìn)行比較。這樣,就能夠幫助我們了解 LLM 在目標(biāo)任務(wù)中的表現(xiàn),以及是否值得投入時間和其他成本。

2.3 Perspectivist Approach

Perspectivist Approach 簡單來說就是認(rèn)識到理解數(shù)據(jù)集或解決問題(understand a dataset or solve a problem)沒有一種“唯一正確”的方法。從不同的角度看問題可以帶來不同的見解(insights)或解決方案(solutions)。在傳統(tǒng)方法中,大多數(shù)數(shù)據(jù)集都是使用 majority voting approach(譯者注:會讓多個人(如專家或眾包工人)為同一個數(shù)據(jù)樣本打上標(biāo)簽。由于每個人的判斷可能有出入,最終需要一種機(jī)制來確定這個數(shù)據(jù)樣本的“ground truth”(真實標(biāo)簽)。在傳統(tǒng)的數(shù)據(jù)標(biāo)注過程中,這種機(jī)制通常為“少數(shù)服從多數(shù)”。)進(jìn)行標(biāo)注,這意味著最常被選擇的標(biāo)簽被視為“ground truth”(真實標(biāo)簽)

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

Majority Voting Vs. Perspectivist Approach | 圖片由原文作者提供

在表 1 中,根據(jù)研究采用的是 majority voting 方法還是 perspectivist mindset 方法,對數(shù)據(jù)標(biāo)注方法進(jìn)行了分類??梢钥吹?,大多數(shù)研究都采用了 majority voting 方法進(jìn)行數(shù)據(jù)標(biāo)注工作。

2.4 真的可以將 LLMs 使用為數(shù)據(jù)標(biāo)注工具?

最后一列總結(jié)了每項研究的結(jié)果,打勾??表示該研究傾向于認(rèn)為 LLMs 可以在數(shù)據(jù)標(biāo)注過程中發(fā)揮作用。雖然有些研究對其潛力非常樂觀,甚至認(rèn)為完全可以取代人工標(biāo)注者,但也有一些研究認(rèn)為它們更適合作為輔助工具,而不是完全替代人類進(jìn)行數(shù)據(jù)標(biāo)注。即便在這些持積極態(tài)度的研究中,也有些任務(wù)場景是 LLMs 表現(xiàn)不夠出色的。

此外,有三項研究(其中兩項采用了 perspectivist approach 方法)得出結(jié)論認(rèn)為 LLMs 不適合用于數(shù)據(jù)標(biāo)注。另一項研究(未在表中記錄)采用了不同的方法,表明目前通過單一獎勵函數(shù)(single reward function)對 LLMs 進(jìn)行對齊的方法,并不能反映不同人類子群體(human subgroups)的偏好多樣性(diversity of preferences),特別是少數(shù)群體的觀點。

03 使用 LLMs 作為標(biāo)注工具時需要考慮的事項

3.1 Prompting: Zero vs. Few-shot

直接從 LLMs 中獲得非常有意義的模型響應(yīng)可能頗具挑戰(zhàn)。那么,如何最有效地通過提示詞讓 LLM 來標(biāo)注數(shù)據(jù)集呢? 從表 1 中我們可以看到,上述研究探討了 zero-shot 或 few-shot prompting (譯者注:Zero-shot prompting 不向語言模型提供任何相關(guān)示例,直接向模型發(fā)送自然語言的問題或指令,讓模型自行生成答案或執(zhí)行任務(wù)。沒有提供任何“示例”說明預(yù)期的輸出應(yīng)該是什么樣的。Few-shot prompting 在prompt中包含了少量的“示例”內(nèi)容,告訴大模型用戶期望的輸出格式和風(fēng)格是什么樣的。),或兩者兼而有之。Zero-shot prompting 要求 LLM 在沒有任何示例的情況下回答問題。而 Few-shot prompting 則在提示詞中包含多個示例,以便 LLM 能理解用戶期望的回答格式:

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

Zero Vs Few-Shot Prompting | source:??https://github.com/amitsangani/Llama-2/blob/main/Building_Using_Llama.ipynb??

至于哪種方法效果更好,研究結(jié)果各不相同。一些研究在解決目標(biāo)任務(wù)時采用 few-shot prompting,另一些則采用 zero-shot prompting 。因此,我們可能需要探索哪種方法最適合我們的任務(wù)場景和使用的模型。

如果你想知道如何學(xué)習(xí)撰寫提示詞(Prompt),Sander Schulhoff 和 Shyamal H Anadkat 創(chuàng)建了 LearnPrompting[1],可以幫助我們學(xué)習(xí)有關(guān)提示詞的基礎(chǔ)知識和更高級的技巧。

3.2 LLMs 對提示詞的敏感程度

LLMs 對 prompt(提示詞)的細(xì)微變化非常敏感。 改變 prompt 中的一個詞可能就會影響模型響應(yīng)。如果想要盡量應(yīng)對這種變化,可以參考研究[3]的做法。首先,由 task expert (譯者注:對任務(wù)所在領(lǐng)域有深入理解的領(lǐng)域?qū)<摇#┨峁┏跏继崾驹~。然后,使用 GPT 生成 4 個意義相似的提示詞,并對這 5 個提示詞的模型響應(yīng)的內(nèi)容評估指標(biāo)取平均值?;蛘撸覀円部梢試L試使用 signature[2] (譯者注:一種自動化的提示詞生成方式,可以理解為一種參數(shù)化的提示詞模板。)代替人工輸入的提示詞,并讓 DSPy[3] 來優(yōu)化提示詞,如 Leonie Monigatti 的博客文章內(nèi)容[4]所示。

3.3 如何選擇用于數(shù)據(jù)標(biāo)注的模型?

選擇哪個模型來標(biāo)注數(shù)據(jù)集?有幾個因素需要考慮。讓我們簡要談?wù)勔恍╆P(guān)鍵的考慮因素:

  • 開源 vs. 閉源:是選擇最新的、性能最好的模型?還是更注重定制化開源模型?需要考慮的因素包括預(yù)算、性能要求、是否需要定制、是否需要擁有模型所有權(quán)、安全需求以及社區(qū)支持要求等方面。
  • 保護(hù)措施(Guardrails):LLMs 配備了防止產(chǎn)生不良信息或有害內(nèi)容的保護(hù)措施。如果目標(biāo)任務(wù)涉及敏感內(nèi)容,模型可能會拒絕標(biāo)注這些數(shù)據(jù)。而且,不同 LLMs 的保護(hù)措施強(qiáng)度不一,因此需要不斷進(jìn)行探索和比較,找到最適合目標(biāo)任務(wù)的數(shù)據(jù)標(biāo)注模型。
  • 模型大?。∕odel Size):LLMs 有不同的 size ,較大的模型可能表現(xiàn)更好,但也需要更多的計算資源。如果你想要使用開源 LLMs 但是計算資源有限,可以試試使用模型量化技術(shù)[5]。就閉源模型而言,目前較大的模型每次使用的成本更高。但較大 size 的模型一定更好嗎?

3.4 模型存在的偏見問題

根據(jù)研究[3],較大的、經(jīng)過指令微調(diào)的3(instruction-tuned)模型在數(shù)據(jù)標(biāo)注性能方面表現(xiàn)更優(yōu)越。 然而,該研究并未評估其模型輸出中是否存在偏見。另一項研究表明,偏見會隨著模型規(guī)模(scale)和上下文模糊程度(ambiguous contexts)的增加而增加。 有幾項研究還警告說,LLMs 有左傾傾向,并且在準(zhǔn)確代表少數(shù)群體(如老年人或少數(shù)宗教)的觀點方面能力有限??傮w來看,當(dāng)前的 LLMs 存在相當(dāng)大的文化偏見(cultural biases),并且在看待少數(shù)群體的相關(guān)問題時存在刻板印象。這些都是在項目各個階段需要根據(jù)目標(biāo)任務(wù)考慮的問題。

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

“默認(rèn)情況下,LLM 的響應(yīng)更類似于某些群體的觀點,如來自美國、某些歐洲和南美洲國家的群體” — 摘自研究[2]

3.5 模型參數(shù):Temperature

表 1 中的大多數(shù)研究都提到了 temperature 參數(shù),該參數(shù)主要用于調(diào)整 LLMs 輸出內(nèi)容的“創(chuàng)造力”表現(xiàn)。研究[5]和[6]在較高和較低的 temperature 參數(shù)值下進(jìn)行了實驗,發(fā)現(xiàn)使用較低的 temperature 參數(shù)值時 LLMs 響應(yīng)的一致性更高(譯者注:對于同一提示詞輸入,模型在不同時刻生成的響應(yīng)彼此之間的差異較小,更加一致),同時不影響準(zhǔn)確性。因此,他們建議在數(shù)據(jù)標(biāo)注任務(wù)中使用較低的 temperature 參數(shù)值。

3.6 使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注任務(wù)存在語言方面的限制

如表 1 所示,大多數(shù)研究都評估了 LLMs 在英語數(shù)據(jù)集上的標(biāo)注性能。研究[7]探索了法語、荷蘭語和英語數(shù)據(jù)集的性能,發(fā)現(xiàn)非英語語言的標(biāo)注性能顯著下降。 目前,LLMs 在英語數(shù)據(jù)集中的表現(xiàn)更好,但也有其他方法嘗試將這種優(yōu)勢擴(kuò)展到非英語語言。包括 Aleksa Gordi? 開發(fā)的 YugoGPT[6](用于塞爾維亞語、克羅地亞語、波斯尼亞語、黑山語)和 Cohere for AI 的 Aya[7](支持101種不同語言)。

3.7 分析人類的標(biāo)注內(nèi)容,來窺探和理解人類在做出某些判斷時的內(nèi)在推理邏輯和行為動機(jī)

除了簡單地請求 LLM 為數(shù)據(jù)打上標(biāo)簽外,我們還可以要求其為所選擇的標(biāo)簽提供一段解釋。研究[10]發(fā)現(xiàn),GPT 提供的解釋內(nèi)容與人類的解釋內(nèi)容相當(dāng),甚至更為清晰。 然而,卡內(nèi)基梅隆大學(xué)和谷歌的研究人員指出,LLMs 尚未能模擬人類的決策過程[8],在標(biāo)簽的選擇決策過程中也未表現(xiàn)出類似人類的行為[9]。他們發(fā)現(xiàn),經(jīng)過指令微調(diào)的模型更無法表現(xiàn)出類似人類的行為,因此他們認(rèn)為在標(biāo)注流程中, 不應(yīng)當(dāng)使用 LLMs 來替代人類。在目前的階段,作者建議謹(jǐn)慎使用大語言模型(LLM)生成的自然語言解釋內(nèi)容。

“使用 LLMs 替代標(biāo)注員會影響三種價值觀:參與者利益的代表性(譯者注:如果完全由 LLM 生成自然語言解釋內(nèi)容,可能無法充分代表參與標(biāo)注任務(wù)的人員(如專家、工人等)的真實利益和關(guān)切點。);人類在開發(fā)過程中的參與權(quán)、發(fā)言權(quán)、主導(dǎo)權(quán)和決策權(quán)?!?— 摘自 Agnew(2023)

04 Summary | TL;DR

用 LLMs 做數(shù)據(jù)標(biāo)注:優(yōu)勢、局限與實操指南-AI.x社區(qū)在這里插入圖片描述

使用 LLMs 進(jìn)行數(shù)據(jù)標(biāo)注優(yōu)點與缺點 | image by author

  • 對于那些預(yù)算有限、任務(wù)相對客觀的情況,使用 LLM 進(jìn)行數(shù)據(jù)標(biāo)注是一個不錯的選擇,在這些任務(wù)中,一般關(guān)注的是最可能的標(biāo)簽。在意見可能存在較大分歧的主觀任務(wù)中,對正確標(biāo)簽(correct label)的看法可能會大相徑庭,這時就要小心了!
  • 避免使用 LLMs 來模擬人類的內(nèi)在推理邏輯和行為動機(jī)。
  • 對于更關(guān)鍵的任務(wù)(如醫(yī)療保健領(lǐng)域任務(wù)),可以使用 LLMs 來加速標(biāo)注過程,讓人類來糾正已標(biāo)注的數(shù)據(jù);但千萬不要讓人類完全脫離數(shù)據(jù)標(biāo)注過程!
  • 批判性地評估標(biāo)注方案,檢查是否存在偏見和其他問題,并考慮這些錯誤可能帶來的麻煩是否值得。

這篇文章并非對使用 LLMs 和人工標(biāo)注進(jìn)行詳盡的比較。如果您有其他資料或在使用 LLM 進(jìn)行數(shù)據(jù)標(biāo)注的個人經(jīng)驗,煩請在評論中留言分享。

References

腳注 Footnotes

1這不是對所有相關(guān)文獻(xiàn)的全面回顧,僅涵蓋了我在研究這一主題時發(fā)現(xiàn)的論文。此外,我主要關(guān)注的還是分類任務(wù)(classification tasks)。

2鑒于 LLM 的發(fā)展速度,與本文介紹的這些研究中測試的模型相比,現(xiàn)在肯定還有很多更強(qiáng)大的模型可用于數(shù)據(jù)標(biāo)注。

3經(jīng)過指令微調(diào)過的大模型(Instruction-tuned models)的訓(xùn)練重點是根據(jù)給定的指令/提示詞(instructions/prompts)理解和生成準(zhǔn)確且連貫的模型響應(yīng)。

Thanks for reading!

Maja Pavlovic

Google DeepMind PhD Scholar, simplifying Data Science and Deep Learning concepts || London (UK) ||

END

參考資料

[1]??https://learn-prompting.webflow.io/testimonials??

[2]??https://towardsdatascience.com/intro-to-dspy-goodbye-prompting-hello-programming-4ca1c6ce3eb9#7029??

[3]??https://towardsdatascience.com/intro-to-dspy-goodbye-prompting-hello-programming-4ca1c6ce3eb9??

[4]??https://medium.com/@iamleonie??

[5]??https://towardsdatascience.com/democratizing-llms-4-bit-quantization-for-optimal-llm-inference-be30cf4e0e34??

[6]??https://gordicaleksa.medium.com/??

[7]??https://cohere.com/research/aya??

[8]??https://medium.com/@majapavlo/references-for-llms-as-annotators-1c2886b50b86#9e13??

[9]??https://medium.com/@majapavlo/references-for-llms-as-annotators-1c2886b50b86#fb0c??

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。

原文鏈接:

??https://towardsdatascience.com/can-large-language-models-llms-label-data-2a8334e70fb8??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦