EMNLP 2023|利用LLM合成數(shù)據(jù)訓(xùn)練模型有哪些坑?
大家好,我是HxShine
今天我們將介紹EMNLP2023的一篇大模型(LLMs)生成文本分類任務(wù)合成數(shù)據(jù)的文章,標題是《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》。
實際落地中,高質(zhì)量訓(xùn)練數(shù)據(jù)的收集和篩選既耗費時間又成本昂貴,研究人員探索使用LLMs生成合成數(shù)據(jù)作為替代方法。然而,LLMs生成的合成數(shù)據(jù)在支持不同文本分類任務(wù)的模型訓(xùn)練上效果有好有差。本文試圖分析不同因素如何影響LLMs生成合成數(shù)據(jù)的有效性。
這篇論文研究了大型語言模型(LLMs)生成合成數(shù)據(jù)集用于文本分類模型訓(xùn)練的潛力和限制。 分析發(fā)現(xiàn),任務(wù)的主觀性(標注一致性越差)越高,利用合成數(shù)據(jù)來訓(xùn)練模型效果也越差。另外合成數(shù)據(jù)效果好不好的關(guān)鍵影響因素在于生成數(shù)據(jù)的多樣性如何,few-shot方式可以提高生成樣本的多樣性,通過few-shot方式生成的樣本效果也一般優(yōu)于zero-shot的樣本。
? Title: Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations
? Url: https://arxiv.org/abs/2310.07849
? Authors: Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin
1 Motivation
? 利用LLM生成訓(xùn)練數(shù)據(jù)(例如文本分類數(shù)據(jù))是否有效?效果的影響因素有哪些?
? 這項研究旨在探討大型語言模型生成合成數(shù)據(jù)對文本分類模型訓(xùn)練的有效性及其在不同任務(wù)中的表現(xiàn)差異性。
? 作者們尤其關(guān)注分類任務(wù)的主觀性如何影響基于合成數(shù)據(jù)訓(xùn)練的模型的性能。
背景:研究者最近探索了使用大型語言模型(LLMs)生成合成數(shù)據(jù)集作為一種替代方法。然而在不同的分類任務(wù)中,LLM生成的合成數(shù)據(jù)在支持模型訓(xùn)練方面的有效性并不一致。
2 Methods
方法:論文通過采用兩種數(shù)據(jù)生成策略,10個文本分類任務(wù)數(shù)據(jù)集,利用BERT和RoBERTa作為基座模型,在多個角度對生成的數(shù)據(jù)進行了分析,從而推導(dǎo)出關(guān)于LLMs在合成數(shù)據(jù)生成中的潛力和局限性,最后通過對比分析得到了合成數(shù)據(jù)在模型訓(xùn)練中的表現(xiàn)與任務(wù)和實例的主觀性負相關(guān)(標注一致性越低、主觀性越高)的結(jié)論。
實驗和評估方法總結(jié):
實驗方法:
1. 數(shù)據(jù)生成:
? 零樣本(Zero-shot):在沒有真實世界數(shù)據(jù)的情況下,使用LLM直接生成文本實例。這涉及到構(gòu)建上下文提示來設(shè)定生成環(huán)境,然后提供數(shù)據(jù)生成提示來指導(dǎo)LLM生成具有特定標簽的文本。
? 少樣本(Few-shot):在有少量真實世界數(shù)據(jù)的情況下,這些數(shù)據(jù)作為例子指導(dǎo)LLM生成新的文本實例。這種方法旨在讓LLM學(xué)習(xí)真實數(shù)據(jù)的模式,并在此基礎(chǔ)上生成合成數(shù)據(jù)。
2. 數(shù)據(jù)集選擇:選擇了10個不同的文本分類任務(wù)數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了從低到高不同程度的主觀性,以便研究主觀性對模型性能的影響。
3. 模型訓(xùn)練:使用BERT和RoBERTa預(yù)訓(xùn)練模型作為編碼器,訓(xùn)練分類模型。訓(xùn)練過程中,分別使用真實世界數(shù)據(jù)、零樣本合成數(shù)據(jù)和少樣本合成數(shù)據(jù)。
評估方法:
1. 性能指標:評估模型性能的主要指標是Macro-F1分數(shù)和準確率(Accuracy Score)。這些指標用于衡量模型在測試集上的表現(xiàn),并與金標準標簽進行比較。
2. 主觀性評估:通過眾包研究收集任務(wù)和實例級的主觀性判斷。任務(wù)主觀性通過比較任務(wù)對的客觀性來確定,而實例級主觀性則通過標注人員對文本實例標簽的一致性來衡量(標注一致性)。
3. 數(shù)據(jù)多樣性分析:使用Remote Clique Score和Chamfer Distance Score來量化數(shù)據(jù)集的多樣性,以探索模型性能差異的潛在原因。
4. 實例級性能分析:研究了模型在不同主觀性水平的任務(wù)實例上的性能差異,即通過改變實例級標注人員一致性閾值來觀察模型準確率的變化。
5. 實驗重復(fù)性:為了確保結(jié)果的穩(wěn)健性,所有實驗都進行了多次重復(fù),并報告了平均性能。
3 Conclusion
? 研究結(jié)果表明,分類任務(wù)的主觀性越大(標注一致性也越差),使用LLM生成合成數(shù)據(jù)訓(xùn)練的模型的效果越差,這在任務(wù)級別和實例級別都得到了印證。
圖片
Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data
二、詳細內(nèi)容
1 詳細實驗方案設(shè)置
本文的實驗設(shè)置主要圍繞使用大型語言模型(LLMs)生成合成數(shù)據(jù)以支持文本分類模型的訓(xùn)練。探討了LLM生成的合成數(shù)據(jù)在不同分類任務(wù)中的有效性,并特別關(guān)注了任務(wù)的主觀性如何影響模型性能。以下是實驗的主要設(shè)置:
1. 數(shù)據(jù)生成設(shè)置:
? 零樣本(Zero-shot):在這種設(shè)置下,假設(shè)沒有真實世界的數(shù)據(jù)(即“文本-標簽對”)存在。研究者們構(gòu)建了兩個連續(xù)的提示(prompts),直接提供給預(yù)訓(xùn)練的大型語言模型(如GPT-3.5-Turbo),以生成特定風(fēng)格的文本和標簽。
? 少樣本(Few-shot):在這種設(shè)置下,假設(shè)有少量真實世界數(shù)據(jù)可用于文本分類任務(wù)。這些數(shù)據(jù)點作為例子,指導(dǎo)LLM生成合成數(shù)據(jù)。在生成文本之前,每次都會提供幾個隨機抽樣的真實世界數(shù)據(jù)實例(包括文本和標簽)作為例子。
2. 任務(wù)和數(shù)據(jù)集:
? 實驗涵蓋了10種代表性的數(shù)據(jù)集,覆蓋了各種文本分類任務(wù),如新聞分類、電影評論情感分析、短信垃圾郵件過濾等。這些數(shù)據(jù)集被選中是為了涵蓋廣泛的任務(wù)主觀性。
? 對于每個任務(wù),研究者們使用預(yù)訓(xùn)練的BERT和RoBERTa模型作為編碼器,并使用這些模型最后一層的表示嵌入作為分類模型的輸入。
3. 模型訓(xùn)練和評估:
? 在零樣本和少樣本設(shè)置下,分別生成了3000個合成數(shù)據(jù),用于訓(xùn)練分類模型。
? 三類數(shù)據(jù)訓(xùn)練的模型進行對比:使用真實世界數(shù)據(jù)訓(xùn)練的模型、零樣本設(shè)置下生成的合成數(shù)據(jù)訓(xùn)練的模型以及少樣本設(shè)置下生成的合成數(shù)據(jù)訓(xùn)練的模型進行比較。
? 模型性能通過Macro-F1和準確率(Accuracy)分數(shù)來評估,并與測試集中的金標準標簽進行比較。
4. 主觀性評估:
? 為了確定不同文本分類任務(wù)的主觀性水平,利用眾包收集了人群對任務(wù)主觀性的判斷。
? 通過比較任務(wù)之間的主觀性,構(gòu)建了一個有向圖,并應(yīng)用拓撲排序算法來獲得任務(wù)主觀性的線性排序。
5. 數(shù)據(jù)多樣性分析:
? 為了探索模型性能差異的潛在原因,研究者們對訓(xùn)練數(shù)據(jù)的多樣性進行了探索性分析,使用了遠程小團體得分(Remote Clique Score)和Chamfer距離得分(Chamfer Distance Score)來量化數(shù)據(jù)集的多樣性。
6. 實例級主觀性評估:
? 對于每個任務(wù),研究者們還探討了任務(wù)實例的主觀性如何影響模型性能。通過眾包研究收集了實例級注釋,并計算了每個任務(wù)實例的主觀性水平。
2 實驗結(jié)論
圖片
Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data
1. 數(shù)據(jù)集和任務(wù):表中列出了10個不同的文本分類任務(wù),包括AG新聞、IMDB評論、短信垃圾郵件、金融短語庫、Reddit情緒、推特諷刺、推特情緒、諷刺新聞、幽默演講等。
2. 任務(wù)主觀性:表中通過星號(?)的數(shù)量來表示任務(wù)的主觀性水平,星號越多表示任務(wù)越主觀。
3. 模型性能:對于每個任務(wù),表中展示了使用BERT和RoBERTa模型在真實世界數(shù)據(jù)、零樣本設(shè)置下的合成數(shù)據(jù)和少樣本設(shè)置下的合成數(shù)據(jù)上訓(xùn)練的模型的性能。
4. 性能比較:表中的數(shù)據(jù)展示了在不同數(shù)據(jù)集上,使用合成數(shù)據(jù)訓(xùn)練的模型與使用真實世界數(shù)據(jù)訓(xùn)練的模型之間的性能差異。性能差異以百分比形式表示,負值表示合成數(shù)據(jù)訓(xùn)練的模型性能低于真實數(shù)據(jù)訓(xùn)練的模型。
5. 主要結(jié)論:
? 使用真實世界數(shù)據(jù)訓(xùn)練的模型在幾乎所有任務(wù)上都優(yōu)于使用合成數(shù)據(jù)訓(xùn)練的模型,無論是零樣本還是少樣本設(shè)置。
? 在少樣本設(shè)置下,模型的性能通常優(yōu)于零樣本設(shè)置,這表明使用真實世界數(shù)據(jù)作為例子可以提高合成數(shù)據(jù)的有效性。
? 對于主觀性較低的任務(wù)(如新聞分類、關(guān)系分類、IMDB評論和短信垃圾郵件),合成數(shù)據(jù)訓(xùn)練的模型與真實數(shù)據(jù)訓(xùn)練的模型之間的性能差異相對較小。
? 對于主觀性較高的任務(wù)(如幽默或諷刺檢測),使用合成數(shù)據(jù)訓(xùn)練的模型性能下降更為顯著。
這些結(jié)論表明,任務(wù)的主觀性是影響LLM生成合成數(shù)據(jù)有效性的一個重要因素。對于高度主觀的任務(wù),LLM生成的合成數(shù)據(jù)可能不足以支持有效的模型訓(xùn)練。
3 真實數(shù)據(jù)與合成數(shù)據(jù)的多樣性分析
圖片
Figure 1 在文檔中提供了關(guān)于真實世界數(shù)據(jù)與LLM生成的合成數(shù)據(jù)多樣性的比較。這個比較是通過兩個指標來量化的:Remote Clique Score(遠程小團體得分)和Chamfer Distance Score(Chamfer距離得分)。這兩個指標用于衡量數(shù)據(jù)集中實例之間的多樣性,其中較高的值表示更大的數(shù)據(jù)多樣性。
Remote Clique Score 是數(shù)據(jù)實例到其他實例的平均平均距離,而 Chamfer Distance Score 是數(shù)據(jù)實例到其他實例的平均最小距離。在這兩個指標中,較高的值意味著數(shù)據(jù)實例之間的差異更大,即數(shù)據(jù)集的多樣性更高。
Figure 1 結(jié)論:
1. 數(shù)據(jù)多樣性:真實世界數(shù)據(jù)通常比少樣本設(shè)置下生成的合成數(shù)據(jù)更具多樣性,而少樣本合成數(shù)據(jù)又比零樣本設(shè)置下生成的合成數(shù)據(jù)更具多樣性。
2. 任務(wù)主觀性與數(shù)據(jù)多樣性:在高主觀性任務(wù)(如幽默檢測、諷刺檢測等)中,真實世界數(shù)據(jù)與合成數(shù)據(jù)之間的多樣性差異更為顯著,特別是在Chamfer Distance Score上。這表明對于需要理解復(fù)雜人類情感和語境的任務(wù),LLM可能無法生成能夠覆蓋真實生活場景全貌的數(shù)據(jù)實例。
3. 模型性能與數(shù)據(jù)多樣性:數(shù)據(jù)多樣性的差異可能部分解釋了為什么在真實世界數(shù)據(jù)和少樣本合成數(shù)據(jù)上訓(xùn)練的模型通常優(yōu)于在零樣本合成數(shù)據(jù)上訓(xùn)練的模型。多樣性更高的數(shù)據(jù)集可能有助于模型學(xué)習(xí)到更廣泛的特征和模式,從而提高模型的泛化能力。
4 不同文本分類任務(wù)實例級主觀性的量化評估
圖片
Table 2: The average instance-level annotation agreement for different types of tasks
Table 2 在文檔中提供了不同文本分類任務(wù)實例級主觀性的量化評估,以及這些任務(wù)的平均標注人員的一致性。這些數(shù)據(jù)有助于理解任務(wù)實例的主觀性如何影響模型在這些實例上的性能。表中包含以下內(nèi)容和結(jié)論:
1. 任務(wù)實例級主觀性:表中列出了不同文本分類任務(wù),如AG新聞、關(guān)系分類、IMDB評論等,并提供了每個任務(wù)實例的平均標注人員的一致性(平均同意度 a)和Krippendorff’s α(一種衡量標注人員間一致性的統(tǒng)計量)。
2. 標注人員的一致性:平均同意度 a 和 Krippendorff’s α 的值越高,表示標注人員在給定任務(wù)實例的標簽上達成一致的可能性越大,即任務(wù)實例的主觀性較低。
3. 任務(wù)主觀性水平:表中還提供了任務(wù)的主觀性水平,用星號(?)的數(shù)量表示。星號越多,表示任務(wù)的主觀性越高。
4. 主要結(jié)論:
? 任務(wù)實例的平均標注人員的一致性與Krippendorff’s α值緊密相關(guān),這表明平均同意度 a(標注一致性) 可以作為任務(wù)實例主觀性的合理代理。
? 對于主觀性較高的任務(wù),如幽默檢測和諷刺檢測,標注人員在標簽上的一致性較低,這可能意味著這些任務(wù)的實例更具主觀性,從而對模型訓(xùn)練構(gòu)成挑戰(zhàn)。
? 在同一類型的任務(wù)中,模型在主觀性較低的任務(wù)實例上(即標注人員在這些實例上達成較高一致性的實例)通常表現(xiàn)更好。
這些結(jié)論強調(diào)了任務(wù)實例的主觀性對模型性能的影響,特別是在使用LLM生成的合成數(shù)據(jù)進行訓(xùn)練時。對于高度主觀的任務(wù)實例,即使是在少樣本設(shè)置下,模型的性能也可能受到限制,因為這些實例可能難以通過合成數(shù)據(jù)得到充分的表示。
5 準確率隨標注一致性的變化情況
圖片
Figure 2: Changes in the accuracy of the BERT model trained on zero-shot synthetic data as the instance-level annotation agreement threshold varies
Figure 2 在文檔中展示了BERT模型在零樣本合成數(shù)據(jù)上訓(xùn)練時,模型準確率隨著實例級標注人員一致性閾值(γ)變化的情況。
1. 模型準確率與實例級標注人員一致性:對于大多數(shù)任務(wù)(除了Sarcasm News和Financial Phrasebank數(shù)據(jù)集),模型準確率與實例級標注人員一致性閾值之間存在強烈的單調(diào)遞增關(guān)系。這意味著隨著閾值的增加(即過濾掉更多主觀性較高的任務(wù)實例),模型的準確率通常會提高。
2. 相關(guān)性和擬合度:每個子圖中的實線表示數(shù)據(jù)的線性回歸擬合,R-squared分數(shù)量化了擬合的好壞。Spearman’s ρ評估了實例級標注人員一致性閾值與模型準確率之間的排名相關(guān)性的強度。理想情況下,R-squared和Spearman’s ρ的值接近1,表明實例級主觀性與模型準確率之間存在強烈的單調(diào)關(guān)系。
3. 主要結(jié)論:
? 對于大多數(shù)任務(wù),模型在主觀性較低的任務(wù)實例上表現(xiàn)更好。
? 這種趨勢在真實世界數(shù)據(jù)訓(xùn)練的模型中也存在,但通常比合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)得要弱。這可能意味著合成數(shù)據(jù)可能無法完全捕捉到真實世界數(shù)據(jù)的復(fù)雜性和多樣性。
三、總結(jié)
這篇論文討論了利用LLM生成合成數(shù)據(jù)帶來的潛力以及其在文本分類任務(wù)應(yīng)用中的局限性。研究表明,當涉及到主觀性較高的任務(wù)時,合成數(shù)據(jù)可能不足以支持高性能模型的訓(xùn)練。這項工作對于那些正在利用或計劃使用LLM生成數(shù)據(jù)的研究人員來說非常重要,它提供了對合成數(shù)據(jù)有效性的深入理解,并指導(dǎo)了未來可能需要采取的方向和改進。
結(jié)論:
? 對于低主觀性任務(wù)(標注一致性好),LLM生成的合成數(shù)據(jù)可以有效地支持模型訓(xùn)練。
? 對于高主觀性任務(wù)(標注一致性差),合成數(shù)據(jù)可能不足以支持有效的模型訓(xùn)練。
? 合成數(shù)據(jù)效果不好的關(guān)鍵影響因素在于多樣性比真實數(shù)據(jù)差,few-shot方式可以提高生成樣本的多樣性。
? 任務(wù)主觀性與眾包標注人員的一致性強相關(guān),標注一致性 可以作為任務(wù)實例主觀性的合理表示。
本文轉(zhuǎn)載自微信公眾號「NLP PaperWeekly」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系NLP PaperWeekly公眾號。