EMNLP 2023|利用LLM合成數(shù)據(jù)訓(xùn)練模型有哪些坑?
大家好,我是HxShine
今天我們將介紹EMNLP2023的一篇大模型(LLMs)生成文本分類任務(wù)合成數(shù)據(jù)的文章,標(biāo)題是《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》。
實(shí)際落地中,高質(zhì)量訓(xùn)練數(shù)據(jù)的收集和篩選既耗費(fèi)時(shí)間又成本昂貴,研究人員探索使用LLMs生成合成數(shù)據(jù)作為替代方法。然而,LLMs生成的合成數(shù)據(jù)在支持不同文本分類任務(wù)的模型訓(xùn)練上效果有好有差。本文試圖分析不同因素如何影響LLMs生成合成數(shù)據(jù)的有效性。
這篇論文研究了大型語(yǔ)言模型(LLMs)生成合成數(shù)據(jù)集用于文本分類模型訓(xùn)練的潛力和限制。 分析發(fā)現(xiàn),任務(wù)的主觀性(標(biāo)注一致性越差)越高,利用合成數(shù)據(jù)來訓(xùn)練模型效果也越差。另外合成數(shù)據(jù)效果好不好的關(guān)鍵影響因素在于生成數(shù)據(jù)的多樣性如何,few-shot方式可以提高生成樣本的多樣性,通過few-shot方式生成的樣本效果也一般優(yōu)于zero-shot的樣本。
?Title: Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations
?Url: ?? https://arxiv.org/abs/2310.07849??
?Authors: Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin
大家好,我是HxShine
今天我們將介紹EMNLP2023的一篇大模型(LLMs)生成文本分類任務(wù)合成數(shù)據(jù)的文章,標(biāo)題是《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》。
實(shí)際落地中,高質(zhì)量訓(xùn)練數(shù)據(jù)的收集和篩選既耗費(fèi)時(shí)間又成本昂貴,研究人員探索使用LLMs生成合成數(shù)據(jù)作為替代方法。然而,LLMs生成的合成數(shù)據(jù)在支持不同文本分類任務(wù)的模型訓(xùn)練上效果有好有差。本文試圖分析不同因素如何影響LLMs生成合成數(shù)據(jù)的有效性。
這篇論文研究了大型語(yǔ)言模型(LLMs)生成合成數(shù)據(jù)集用于文本分類模型訓(xùn)練的潛力和限制。 分析發(fā)現(xiàn),任務(wù)的主觀性(標(biāo)注一致性越差)越高,利用合成數(shù)據(jù)來訓(xùn)練模型效果也越差。另外合成數(shù)據(jù)效果好不好的關(guān)鍵影響因素在于生成數(shù)據(jù)的多樣性如何,few-shot方式可以提高生成樣本的多樣性,通過few-shot方式生成的樣本效果也一般優(yōu)于zero-shot的樣本。
?Title:Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations
?Url: ?? https://arxiv.org/abs/2310.07849??
?Authors:Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin
1 Motivation
- ?利用LLM生成訓(xùn)練數(shù)據(jù)(例如文本分類數(shù)據(jù))是否有效?效果的影響因素有哪些?
- ? 這項(xiàng)研究旨在探討大型語(yǔ)言模型生成合成數(shù)據(jù)對(duì)文本分類模型訓(xùn)練的有效性及其在不同任務(wù)中的表現(xiàn)差異性。
- ? 作者們尤其關(guān)注分類任務(wù)的主觀性如何影響基于合成數(shù)據(jù)訓(xùn)練的模型的性能。
背景:研究者最近探索了使用大型語(yǔ)言模型(LLMs)生成合成數(shù)據(jù)集作為一種替代方法。然而在不同的分類任務(wù)中,LLM生成的合成數(shù)據(jù)在支持模型訓(xùn)練方面的有效性并不一致。
2 Methods
方法:論文通過采用兩種數(shù)據(jù)生成策略,10個(gè)文本分類任務(wù)數(shù)據(jù)集,利用BERT和RoBERTa作為基座模型,在多個(gè)角度對(duì)生成的數(shù)據(jù)進(jìn)行了分析,從而推導(dǎo)出關(guān)于LLMs在合成數(shù)據(jù)生成中的潛力和局限性,最后通過對(duì)比分析得到了合成數(shù)據(jù)在模型訓(xùn)練中的表現(xiàn)與任務(wù)和實(shí)例的主觀性負(fù)相關(guān)(標(biāo)注一致性越低、主觀性越高)的結(jié)論。
實(shí)驗(yàn)和評(píng)估方法總結(jié):
實(shí)驗(yàn)方法:
1.數(shù)據(jù)生成:
?零樣本(Zero-shot):在沒有真實(shí)世界數(shù)據(jù)的情況下,使用LLM直接生成文本實(shí)例。這涉及到構(gòu)建上下文提示來設(shè)定生成環(huán)境,然后提供數(shù)據(jù)生成提示來指導(dǎo)LLM生成具有特定標(biāo)簽的文本。
?少樣本(Few-shot):在有少量真實(shí)世界數(shù)據(jù)的情況下,這些數(shù)據(jù)作為例子指導(dǎo)LLM生成新的文本實(shí)例。這種方法旨在讓LLM學(xué)習(xí)真實(shí)數(shù)據(jù)的模式,并在此基礎(chǔ)上生成合成數(shù)據(jù)。
2.數(shù)據(jù)集選擇:選擇了10個(gè)不同的文本分類任務(wù)數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了從低到高不同程度的主觀性,以便研究主觀性對(duì)模型性能的影響。
3.模型訓(xùn)練:使用BERT和RoBERTa預(yù)訓(xùn)練模型作為編碼器,訓(xùn)練分類模型。訓(xùn)練過程中,分別使用真實(shí)世界數(shù)據(jù)、零樣本合成數(shù)據(jù)和少樣本合成數(shù)據(jù)。
評(píng)估方法:
1.性能指標(biāo):評(píng)估模型性能的主要指標(biāo)是Macro-F1分?jǐn)?shù)和準(zhǔn)確率(Accuracy Score)。這些指標(biāo)用于衡量模型在測(cè)試集上的表現(xiàn),并與金標(biāo)準(zhǔn)標(biāo)簽進(jìn)行比較。
2.主觀性評(píng)估:通過眾包研究收集任務(wù)和實(shí)例級(jí)的主觀性判斷。任務(wù)主觀性通過比較任務(wù)對(duì)的客觀性來確定,而實(shí)例級(jí)主觀性則通過標(biāo)注人員對(duì)文本實(shí)例標(biāo)簽的一致性來衡量(標(biāo)注一致性)。
3.數(shù)據(jù)多樣性分析:使用Remote Clique Score和Chamfer Distance Score來量化數(shù)據(jù)集的多樣性,以探索模型性能差異的潛在原因。
4.實(shí)例級(jí)性能分析:研究了模型在不同主觀性水平的任務(wù)實(shí)例上的性能差異,即通過改變實(shí)例級(jí)標(biāo)注人員一致性閾值來觀察模型準(zhǔn)確率的變化。
5.實(shí)驗(yàn)重復(fù)性:為了確保結(jié)果的穩(wěn)健性,所有實(shí)驗(yàn)都進(jìn)行了多次重復(fù),并報(bào)告了平均性能。
3 Conclusion
? 研究結(jié)果表明,分類任務(wù)的主觀性越大(標(biāo)注一致性也越差),使用LLM生成合成數(shù)據(jù)訓(xùn)練的模型的效果越差,這在任務(wù)級(jí)別和實(shí)例級(jí)別都得到了印證。
Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data
二、詳細(xì)內(nèi)容
1 詳細(xì)實(shí)驗(yàn)方案設(shè)置
本文的實(shí)驗(yàn)設(shè)置主要圍繞使用大型語(yǔ)言模型(LLMs)生成合成數(shù)據(jù)以支持文本分類模型的訓(xùn)練。探討了LLM生成的合成數(shù)據(jù)在不同分類任務(wù)中的有效性,并特別關(guān)注了任務(wù)的主觀性如何影響模型性能。以下是實(shí)驗(yàn)的主要設(shè)置:
1.數(shù)據(jù)生成設(shè)置:
?零樣本(Zero-shot):在這種設(shè)置下,假設(shè)沒有真實(shí)世界的數(shù)據(jù)(即“文本-標(biāo)簽對(duì)”)存在。研究者們構(gòu)建了兩個(gè)連續(xù)的提示(prompts),直接提供給預(yù)訓(xùn)練的大型語(yǔ)言模型(如GPT-3.5-Turbo),以生成特定風(fēng)格的文本和標(biāo)簽。
?少樣本(Few-shot):在這種設(shè)置下,假設(shè)有少量真實(shí)世界數(shù)據(jù)可用于文本分類任務(wù)。這些數(shù)據(jù)點(diǎn)作為例子,指導(dǎo)LLM生成合成數(shù)據(jù)。在生成文本之前,每次都會(huì)提供幾個(gè)隨機(jī)抽樣的真實(shí)世界數(shù)據(jù)實(shí)例(包括文本和標(biāo)簽)作為例子。
2.任務(wù)和數(shù)據(jù)集:
? 實(shí)驗(yàn)涵蓋了10種代表性的數(shù)據(jù)集,覆蓋了各種文本分類任務(wù),如新聞分類、電影評(píng)論情感分析、短信垃圾郵件過濾等。這些數(shù)據(jù)集被選中是為了涵蓋廣泛的任務(wù)主觀性。
? 對(duì)于每個(gè)任務(wù),研究者們使用預(yù)訓(xùn)練的BERT和RoBERTa模型作為編碼器,并使用這些模型最后一層的表示嵌入作為分類模型的輸入。
3.模型訓(xùn)練和評(píng)估:
? 在零樣本和少樣本設(shè)置下,分別生成了3000個(gè)合成數(shù)據(jù),用于訓(xùn)練分類模型。
?三類數(shù)據(jù)訓(xùn)練的模型進(jìn)行對(duì)比:使用真實(shí)世界數(shù)據(jù)訓(xùn)練的模型、零樣本設(shè)置下生成的合成數(shù)據(jù)訓(xùn)練的模型以及少樣本設(shè)置下生成的合成數(shù)據(jù)訓(xùn)練的模型進(jìn)行比較。
? 模型性能通過Macro-F1和準(zhǔn)確率(Accuracy)分?jǐn)?shù)來評(píng)估,并與測(cè)試集中的金標(biāo)準(zhǔn)標(biāo)簽進(jìn)行比較。
4.主觀性評(píng)估:
? 為了確定不同文本分類任務(wù)的主觀性水平,利用眾包收集了人群對(duì)任務(wù)主觀性的判斷。
? 通過比較任務(wù)之間的主觀性,構(gòu)建了一個(gè)有向圖,并應(yīng)用拓?fù)渑判蛩惴▉慝@得任務(wù)主觀性的線性排序。
5.數(shù)據(jù)多樣性分析:
? 為了探索模型性能差異的潛在原因,研究者們對(duì)訓(xùn)練數(shù)據(jù)的多樣性進(jìn)行了探索性分析,使用了遠(yuǎn)程小團(tuán)體得分(Remote Clique Score)和Chamfer距離得分(Chamfer Distance Score)來量化數(shù)據(jù)集的多樣性。
6.實(shí)例級(jí)主觀性評(píng)估:
? 對(duì)于每個(gè)任務(wù),研究者們還探討了任務(wù)實(shí)例的主觀性如何影響模型性能。通過眾包研究收集了實(shí)例級(jí)注釋,并計(jì)算了每個(gè)任務(wù)實(shí)例的主觀性水平。
2 實(shí)驗(yàn)結(jié)論
Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data
1.數(shù)據(jù)集和任務(wù):表中列出了10個(gè)不同的文本分類任務(wù),包括AG新聞、IMDB評(píng)論、短信垃圾郵件、金融短語(yǔ)庫(kù)、Reddit情緒、推特諷刺、推特情緒、諷刺新聞、幽默演講等。
2.任務(wù)主觀性:表中通過星號(hào)(?)的數(shù)量來表示任務(wù)的主觀性水平,星號(hào)越多表示任務(wù)越主觀。
3.模型性能:對(duì)于每個(gè)任務(wù),表中展示了使用BERT和RoBERTa模型在真實(shí)世界數(shù)據(jù)、零樣本設(shè)置下的合成數(shù)據(jù)和少樣本設(shè)置下的合成數(shù)據(jù)上訓(xùn)練的模型的性能。
4.性能比較:表中的數(shù)據(jù)展示了在不同數(shù)據(jù)集上,使用合成數(shù)據(jù)訓(xùn)練的模型與使用真實(shí)世界數(shù)據(jù)訓(xùn)練的模型之間的性能差異。性能差異以百分比形式表示,負(fù)值表示合成數(shù)據(jù)訓(xùn)練的模型性能低于真實(shí)數(shù)據(jù)訓(xùn)練的模型。
5.主要結(jié)論:
?使用真實(shí)世界數(shù)據(jù)訓(xùn)練的模型在幾乎所有任務(wù)上都優(yōu)于使用合成數(shù)據(jù)訓(xùn)練的模型,無論是零樣本還是少樣本設(shè)置。
? 在少樣本設(shè)置下,模型的性能通常優(yōu)于零樣本設(shè)置,這表明使用真實(shí)世界數(shù)據(jù)作為例子可以提高合成數(shù)據(jù)的有效性。
? 對(duì)于主觀性較低的任務(wù)(如新聞分類、關(guān)系分類、IMDB評(píng)論和短信垃圾郵件),合成數(shù)據(jù)訓(xùn)練的模型與真實(shí)數(shù)據(jù)訓(xùn)練的模型之間的性能差異相對(duì)較小。
? 對(duì)于主觀性較高的任務(wù)(如幽默或諷刺檢測(cè)),使用合成數(shù)據(jù)訓(xùn)練的模型性能下降更為顯著。
這些結(jié)論表明,任務(wù)的主觀性是影響LLM生成合成數(shù)據(jù)有效性的一個(gè)重要因素。對(duì)于高度主觀的任務(wù),LLM生成的合成數(shù)據(jù)可能不足以支持有效的模型訓(xùn)練。
3 真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的多樣性分析
Figure 1 在文檔中提供了關(guān)于真實(shí)世界數(shù)據(jù)與LLM生成的合成數(shù)據(jù)多樣性的比較。這個(gè)比較是通過兩個(gè)指標(biāo)來量化的:Remote Clique Score(遠(yuǎn)程小團(tuán)體得分)和Chamfer Distance Score(Chamfer距離得分)。這兩個(gè)指標(biāo)用于衡量數(shù)據(jù)集中實(shí)例之間的多樣性,其中較高的值表示更大的數(shù)據(jù)多樣性。
Remote Clique Score 是數(shù)據(jù)實(shí)例到其他實(shí)例的平均平均距離,而 Chamfer Distance Score 是數(shù)據(jù)實(shí)例到其他實(shí)例的平均最小距離。在這兩個(gè)指標(biāo)中,較高的值意味著數(shù)據(jù)實(shí)例之間的差異更大,即數(shù)據(jù)集的多樣性更高。
Figure 1 結(jié)論:
1.數(shù)據(jù)多樣性:真實(shí)世界數(shù)據(jù)通常比少樣本設(shè)置下生成的合成數(shù)據(jù)更具多樣性,而少樣本合成數(shù)據(jù)又比零樣本設(shè)置下生成的合成數(shù)據(jù)更具多樣性。
2.任務(wù)主觀性與數(shù)據(jù)多樣性:在高主觀性任務(wù)(如幽默檢測(cè)、諷刺檢測(cè)等)中,真實(shí)世界數(shù)據(jù)與合成數(shù)據(jù)之間的多樣性差異更為顯著,特別是在Chamfer Distance Score上。這表明對(duì)于需要理解復(fù)雜人類情感和語(yǔ)境的任務(wù),LLM可能無法生成能夠覆蓋真實(shí)生活場(chǎng)景全貌的數(shù)據(jù)實(shí)例。
3.模型性能與數(shù)據(jù)多樣性:數(shù)據(jù)多樣性的差異可能部分解釋了為什么在真實(shí)世界數(shù)據(jù)和少樣本合成數(shù)據(jù)上訓(xùn)練的模型通常優(yōu)于在零樣本合成數(shù)據(jù)上訓(xùn)練的模型。多樣性更高的數(shù)據(jù)集可能有助于模型學(xué)習(xí)到更廣泛的特征和模式,從而提高模型的泛化能力。
4 不同文本分類任務(wù)實(shí)例級(jí)主觀性的量化評(píng)估
Table 2: The average instance-level annotation agreement for different types of tasks
Table 2 在文檔中提供了不同文本分類任務(wù)實(shí)例級(jí)主觀性的量化評(píng)估,以及這些任務(wù)的平均標(biāo)注人員的一致性。這些數(shù)據(jù)有助于理解任務(wù)實(shí)例的主觀性如何影響模型在這些實(shí)例上的性能。表中包含以下內(nèi)容和結(jié)論:
1.任務(wù)實(shí)例級(jí)主觀性:表中列出了不同文本分類任務(wù),如AG新聞、關(guān)系分類、IMDB評(píng)論等,并提供了每個(gè)任務(wù)實(shí)例的平均標(biāo)注人員的一致性(平均同意度 a)和Krippendorff’s α(一種衡量標(biāo)注人員間一致性的統(tǒng)計(jì)量)。
2.標(biāo)注人員的一致性:平均同意度 a 和 Krippendorff’s α 的值越高,表示標(biāo)注人員在給定任務(wù)實(shí)例的標(biāo)簽上達(dá)成一致的可能性越大,即任務(wù)實(shí)例的主觀性較低。
3.任務(wù)主觀性水平:表中還提供了任務(wù)的主觀性水平,用星號(hào)(?)的數(shù)量表示。星號(hào)越多,表示任務(wù)的主觀性越高。
4.主要結(jié)論:
?任務(wù)實(shí)例的平均標(biāo)注人員的一致性與Krippendorff’s α值緊密相關(guān),這表明平均同意度 a(標(biāo)注一致性) 可以作為任務(wù)實(shí)例主觀性的合理代理。
?對(duì)于主觀性較高的任務(wù),如幽默檢測(cè)和諷刺檢測(cè),標(biāo)注人員在標(biāo)簽上的一致性較低,這可能意味著這些任務(wù)的實(shí)例更具主觀性,從而對(duì)模型訓(xùn)練構(gòu)成挑戰(zhàn)。
?在同一類型的任務(wù)中,模型在主觀性較低的任務(wù)實(shí)例上(即標(biāo)注人員在這些實(shí)例上達(dá)成較高一致性的實(shí)例)通常表現(xiàn)更好。
這些結(jié)論強(qiáng)調(diào)了任務(wù)實(shí)例的主觀性對(duì)模型性能的影響,特別是在使用LLM生成的合成數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)。對(duì)于高度主觀的任務(wù)實(shí)例,即使是在少樣本設(shè)置下,模型的性能也可能受到限制,因?yàn)檫@些實(shí)例可能難以通過合成數(shù)據(jù)得到充分的表示。
5 準(zhǔn)確率隨標(biāo)注一致性的變化情況
Figure 2: Changes in the accuracy of the BERT model trained on zero-shot synthetic data as the instance-level annotation agreement threshold varies
Figure 2 在文檔中展示了BERT模型在零樣本合成數(shù)據(jù)上訓(xùn)練時(shí),模型準(zhǔn)確率隨著實(shí)例級(jí)標(biāo)注人員一致性閾值(γ)變化的情況。
1.模型準(zhǔn)確率與實(shí)例級(jí)標(biāo)注人員一致性:對(duì)于大多數(shù)任務(wù)(除了Sarcasm News和Financial Phrasebank數(shù)據(jù)集),模型準(zhǔn)確率與實(shí)例級(jí)標(biāo)注人員一致性閾值之間存在強(qiáng)烈的單調(diào)遞增關(guān)系。這意味著隨著閾值的增加(即過濾掉更多主觀性較高的任務(wù)實(shí)例),模型的準(zhǔn)確率通常會(huì)提高。
2.相關(guān)性和擬合度:每個(gè)子圖中的實(shí)線表示數(shù)據(jù)的線性回歸擬合,R-squared分?jǐn)?shù)量化了擬合的好壞。Spearman’s ρ評(píng)估了實(shí)例級(jí)標(biāo)注人員一致性閾值與模型準(zhǔn)確率之間的排名相關(guān)性的強(qiáng)度。理想情況下,R-squared和Spearman’s ρ的值接近1,表明實(shí)例級(jí)主觀性與模型準(zhǔn)確率之間存在強(qiáng)烈的單調(diào)關(guān)系。
3.主要結(jié)論:
?對(duì)于大多數(shù)任務(wù),模型在主觀性較低的任務(wù)實(shí)例上表現(xiàn)更好。
? 這種趨勢(shì)在真實(shí)世界數(shù)據(jù)訓(xùn)練的模型中也存在,但通常比合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)得要弱。這可能意味著合成數(shù)據(jù)可能無法完全捕捉到真實(shí)世界數(shù)據(jù)的復(fù)雜性和多樣性。
三、總結(jié)
這篇論文討論了利用LLM生成合成數(shù)據(jù)帶來的潛力以及其在文本分類任務(wù)應(yīng)用中的局限性。研究表明,當(dāng)涉及到主觀性較高的任務(wù)時(shí),合成數(shù)據(jù)可能不足以支持高性能模型的訓(xùn)練。這項(xiàng)工作對(duì)于那些正在利用或計(jì)劃使用LLM生成數(shù)據(jù)的研究人員來說非常重要,它提供了對(duì)合成數(shù)據(jù)有效性的深入理解,并指導(dǎo)了未來可能需要采取的方向和改進(jìn)。
結(jié)論:
?對(duì)于低主觀性任務(wù)(標(biāo)注一致性好),LLM生成的合成數(shù)據(jù)可以有效地支持模型訓(xùn)練。
?對(duì)于高主觀性任務(wù)(標(biāo)注一致性差),合成數(shù)據(jù)可能不足以支持有效的模型訓(xùn)練。
?合成數(shù)據(jù)效果不好的關(guān)鍵影響因素在于多樣性比真實(shí)數(shù)據(jù)差,few-shot方式可以提高生成樣本的多樣性。
?任務(wù)主觀性與眾包標(biāo)注人員的一致性強(qiáng)相關(guān),標(biāo)注一致性 可以作為任務(wù)實(shí)例主觀性的合理表示。
本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者:NLP PaperWeekly
