自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型

發(fā)布于 2024-6-18 12:26
瀏覽
0收藏

一、概述

Title: PromptMix: A Class Boundary Augmentation Method for Large Language Model Distillation 

URL: ??https://arxiv.org/abs/2310.14192??

代碼:??https://github.com/servicenow/promptmix-emnlp-2023??

Authors: Gaurav Sahu, Olga Vechtomova, Dzmitry Bahdanau, Issam H. Laradji

1 Motivation

? 利用大型語(yǔ)言模型如GPT3生成新示例以解決文本分類(lèi)訓(xùn)練數(shù)據(jù)不足的問(wèn)題。

? LLM推理成本比較高、DistiBERTbase和BERTbase等模型受限于訓(xùn)練數(shù)據(jù)不足問(wèn)題,如何將LLM的知識(shí)有效轉(zhuǎn)移到SLM上是一個(gè)工業(yè)界值得嘗試的問(wèn)題。

2 Methods

省流版總結(jié):

論文通過(guò)提出PromptMix方法來(lái)解決提出的問(wèn)題,該方法包括兩個(gè)步驟:

1. 生成靠近類(lèi)別邊界的挑戰(zhàn)性文本增強(qiáng)(但這樣做增加了數(shù)據(jù)集中出現(xiàn)誤標(biāo)的風(fēng)險(xiǎn));

2. 使用基于提示的大型語(yǔ)言模型分類(lèi)器對(duì)文本增強(qiáng)進(jìn)行重新標(biāo)注,增強(qiáng)生成數(shù)據(jù)的標(biāo)簽準(zhǔn)確性。

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)

Figure 1: PromptMix focuses on generating exam- ples near the class boundary of two classes

詳細(xì)方法和步驟:

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


步驟一:挑戰(zhàn)性文本增強(qiáng)生成: 根據(jù)已有的分類(lèi)數(shù)據(jù),在類(lèi)別邊界附近生成新的例子,從而提高模型面對(duì)邊界情況的識(shí)別能力。

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


prompt分為三個(gè)部分,Instruct,Part1: 每個(gè)類(lèi)別簡(jiǎn)要的概述。part2: 對(duì)于每一個(gè)類(lèi)別$$C_{i}$$,隨機(jī)選擇一個(gè)$$C_j$$,按一定混合比例生成兩者的難樣本數(shù)據(jù)。

注意:生成結(jié)果中,有些分類(lèi)是錯(cuò)的、有些結(jié)果是對(duì)的,需要進(jìn)一步優(yōu)化生成的Example。

步驟二:基于提示的LLM分類(lèi)器重標(biāo)記: 由于在類(lèi)別邊界附近生成的文本增強(qiáng)可能會(huì)增加假陽(yáng)性的風(fēng)險(xiǎn),所以使用基于提示的LLM分類(lèi)器對(duì)這些數(shù)據(jù)進(jìn)行重新標(biāo)記,以保證生成數(shù)據(jù)的標(biāo)簽準(zhǔn)確性。

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


3 Conclusion

? PromptMix通過(guò)生成有挑戰(zhàn)性樣本和Relabeling策略,可以有效將如GPT3.5-turbo這樣的大型LLM轉(zhuǎn)移到更小、更便宜的分類(lèi)器,如DistilBERT和BERT。

? 在Banking77、TREC6、Subjectivity和Twitter Complaints四個(gè)文本分類(lèi)數(shù)據(jù)集中,2-shot PromptMix在多個(gè)5-shot數(shù)據(jù)增強(qiáng)方法上表現(xiàn)更佳。

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)

二、詳細(xì)內(nèi)容

1 Mixup的效果

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


結(jié)論:Mixup能有效的將兩個(gè)類(lèi)別的信息進(jìn)行混合,從而提升最終難樣本的分類(lèi)效果。

2 測(cè)試精度&消融實(shí)驗(yàn)

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


展示了在四個(gè)不同的文本分類(lèi)數(shù)據(jù)集(Banking77、TREC6、SUBJ和Twitter Complaints)上,使用不同方法進(jìn)行數(shù)據(jù)增強(qiáng)后的測(cè)試分類(lèi)準(zhǔn)確率。這些方法包括基線(Baseline)、NN+GPT3.5、Sahu等人的方法(Sahu et al. (2022))、PromptMix及其變體(包括有無(wú)Mixup的PromptMix)、Easy Data Augmentation (EDA)、GPT3Mix等。表格中還包含了使用GPT3.5-turbo生成的句子在重新標(biāo)記(Relabeling)前后的變化,以及在不同方法下GPT3.5-turbo重新標(biāo)記生成示例的百分比。

說(shuō)明:

  1. 1.Baseline:這是基線模型,它使用每個(gè)類(lèi)別只有2個(gè)訓(xùn)練樣本的原始數(shù)據(jù)集進(jìn)行訓(xùn)練。這是為了展示在數(shù)據(jù)稀缺情況下,其他數(shù)據(jù)增強(qiáng)方法相對(duì)于基線的性能提升。
  2. 2.NN+GPT3.5:這是一種使用最近鄰(Nearest Neighbor)方法和GPT3.5模型的組合。在這種方法中,GPT3.5被用來(lái)對(duì)測(cè)試集的例子進(jìn)行分類(lèi)。

結(jié)論:

  • 數(shù)據(jù)增強(qiáng)的有效性:在所有四個(gè)數(shù)據(jù)集上,使用數(shù)據(jù)增強(qiáng)方法(如EDA和PromptMix)的模型在測(cè)試分類(lèi)準(zhǔn)確率上顯著優(yōu)于基線(2-shot)模型。這表明在數(shù)據(jù)稀缺的情況下,數(shù)據(jù)增強(qiáng)是有幫助的。
  • Relabel的重要性:通過(guò)比較A1(在第一步數(shù)據(jù)增強(qiáng)后)和A2(在第二步數(shù)據(jù)增強(qiáng)并重新標(biāo)記后)的準(zhǔn)確率,可以看出重新標(biāo)記步驟顯著提高了模型性能。這表明PromptMix方法中的重新標(biāo)記步驟對(duì)于提高生成數(shù)據(jù)的質(zhì)量至關(guān)重要。
  • PromptMix方法的優(yōu)勢(shì):PromptMix方法在所有數(shù)據(jù)集上都取得了很高的準(zhǔn)確率,尤其是在B77和SUBJ數(shù)據(jù)集上,其性能與NN+GPT3.5相當(dāng),甚至在某些情況下超過(guò)了NN+GPT3.5。這表明PromptMix是一個(gè)有效的數(shù)據(jù)增強(qiáng)方法,尤其是在極端的少樣本(2-shot)文本分類(lèi)設(shè)置中。

3 Relabeling的效果

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


生成的數(shù)據(jù)由于使用Mixup混合策略,很容易產(chǎn)生badcase,利用Relabeling策略可以對(duì)這些標(biāo)簽進(jìn)行修正,實(shí)驗(yàn)看出這一步帶來(lái)效果的提升也非常大。

4 LLM基座對(duì)數(shù)據(jù)增強(qiáng)的影響

EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型-AI.x社區(qū)


結(jié)論:基座模型能力越強(qiáng),數(shù)據(jù)增強(qiáng)帶來(lái)的效果越好,一方面是生成的質(zhì)量越高帶來(lái)的,另一方面Relabling階段,LLM效果越好,也可能分的更準(zhǔn)。

三、總結(jié)

這篇論文介紹了PromptMix,一種新穎的類(lèi)邊界數(shù)據(jù)增強(qiáng)方法,用于在訓(xùn)練數(shù)據(jù)有限的情況下提高大型語(yǔ)言模型的文本分類(lèi)效果。該方法通過(guò)生成挑戰(zhàn)性文本并結(jié)合Relabeling策略,生成類(lèi)別精確的難樣本,以便更好地遷移大型模型(如GPT3.5-turbo)的知識(shí)到更小、更經(jīng)濟(jì)高效的分類(lèi)器(如DistilBERT和BERTbase)。論文的實(shí)驗(yàn)表明,PromptMix在2-shot場(chǎng)景中的效果優(yōu)于多個(gè)5-shot數(shù)據(jù)增強(qiáng)方法。

結(jié)論1: PromptMix通過(guò)生成有挑戰(zhàn)性樣本和Relabeling策略可以有效將LLM知識(shí)遷移到小模型。 該方法通過(guò)生成接近類(lèi)別邊界的增強(qiáng)數(shù)據(jù),然后使用LLM進(jìn)行精準(zhǔn)的Relabeling,有效提升了few-shot場(chǎng)景小模型的效果,可以大量降低人工的標(biāo)注成本。 結(jié)論2: PromptMix為文本分類(lèi)領(lǐng)域提供了一種新的數(shù)據(jù)增強(qiáng)策略。 本文所提出的方法在處理少量訓(xùn)練數(shù)據(jù)的情況下,為提升分類(lèi)器的性能提供了新的思路和方案。這意味著我們用少量樣本就可以訓(xùn)練處一個(gè)效果非常不錯(cuò)的分類(lèi)模型,在工業(yè)界可能有著比較大的應(yīng)用空間。

結(jié)論3: Relabeling策略可以帶來(lái)非常大的效果提升。 說(shuō)明直接用LLM生成樣本效果不一定好,還需要進(jìn)一步的處理策略,例如使用本文提到的Relabing策略,再利用LLM對(duì)增強(qiáng)的數(shù)據(jù)進(jìn)行優(yōu)化,從而整體上提升數(shù)據(jù)增強(qiáng)的質(zhì)量。

本文轉(zhuǎn)載自?? NLP PaperWeekly??,作者: NLP PaperWeekly

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦