自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

新聞 前端
數(shù)據(jù)增強技術(shù)已經(jīng)是CV領(lǐng)域的標配,比如對圖像的旋轉(zhuǎn)、鏡像、高斯白噪聲等等。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

數(shù)據(jù)增強技術(shù)已經(jīng)是CV領(lǐng)域的標配,比如對圖像的旋轉(zhuǎn)、鏡像、高斯白噪聲等等。

但在NLP領(lǐng)域,針對文本的數(shù)據(jù)增強,卻是不那么多見。

于是,就有一位機器學習T型工程師,在現(xiàn)有的文獻中,匯總一些NLP數(shù)據(jù)增強技術(shù)。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

妥妥干貨,在此放送。

文本替代

文本替代主要是針對在不改變句子含義的情況下,替換文本中的單詞,比如,同義詞替換、詞嵌入替換等等。

接著,我們就來好好介紹一下。

同義詞替換

顧名思義,就是在文本中隨機抽取一個單詞,然后再同義詞庫里將其替換為同義詞。

比如,使用WordNet數(shù)據(jù)庫,將「awesome」替換為「amazing」。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

這個技術(shù)比較常見,在以往的論文中有很多都使用了這個技術(shù),比如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

論文鏈接:
https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

論文鏈接:
https://arxiv.org/abs/1901.11196

要實現(xiàn)這項技術(shù),可通過NLTK對WordNet進行訪問,還可以使用TextBlob API。

此外,還有一個PPDB數(shù)據(jù)庫,包含著百萬個單詞的詞庫。

詞嵌入替換

這種方法是,采取已經(jīng)預訓練好的單詞嵌入,如Word2Vec、GloVe、FastText、Sent2Vec等,并將嵌入空間中最近的鄰接詞作為句子中某些單詞的替換。

比如:

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

這樣,就可以將單詞替換成臨近的3個單詞,獲得文本的3種變體形式。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

掩碼語言模型(MLM)

類似于BERT、ROBERTA、ALBERT,Transformer模型已經(jīng)在大量的文本訓練過,使用掩碼語言模型的前置任務(wù)。

在這個任務(wù)中,模型必須依照上下文來預測掩碼的單詞。此外,還可以利用這一點,對文本進行擴容。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

跟之前的方法相比,生成的文本在語法上會更加連貫。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

但是,需要注意的是,決定掩蓋哪一個單詞并非易事,它決定了效果的最終呈現(xiàn)。

基于TF-IDF的單詞替換

這一方法最初是出現(xiàn)在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

論文鏈接:
https://arxiv.org/abs/1904.12848

基本思路在于TF-IDF得分低的單詞是沒有信息量的的詞,因此可以替換,而不影響句子的原本含義。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

通過計算整個文檔中單詞的 TF - IDF得分并取最低得分來選擇替換原始單詞的單詞。

反向翻譯

反向翻譯,就是先將句子翻譯成另一種語言,比如,英語翻譯成法語。

然后再翻譯回原來的語言,也就是將法語翻譯回英語。

檢查兩個句子之間的不同之處,由此將新的句子作為增強文本。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

還可以一次使用多種語言進行反向翻譯,產(chǎn)生更多的變體。

比如,除了法語以外,再將其翻譯為漢語和意大利語。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

要實現(xiàn)反向翻譯,可以使用TextBlob。另外,還可以使用Google Sheets,說明書已附文末。

文本形式轉(zhuǎn)換

這一方法主要是利用正則表達式應用的的簡單模式匹配轉(zhuǎn)換,在Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有詳細介紹。

論文鏈接:
https://arxiv.org/abs/1812.04718

舉個簡單的例子,將原本形式轉(zhuǎn)換為縮寫,反之亦然。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

但是也會出現(xiàn)一些歧義,比如:

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

在此,選擇允許歧義的收縮,但不允許擴展。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

Python的收縮庫已附文末。

隨機噪聲注入

顧名思義,也就是在文本中注入噪聲,來訓練模型對擾動的魯棒性。

比如,拼寫錯誤。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

句子改組。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

空白噪聲。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

隨機插入。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

隨機交換。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

隨機刪除。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

語法樹

這一方法也出現(xiàn)在了Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

論文鏈接:
https://arxiv.org/abs/1812.04718

其思路是解析并生成原句的從屬樹,利用規(guī)則進行轉(zhuǎn)換,生成新句子。

比如,將句子的主動語氣轉(zhuǎn)換為被動語氣,反之亦然。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

文本混合

這項技術(shù)的想法源于一項名為“Mixup”的圖像增強技術(shù)。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

Guo et al.在此基礎(chǔ)上進行了修改,將其應用到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

論文鏈接:
https://arxiv.org/abs/1905.08941

主要有兩種方法。

wordMixup

這個方法在于,抽取兩個隨機的句子,將它們進行零填充,使其長度相同。然后,按一定比例組合在一起。

所得到的單詞嵌入通過CNN/LSTM編碼器傳遞到句子嵌入中,隨后計算交叉熵損失。

集合啦,NLP數(shù)據(jù)增強技術(shù)!超全資源匯總

sentMixup

可以看到這一方法,與上述方法類似,只不過在具體步驟上有所調(diào)整。

好了,NLP的數(shù)據(jù)增強技術(shù)就介紹到這里,希望能夠?qū)δ阌兴鶐椭?/p>

傳送門

博客地址:
https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet數(shù)據(jù)集:
https://www.nltk.org/howto/wordnet.html

TextBlob API:https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB數(shù)據(jù)集:http://paraphrase.org/#/download

YF-IDF代碼:
https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

使用Google Sheets實現(xiàn)反向翻譯:
https://amitness.com/2020/02/back-translation-in-google-sheets/

Python收縮庫:
https://github.com/kootenpv/contractions

 

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-14 08:04:15

2011-06-30 10:12:57

安全資源技術(shù)差距安全從業(yè)人員

2024-07-29 08:09:36

BERT大型語言模型LLM

2022-08-11 22:10:38

云安全資源池安全工具集

2021-02-20 10:36:20

工控安全ICS網(wǎng)絡(luò)攻擊

2022-08-01 11:08:35

自動駕駛數(shù)據(jù)

2013-02-25 14:13:20

2011-04-22 10:53:13

Unix哲學

2023-10-09 07:57:14

JavaJCF

2012-04-06 10:13:08

SQLSQL Server

2022-10-25 16:36:03

機器學習深度學習數(shù)據(jù)集

2019-05-14 09:30:36

數(shù)據(jù)開發(fā)工具

2013-08-07 13:30:13

iOS 7人機交互iOS 7 UI設(shè)計i0S 7設(shè)計資源匯總

2023-09-03 12:52:17

2015-11-04 16:28:48

AdMaster

2022-06-13 10:17:26

人工智能

2010-03-11 13:47:39

2019-08-16 09:22:38

技術(shù)調(diào)試互聯(lián)網(wǎng)

2021-04-12 14:50:25

Linux工具命令
點贊
收藏

51CTO技術(shù)棧公眾號