自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

何為多標(biāo)簽分類?這里有幾種實(shí)用的經(jīng)典方法

新聞 人工智能
眾所周知,二分類任務(wù)旨在將給定的輸入分為 0 和 1 兩類。而多標(biāo)簽分類(又稱多目標(biāo)分類)一次性地根據(jù)給定輸入預(yù)測(cè)多個(gè)二分類目標(biāo)。例如,模型可以預(yù)測(cè)給定的圖片是一條狗還是一只貓,同時(shí)預(yù)測(cè)其毛皮是長(zhǎng)還是短。

這可能是最實(shí)用的多標(biāo)簽分類小貼士。

眾所周知,二分類任務(wù)旨在將給定的輸入分為 0 和 1 兩類。而多標(biāo)簽分類(又稱多目標(biāo)分類)一次性地根據(jù)給定輸入預(yù)測(cè)多個(gè)二分類目標(biāo)。例如,模型可以預(yù)測(cè)給定的圖片是一條狗還是一只貓,同時(shí)預(yù)測(cè)其毛皮是長(zhǎng)還是短。

在多分類任務(wù)中,預(yù)測(cè)目標(biāo)是互斥的,這意味著一個(gè)輸入可以對(duì)應(yīng)于多個(gè)分類。本文將介紹一些可能提升多標(biāo)簽分類模型性能的小技巧。

模型評(píng)估函數(shù)

通過(guò)在「每一列」(分類標(biāo)簽)上計(jì)算模型評(píng)估函數(shù)并取得分均值,我們可以將大多數(shù)二分類評(píng)估函數(shù)用于多標(biāo)簽分類任務(wù)。對(duì)數(shù)損失或二分類交叉熵就是其中一種評(píng)估函數(shù)。為了更好地考慮到類別不均衡現(xiàn)象,我們可以使用 ROC-AUC 作為評(píng)估函數(shù)。

圖 1:ROC-AUC 曲線

建模技巧

在介紹構(gòu)建特征的技巧之前,本文將介紹一些設(shè)計(jì)適用于多標(biāo)簽分類場(chǎng)景的模型的小技巧。

對(duì)于大多數(shù)非神經(jīng)網(wǎng)絡(luò)模型而言,我們唯一的選擇是為每個(gè)目標(biāo)訓(xùn)練一個(gè)分類器,然后將預(yù)測(cè)結(jié)果融合起來(lái)。為此,「scikit-learn」程序庫(kù)提供了一個(gè)簡(jiǎn)單的封裝類「OneVsRestClassifier」。盡管這個(gè)封裝類可以使分類器能夠執(zhí)行多標(biāo)簽任務(wù),但我們不應(yīng)采用這種方法,其弊端如下:(1)我們會(huì)為每個(gè)目標(biāo)訓(xùn)練一個(gè)新模型,因此訓(xùn)練時(shí)間相對(duì)較長(zhǎng)。(2)模型無(wú)法學(xué)習(xí)不同標(biāo)簽之間的關(guān)系或標(biāo)簽的相關(guān)性。

第二個(gè)問(wèn)題可以通過(guò)執(zhí)行一個(gè)兩階段訓(xùn)練過(guò)程來(lái)解決。其中,我們將目標(biāo)的預(yù)測(cè)結(jié)果和原始特征相結(jié)合,作為第二階段訓(xùn)練的輸入。這樣做的缺點(diǎn)是,由于需要訓(xùn)練的模型數(shù)量是之前的兩倍,訓(xùn)練時(shí)間將大幅度提升。神經(jīng)網(wǎng)絡(luò)(NN)則適用于這種場(chǎng)景,其中標(biāo)簽的數(shù)量即為網(wǎng)絡(luò)中輸出神經(jīng)元的數(shù)量。我們可以直接將任意的二分類損失應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型,同時(shí)該模型會(huì)輸出所有的目標(biāo)。此時(shí),我們只需要訓(xùn)練一個(gè)模型,且網(wǎng)絡(luò)可以通過(guò)輸出神經(jīng)元學(xué)習(xí)不同標(biāo)簽的相關(guān)性,從而解決上文中提出的非神經(jīng)網(wǎng)絡(luò)模型的兩個(gè)問(wèn)題。

何為多標(biāo)簽分類?這里有幾種實(shí)用的經(jīng)典方法

圖 2:神經(jīng)網(wǎng)絡(luò)

有監(jiān)督的特征選擇方法

在開(kāi)始特征工程或特征選擇之前,需要對(duì)特征進(jìn)行歸一化和標(biāo)準(zhǔn)化處理。使用「scikit-learn」庫(kù)中的「Quantile Transformer」將減小數(shù)據(jù)的偏度,使特征服從正態(tài)分布。此外,還可以通過(guò)對(duì)數(shù)據(jù)采取「減去均值,除以標(biāo)準(zhǔn)差」的操作,對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理。該過(guò)程與「Quantile Transformer」完成了類似的工作,其目的都是對(duì)數(shù)據(jù)進(jìn)行變換,使數(shù)據(jù)變得更加魯棒。然而,「Quantile Transformer」的計(jì)算開(kāi)銷較高。

大多數(shù)算法都是為單一目標(biāo)設(shè)計(jì)的,因此使用有監(jiān)督特征選擇方法稍微有些困難。為了解決這個(gè)問(wèn)題,我們可以將多標(biāo)簽分類任務(wù)轉(zhuǎn)化為多類分類問(wèn)題?!窵abel Powerset」就是其中一種流行的解決方案,它將訓(xùn)練數(shù)據(jù)中的每一個(gè)獨(dú)特的標(biāo)簽組合轉(zhuǎn)化為一個(gè)類?!竤cikit-multilearn」程序庫(kù)中包含實(shí)現(xiàn)該方案的工具。

何為多標(biāo)簽分類?這里有幾種實(shí)用的經(jīng)典方法

圖 3:Label Powerset 方法

在完成轉(zhuǎn)換后,我們可以使用「信息增益」和「卡方」等方法來(lái)挑選特征。盡管這種方法是可行的,但是卻很難處理上百甚至上千對(duì)不同的獨(dú)特標(biāo)簽組合。此時(shí),使用無(wú)監(jiān)督特征選擇方法可能更合適。

無(wú)監(jiān)督特征選擇方法

在無(wú)監(jiān)督方法中,我們不需要考慮多標(biāo)簽任務(wù)的特性,這是因?yàn)闊o(wú)標(biāo)簽方法并不依賴于標(biāo)簽。典型的無(wú)監(jiān)督特征選擇方法包括:

  • 主成分分析(PCA)或其它的因子分析方法。此類方法會(huì)去除掉特征中的冗余信息,并為模型抽取出有用的特征。請(qǐng)確保在使用 PCA 之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,從而使每個(gè)特征對(duì)分析的貢獻(xiàn)相等。另一個(gè)使用 PCA 的技巧是,我們可以將該算法簡(jiǎn)化后的數(shù)據(jù)作為模型可選擇使用的額外信息與原始數(shù)據(jù)連接起來(lái),而不是直接使用簡(jiǎn)化后的數(shù)據(jù)。
  • 方差閾值。這是一種簡(jiǎn)單有效的降低特征維度的方法。我們丟棄具有低方差或離散型的特征??梢酝ㄟ^(guò)找到一個(gè)更好的選擇閾值對(duì)此進(jìn)行優(yōu)化,0.5 是一個(gè)不錯(cuò)的初始閾值。
  • 聚類。通過(guò)根據(jù)輸入數(shù)據(jù)創(chuàng)建聚類簇來(lái)構(gòu)建新特征,然后將相應(yīng)的聚類分配給每一行輸入數(shù)據(jù),作為一列新的特征。
何為多標(biāo)簽分類?這里有幾種實(shí)用的經(jīng)典方法

圖 4:K - 均值聚類

上采樣方法

當(dāng)分類數(shù)據(jù)高度不均衡時(shí),可以使用上采樣方法為稀有類生成人造樣本,從而讓模型關(guān)注稀有類。為了在多標(biāo)簽場(chǎng)景下創(chuàng)建新樣本,我們可以使用多標(biāo)簽合成少數(shù)類過(guò)采樣技術(shù)(MLSMOTE)。

代碼鏈接:https://github.com/niteshsukhwani/MLSMOTE

該方法由原始的 SMOTE 方法修改而來(lái)。在生成少數(shù)類的數(shù)據(jù)并分配少數(shù)標(biāo)簽后,我們還通過(guò)統(tǒng)計(jì)每個(gè)標(biāo)簽在相鄰數(shù)據(jù)點(diǎn)中出現(xiàn)的次數(shù)來(lái)生成其它相關(guān)的標(biāo)簽,并保留出現(xiàn)頻次高于一半統(tǒng)計(jì)的數(shù)據(jù)點(diǎn)的標(biāo)簽。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2023-08-17 08:41:43

Vue 3多布局系統(tǒng)

2021-06-11 13:30:28

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

2023-11-21 08:45:10

JSON性能程序

2019-01-23 09:48:06

數(shù)據(jù)清洗數(shù)據(jù)分析代碼

2018-03-25 09:11:31

大數(shù)據(jù)機(jī)器學(xué)習(xí)分析軟件

2020-06-12 07:36:33

Redis

2018-04-02 11:22:31

大數(shù)據(jù)Hadoop數(shù)據(jù)處理

2015-09-20 15:50:46

2018-01-02 16:42:42

iPhone電池Apple

2020-11-02 15:49:35

機(jī)器學(xué)習(xí)技術(shù)云計(jì)算

2016-08-23 00:39:25

2019-11-08 09:46:34

技術(shù)功能開(kāi)發(fā)

2019-09-22 18:53:27

Jupyter Not代碼開(kāi)發(fā)

2020-03-17 10:35:40

大數(shù)據(jù)IT人工智能

2020-11-30 10:58:52

Linux操作系統(tǒng)Windows

2018-07-30 09:33:21

2020-05-22 13:32:24

可視化詞云圖數(shù)據(jù)

2023-11-27 17:24:43

2015-08-04 10:34:13

Windows 10升級(jí)

2020-03-30 11:32:49

IT技術(shù)面試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)