自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分享用小型數(shù)據(jù)集處理數(shù)據(jù)的7個(gè)小技巧

新聞
我們經(jīng)常聽(tīng)說(shuō),大數(shù)據(jù)是那些成功的機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵。這是一個(gè)主要問(wèn)題:許多組織沒(méi)有你需要的數(shù)據(jù)。

 我們經(jīng)常聽(tīng)說(shuō),大數(shù)據(jù)是那些成功的機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵。

這是一個(gè)主要問(wèn)題:許多組織沒(méi)有你需要的數(shù)據(jù)。

[[269660]]

如果沒(méi)有最基本的原材料,我們?nèi)绾卧突万?yàn)證機(jī)器學(xué)習(xí)思想?在資源稀缺的情況下,如何有效地利用數(shù)據(jù)獲取和創(chuàng)造價(jià)值?

在我的工作場(chǎng)所,我們?yōu)榭蛻糁谱髁撕芏喙δ茉?。正因?yàn)槿绱耍医?jīng)常需要讓小數(shù)據(jù)走得更遠(yuǎn)。在本文中,我將分享7個(gè)技巧來(lái)改進(jìn)使用小型數(shù)據(jù)集進(jìn)行原型設(shè)計(jì)時(shí)的結(jié)果。

1. 要意識(shí)到你的模型不能很好地推廣

這應(yīng)該是目前最重要的。你正在建立一個(gè)模型,它的知識(shí)是浩瀚的知識(shí)海洋中的一小部分,而這種情況應(yīng)該是必然的。

如果你正在構(gòu)建一個(gè)基于室內(nèi)照片的計(jì)算機(jī)視覺(jué)原型,不要期望它在戶外工作得很好。如果你有一個(gè)基于聊天室玩笑的語(yǔ)言模型,不要期望它適用于夢(mèng)幻的小說(shuō)。

確保你的經(jīng)理或客戶能理解這一點(diǎn)。這樣,每個(gè)人都可以對(duì)模型應(yīng)該交付的結(jié)果有一個(gè)現(xiàn)實(shí)的期望。它還為提出有用的新的KPI提供了機(jī)會(huì),以便在原型范圍內(nèi)外對(duì)模型性能進(jìn)行量化。

2.建立良好的數(shù)據(jù)基礎(chǔ)設(shè)施

在許多情況下,客戶端沒(méi)有你需要的數(shù)據(jù),公共數(shù)據(jù)也不是一個(gè)選項(xiàng)。如果原型的一部分需要收集和標(biāo)記新數(shù)據(jù),請(qǐng)確保你的基礎(chǔ)設(shè)施盡可能少地產(chǎn)生摩擦。

你需要確保數(shù)據(jù)標(biāo)記非常簡(jiǎn)單,以便非技術(shù)人員也可以使用。我們已經(jīng)開(kāi)始使用Prodigy,我認(rèn)為這是一個(gè)很好的工具:既可訪問(wèn)又可擴(kuò)展。根據(jù)項(xiàng)目的大小,你可能還想設(shè)置一個(gè)自動(dòng)數(shù)據(jù)攝取器,它可以接收新數(shù)據(jù)并自動(dòng)將其提供給標(biāo)記系統(tǒng)。

如果將新數(shù)據(jù)快速而簡(jiǎn)單地導(dǎo)入系統(tǒng),你將獲得更多的數(shù)據(jù)。

3.做一些數(shù)據(jù)擴(kuò)充

通??梢酝ㄟ^(guò)增加現(xiàn)有的數(shù)據(jù)來(lái)擴(kuò)展數(shù)據(jù)集。它是對(duì)數(shù)據(jù)進(jìn)行微小的更改,而不應(yīng)該顯著地更改模型輸出。例如,如果一只貓旋轉(zhuǎn)了40度,它的圖像仍然是一只貓的圖像。

在大多數(shù)情況下,增強(qiáng)技術(shù)允許你生成更多的"semi-unique"數(shù)據(jù)點(diǎn)來(lái)訓(xùn)練模型。首先,可以嘗試在數(shù)據(jù)中添加少量高斯噪聲。

對(duì)于計(jì)算機(jī)視覺(jué),有許多簡(jiǎn)單的方法來(lái)增強(qiáng)圖像。我對(duì)Albumentations庫(kù)有很多的經(jīng)驗(yàn),它做了許多有用的圖像轉(zhuǎn)換,同時(shí)保持你的標(biāo)簽完好無(wú)損。

分享用小型數(shù)據(jù)集處理數(shù)據(jù)的7個(gè)小技巧

許多人發(fā)現(xiàn)另一種有用的增強(qiáng)技術(shù)是Mixup。這種技術(shù)實(shí)際上是獲取兩個(gè)輸入圖像,將它們混合在一起并組合它們的標(biāo)簽。

分享用小型數(shù)據(jù)集處理數(shù)據(jù)的7個(gè)小技巧

在擴(kuò)展其他輸入數(shù)據(jù)類型時(shí),需要考慮哪些轉(zhuǎn)換會(huì)更改標(biāo)簽,哪些不會(huì)。

4.生成一些合成數(shù)據(jù)

如果你已經(jīng)用盡了擴(kuò)展真實(shí)數(shù)據(jù)的選項(xiàng),你可以開(kāi)始考慮創(chuàng)建一些假數(shù)據(jù)。生成合成數(shù)據(jù)也是覆蓋真實(shí)數(shù)據(jù)集沒(méi)有的一些邊緣情況的好方法。

例如,許多機(jī)器人強(qiáng)化學(xué)習(xí)系統(tǒng)(如OpenAI的Dactyl)在部署到真實(shí)機(jī)器人之前,都是在模擬的3D環(huán)境中進(jìn)行訓(xùn)練的。對(duì)于圖像識(shí)別系統(tǒng),你同樣可以構(gòu)建3D場(chǎng)景,為你提供數(shù)千個(gè)新的數(shù)據(jù)點(diǎn)。

分享用小型數(shù)據(jù)集處理數(shù)據(jù)的7個(gè)小技巧

有許多方法可以創(chuàng)建合成數(shù)據(jù)。在Kanda,我們正在開(kāi)發(fā)一個(gè)基于 turntable-based 的解決方案,來(lái)創(chuàng)建用于對(duì)象檢測(cè)的數(shù)據(jù)。如果你有很高的數(shù)據(jù)需求,你可以考慮使用Generative Adverserial Networks 來(lái)創(chuàng)建合成數(shù)據(jù)。要知道GAN是出了名的難訓(xùn)練,所以首先要確保它是可以創(chuàng)建的。

分享用小型數(shù)據(jù)集處理數(shù)據(jù)的7個(gè)小技巧

有時(shí)你可以將這些方法結(jié)合起來(lái):蘋(píng)果有一個(gè)非常聰明的方法,使用GAN來(lái)處理3D建模人臉的圖像,使其看起來(lái)更像照片。

5. 小心幸運(yùn)的分割

在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),通常會(huì)將數(shù)據(jù)集按照一定的比例隨機(jī)分割成訓(xùn)練集和測(cè)試集。通常情況下這很好。但是,在處理小數(shù)據(jù)集時(shí),由于訓(xùn)練示例的數(shù)量較少,存在很高的噪聲風(fēng)險(xiǎn)。

在這種情況下,你可能會(huì)意外地得到一個(gè)幸運(yùn)的分割:一個(gè)特定的數(shù)據(jù)集分割,你的模型將在其中執(zhí)行并很好地推廣到測(cè)試集。

而在這種情況下,k-fold交叉驗(yàn)證是更好的選擇。本質(zhì)上,你將數(shù)據(jù)集分割為k個(gè)"folds",并為每個(gè)k訓(xùn)練一個(gè)新的模型,其中一個(gè)folds用于測(cè)試集,其余的用于訓(xùn)練。這控制了你所看到的測(cè)試性能不僅僅是由于幸運(yùn)(或不幸)的分割。

6. 使用遷移學(xué)習(xí)

如果你使用的是某種標(biāo)準(zhǔn)化的數(shù)據(jù)格式,比如文本、圖像、視頻或聲音,那么你可以利用其他人之前在這些領(lǐng)域所做的所有工作來(lái)進(jìn)行遷移學(xué)習(xí)。這就像站在巨人的肩膀上。

當(dāng)你進(jìn)行遷移學(xué)習(xí)時(shí),你采用別人建立的模型(通常,"其他人"是谷歌、Facebook或一所主要大學(xué)),并根據(jù)你的特殊需要對(duì)它們進(jìn)行微調(diào)。

遷移學(xué)習(xí)之所以有效,是因?yàn)榇蠖鄶?shù)與語(yǔ)言、圖像或聲音有關(guān)的任務(wù)都具有許多共同的特征。對(duì)于計(jì)算機(jī)視覺(jué),它可以檢測(cè)特定類型的形狀、顏色或圖案。

最近,研究出來(lái)一個(gè)高精度的目標(biāo)檢測(cè)原型。通過(guò)微調(diào)一個(gè)MobileNet單鏡頭檢測(cè)器,我可以極大地加快開(kāi)發(fā)速度,該檢測(cè)器是在谷歌的Open Images v4數(shù)據(jù)集(約900萬(wàn)標(biāo)記圖像!)上訓(xùn)練的。經(jīng)過(guò)一天的訓(xùn)練,我能夠使用~1500張帶標(biāo)簽的圖像生成一個(gè)相當(dāng)健壯的對(duì)象檢測(cè)模型,測(cè)試圖為0.85。

遷移學(xué)習(xí)是有效的,因?yàn)榕c語(yǔ)言、圖像或聲音有關(guān)的大多數(shù)任務(wù)都有許多共同特征。 對(duì)于計(jì)算機(jī)視覺(jué),它可以是檢測(cè)某些類型的形狀、顏色或圖案。

7. 嘗試一組"weak learners"

有時(shí)候,你不得不面對(duì)這樣一個(gè)事實(shí):你沒(méi)有足夠的數(shù)據(jù)來(lái)做任何花哨的事情。幸運(yùn)的是,有許多傳統(tǒng)的機(jī)器學(xué)習(xí)算法可以使用,它們對(duì)數(shù)據(jù)集的大小不那么敏感。

當(dāng)數(shù)據(jù)集較小且數(shù)據(jù)點(diǎn)維度較高時(shí),支持向量機(jī)等算法是一個(gè)很好的選擇。

不幸的是,這些算法并不總是像***進(jìn)的方法那樣精確。這就是為什么他們可以被稱為"weak learners",至少與高度參數(shù)化的神經(jīng)網(wǎng)絡(luò)相比。

提高性能的一種方法是將這些"weak learners"(這可以是一組支持向量機(jī)或決策樹(shù)組合起來(lái),以便他們"一起工作"來(lái)生成預(yù)測(cè)。這就是集成學(xué)習(xí)的全部?jī)?nèi)容

責(zé)任編輯:華軒 來(lái)源: AI中國(guó)
相關(guān)推薦

2010-11-12 10:13:46

數(shù)據(jù)中心改造

2011-08-10 18:13:22

windows7技巧

2022-06-06 15:01:16

JavaScriptJSON前端

2011-03-11 16:25:53

Oracle數(shù)據(jù)庫(kù)

2021-07-29 11:30:31

GitLinux命令

2024-01-03 08:53:35

JavaScrip編程語(yǔ)言NodeJS

2011-07-15 17:35:19

JavaScript

2012-09-11 14:55:29

Moosefs

2024-09-24 10:16:13

PythonWord文檔

2011-06-28 13:56:43

JAVA

2020-07-28 08:14:30

JavaScript開(kāi)發(fā)技術(shù)

2023-03-24 16:41:36

Pandas技巧數(shù)據(jù)處理

2011-07-12 18:20:45

降權(quán)

2011-07-11 10:24:09

PHP

2024-11-12 12:08:06

JSON數(shù)據(jù)技巧

2020-12-04 15:23:58

Python數(shù)據(jù)分析工具

2022-08-26 17:48:34

數(shù)據(jù)庫(kù)建表數(shù)據(jù)庫(kù)

2023-10-09 18:13:14

MySQL數(shù)據(jù)庫(kù)查詢

2018-09-08 17:17:52

數(shù)據(jù)庫(kù)MySQL小技巧

2019-07-16 16:24:09

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)