自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

啟動機器學(xué)習(xí)/深度學(xué)習(xí)項目的八種方法

譯文
人工智能 機器學(xué)習(xí)
從探索性的數(shù)據(jù)分析到自動機器學(xué)習(xí)(AutoML),組織需要使用這些技術(shù)來推動其數(shù)據(jù)科學(xué)項目發(fā)展,并建立更好的模型。

[[392342]]

【51CTO.com快譯】從探索性的數(shù)據(jù)分析到自動機器學(xué)習(xí)(AutoML),組織需要使用這些技術(shù)來推動其數(shù)據(jù)科學(xué)項目發(fā)展,并建立更好的模型。

你需要對數(shù)據(jù)進行分類還是預(yù)測結(jié)果?你的機器學(xué)習(xí)項目啟動有困難嗎?有許多技術(shù)可以幫助你解決問題。

在以下討論的八種方法中,一些方法將會顯著加快機器學(xué)習(xí)過程,而另外一些方法不僅可以加快過程,而且還可以幫助你構(gòu)建更好的模型。并非所有這些方法都適用于給定的項目,但一定不能忽略探索性數(shù)據(jù)分析。

以下是啟動機器學(xué)習(xí)或深度學(xué)習(xí)項目的8種方法:

1.從探索性數(shù)據(jù)分析開始

在沒有深入檢查數(shù)據(jù)的情況下直接進入機器學(xué)習(xí)訓(xùn)練,就像沒有在體育比賽時熱身一樣,而在這一過程中需要完成很多工作。

探索性數(shù)據(jù)分析結(jié)合了圖形和統(tǒng)計方法。一些更常見的技術(shù)包括單個變量的直方圖和盒須圖、變量對的散點圖以及描述性統(tǒng)計圖,例如,變量之間的相關(guān)性作為成對相關(guān)性的熱圖。

探索性數(shù)據(jù)分析還可以包括降維技術(shù),例如主成分分析(PCA)和非線性降維(NLDR)。對于基于時間的數(shù)據(jù),還需要基于時間繪制原始變量和統(tǒng)計數(shù)據(jù)的折線圖,其中除了其他事項外,還可以突出季節(jié)和周期的變化以及風(fēng)暴和流行病等外部因素引起的異常跳躍。

探索性數(shù)據(jù)分析不僅僅是統(tǒng)計圖形。這是一種數(shù)據(jù)分析的哲學(xué)方法,旨在幫助你保持開放的態(tài)度,而不是試圖將數(shù)據(jù)強加到模型中。如今,探索性數(shù)據(jù)分析的許多思想已被納入到數(shù)據(jù)挖掘中。

2.構(gòu)建無監(jiān)督集群

聚類分析是一個無監(jiān)督的學(xué)習(xí)問題,它要求模型查找相似數(shù)據(jù)點的集群。當(dāng)前使用幾種聚類算法往往具有略微不同的特征。通常情況下,聚類算法查看數(shù)據(jù)點的特征向量之間的度量或距離函數(shù),然后將彼此“接近”的度量或距離函數(shù)進行分組。如果類不重疊,則聚類算法最有效。

最常見的聚類方法之一是k-均值,它試圖使用歐幾里得的距離度量將n個觀測值劃分為k個聚類,目的是最小化每個聚類中的方差(平方和)。這是矢量量化的一種方法,對于特征學(xué)習(xí)很有用。

勞埃德(Lloyd)算法(帶有質(zhì)心更新的迭代集群集聚)是解決這一問題的最常用的啟發(fā)式算法,雖然效率較高,但不能保證全局收斂。為了改善這一點,人們經(jīng)常使用由Forgy方法或隨機劃分方法生成的隨機初始簇質(zhì)心多次運行該算法。

k-均值假設(shè)球狀簇是可分離的,因此其均值向簇中心收斂,并且還假設(shè)數(shù)據(jù)點的順序無關(guān)緊要。集群的大小應(yīng)該相似,因此對最近的集群中心的分配是正確的。

如果k-均值聚類不適合,那么需要考慮使用層次聚類分析、混合模型或DBSCAN。還應(yīng)考慮其他類型的無監(jiān)督學(xué)習(xí),例如自動編碼器和矩量方法。

3.使用半監(jiān)督學(xué)習(xí)標(biāo)記數(shù)據(jù)

標(biāo)記數(shù)據(jù)是機器學(xué)習(xí)的必要條件。如果沒有標(biāo)記數(shù)據(jù),則無法訓(xùn)練模型來預(yù)測目標(biāo)值。而一個簡單的方法是人工標(biāo)記所有數(shù)據(jù),但這并不經(jīng)濟可行。

而一種成本較低的方法是人工標(biāo)記一些數(shù)據(jù),然后嘗試使用一個或多個模型預(yù)測其余的目標(biāo)值。這稱之為半監(jiān)督學(xué)習(xí)。使用自訓(xùn)練算法(一種半監(jiān)督學(xué)習(xí)),可以從單個模型中以高于某個閾值的概率接受任何預(yù)測值,并使用現(xiàn)在更大的訓(xùn)練數(shù)據(jù)集來構(gòu)建精確模型。然后將該模型用于另一輪預(yù)測,再進行迭代,直到?jīng)]有更多的預(yù)測為止。自我訓(xùn)練有時是有效的,而在其他時候,該模型因錯誤的預(yù)測而受到損壞。

如果你構(gòu)建多個模型并使用它們進行相互檢查,則可以采用更健壯的方法,例如三重訓(xùn)練。另一種選擇是將半監(jiān)督學(xué)習(xí)與基于不同數(shù)據(jù)構(gòu)建的現(xiàn)有模型的轉(zhuǎn)移學(xué)習(xí)相結(jié)合。

你可以自己實現(xiàn)這些方案中的任何一個?;蛘呖梢詫eb服務(wù)與受過訓(xùn)練的標(biāo)記數(shù)據(jù)一起使用,例如Amazon SageMaker Ground Truth、Hive Data、Labelbox、Dataloop和Datasaur。

4.添加補充數(shù)據(jù)集

外部性通??梢越沂緮?shù)據(jù)集中的異常情況,特別是時間序列數(shù)據(jù)集。例如,如果將天氣數(shù)據(jù)添加到自行車租賃數(shù)據(jù)集,能夠解釋許多偏差,例如暴雨期間租金的急劇下降。

預(yù)測零售額還提供了其他很好的例子。銷售行為、競爭產(chǎn)品、廣告變化、經(jīng)濟事件和天氣都可能影響銷售??傊?,如果數(shù)據(jù)沒有意義,添加一些場景,也許所有內(nèi)容都會變得更加清晰。

5.嘗試采用自動機器學(xué)習(xí)(AutoML)

找到最佳數(shù)據(jù)模型的唯一方法是訓(xùn)練每種可能的模型,然后看看哪種模型排在首位。對于許多類型的數(shù)據(jù),尤其是帶標(biāo)簽的表格數(shù)據(jù),可以將自動機器學(xué)習(xí)(AutoML)工具指向數(shù)據(jù)集,稍后再返回以獲得一些很好的答案。有時,最好的模型將是其他模型的集合,這可能會導(dǎo)致成本高昂,但是,最好的簡單模型通常與該集合幾乎一樣好,并且運行起來成本低得多。

在幕后,自動機器學(xué)習(xí)(AutoML)服務(wù)不只是盲目嘗試每個合適的模型。例如,一些自動創(chuàng)建標(biāo)準(zhǔn)化和工程化的特征集,估算缺失值,刪除相關(guān)特征,并添加用于時間序列預(yù)測的滯后列。另一個可選活動是對一些最佳模型執(zhí)行超參數(shù)優(yōu)化,以進一步改善它們。為了在指定的時間內(nèi)獲得最佳結(jié)果,某些自動機器學(xué)習(xí)(AutoML)服務(wù)可以迅速終止對沒有太大改進的模型的訓(xùn)練,并將更多的周期投入到看起來更有希望的模型中。

6.通過轉(zhuǎn)移學(xué)習(xí)定制訓(xùn)練有素的模型

從頭開始訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)通常需要大量數(shù)據(jù)(數(shù)百萬個訓(xùn)練項目并不罕見)、大量時間和計算資源(使用多個服務(wù)器GPU需要花費數(shù)周的時間)。一種強大的捷徑叫轉(zhuǎn)移學(xué)習(xí),它是通過用新數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)頂部的一些新層,或者從網(wǎng)絡(luò)中提取特征,并使用這些特征來訓(xùn)練簡單的線性分類器,來定制經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。這可以使用云計算服務(wù)(例如Azure自定義視覺或自定義語言理解)來完成,也可以利用通過使用TensorFlow或PyTorch創(chuàng)建的經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)庫來完成。而遷移學(xué)習(xí)或微調(diào)通常可以在單個GPU上在幾分鐘之內(nèi)完成。

7.嘗試在“Model Zoo”中進行深度學(xué)習(xí)算法

即使你無法使用首選的云計算服務(wù)或深度學(xué)習(xí)框架輕松地通過轉(zhuǎn)移學(xué)習(xí)來創(chuàng)建所需的模型,仍然可以避免從頭開始設(shè)計和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型的麻煩。大多數(shù)主要框架的原生模型庫Model Zoo比其模型API更為廣泛。甚至有一些網(wǎng)站為多個框架或任何可以處理特定表示形式的框架(例如ONNX0)維護Model Zoo。

在Model Zoo中,人們會發(fā)現(xiàn)許多模型都經(jīng)過了充分的訓(xùn)練,并且隨時可以使用。但是,有些快照是部分訓(xùn)練的快照,其權(quán)重可作為使用自己的數(shù)據(jù)集進行訓(xùn)練的起點。

8.優(yōu)化模型的超參數(shù)

第一次訓(xùn)練模型通常不會結(jié)束流程。機器學(xué)習(xí)模型通常可以通過使用不同的超參數(shù)進行改進,而最佳模型可以通過超參數(shù)優(yōu)化或調(diào)整來找到。這并不是真正的起步,但它是從早期不太好的模型過渡到更好模型的一種方法。

超參數(shù)是模型外部的參數(shù),用于控制學(xué)習(xí)過程。模型內(nèi)部的參數(shù)(例如節(jié)點權(quán)重)是在模型訓(xùn)練期間學(xué)習(xí)的。超參數(shù)優(yōu)化本質(zhì)上是為給定模型找到最佳的超參數(shù)集的過程。優(yōu)化的每個步驟都需要重新訓(xùn)練模型,并獲得損失函數(shù)的值。

重要的超參數(shù)取決于模型和模型中使用的優(yōu)化器。例如,學(xué)習(xí)速率是神經(jīng)網(wǎng)絡(luò)的一個常見超參數(shù),除非優(yōu)化器在不同的時間段控制學(xué)習(xí)速率。對于徑向基核函數(shù)和支持向量機分類器,超參數(shù)可以是正則化參數(shù)和核函數(shù)常數(shù)。

超參數(shù)優(yōu)化器可以使用多種搜索算法。網(wǎng)格搜索是傳統(tǒng)的方法:一方面,網(wǎng)格搜索需要大量訓(xùn)練才能覆蓋多個超參數(shù)的所有組合;另一方面,如果有足夠的計算資源,則所有訓(xùn)練都可以并行運行。隨機搜索有時會更有效,并且也很容易并行化。其他替代方法包括貝葉斯優(yōu)化、梯度下降、進化優(yōu)化和提前停止算法。

總而言之,可以使用探索性數(shù)據(jù)分析開始模型構(gòu)建過程。使用無監(jiān)督學(xué)習(xí)來了解有關(guān)數(shù)據(jù)和功能的更多信息。嘗試使用自動機器學(xué)習(xí)(AutoML)可以快速測試許多模型。如果需要深度神經(jīng)網(wǎng)絡(luò)模型,需要先嘗試進行轉(zhuǎn)移學(xué)習(xí)或Model Zoo,然后再嘗試從頭開始設(shè)計和訓(xùn)練自己的網(wǎng)絡(luò)。如果找到認(rèn)為很好的模型,可以嘗試通過超參數(shù)調(diào)整對其進行改進。然后,可以在生產(chǎn)中試用該模型,并對其進行監(jiān)控。

而這還沒有真正結(jié)束。隨著時間的推移,數(shù)據(jù)或概念會由于實際事件而漂移,因此需要優(yōu)化和重新訓(xùn)練模型。人們甚至可能會發(fā)現(xiàn),不同類型的模型更適合新數(shù)據(jù)。

原文標(biāo)題:8 ways to jump-start your machine learning,作者:Martin Heller

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-08-30 00:31:12

機器學(xué)習(xí)超參數(shù)調(diào)優(yōu)算法

2020-06-28 10:07:31

加速軟件項目IT領(lǐng)導(dǎo)軟件開發(fā)

2024-07-29 08:00:00

2021-11-27 05:03:09

框架深度學(xué)習(xí)

2020-11-02 10:54:18

機器學(xué)習(xí)技術(shù)人工智能

2020-10-31 17:16:31

機器學(xué)習(xí)數(shù)據(jù)缺失數(shù)據(jù)科學(xué)

2018-05-04 08:20:39

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2024-10-18 07:10:43

2023-11-28 12:12:46

機器學(xué)習(xí)算法

2022-09-20 23:38:24

機器學(xué)習(xí)工具數(shù)字優(yōu)化

2022-01-16 09:30:34

Ansible自動化工具開源

2021-04-01 22:19:54

機器學(xué)習(xí)模型數(shù)據(jù)

2023-12-29 09:23:25

Python回調(diào)函數(shù)遍歷字典

2020-07-09 18:35:34

AWS機器學(xué)習(xí)

2011-12-26 10:35:03

Windows系統(tǒng)Linux系統(tǒng)

2011-12-26 10:28:59

Linux學(xué)習(xí)環(huán)境Linux系統(tǒng)

2018-03-09 09:00:00

前端JavaScript機器學(xué)習(xí)

2021-02-23 15:13:41

人工智能機器學(xué)習(xí)數(shù)據(jù)

2021-03-30 13:45:00

人工智能

2021-05-05 21:00:22

深度學(xué)習(xí)機器視覺機器人
點贊
收藏

51CTO技術(shù)棧公眾號