自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="loxel"></p>

<sub id="loxel"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

啟動機器學(xué)習(xí)/深度學(xué)習(xí)項目的八種方法

作者：李睿 2021-04-12 09:00:00

人工智能機器學(xué)習(xí)

從探索性的數(shù)據(jù)分析到自動機器學(xué)習(xí)(AutoML)，組織需要使用這些技術(shù)來推動其數(shù)據(jù)科學(xué)項目發(fā)展，并建立更好的模型。

【51CTO.com快譯】從探索性的數(shù)據(jù)分析到自動機器學(xué)習(xí)(AutoML)，組織需要使用這些技術(shù)來推動其數(shù)據(jù)科學(xué)項目發(fā)展，并建立更好的模型。

你需要對數(shù)據(jù)進行分類還是預(yù)測結(jié)果?你的機器學(xué)習(xí)項目啟動有困難嗎?有許多技術(shù)可以幫助你解決問題。

在以下討論的八種方法中，一些方法將會顯著加快機器學(xué)習(xí)過程，而另外一些方法不僅可以加快過程，而且還可以幫助你構(gòu)建更好的模型。并非所有這些方法都適用于給定的項目，但一定不能忽略探索性數(shù)據(jù)分析。

以下是啟動機器學(xué)習(xí)或深度學(xué)習(xí)項目的8種方法:

1.從探索性數(shù)據(jù)分析開始

在沒有深入檢查數(shù)據(jù)的情況下直接進入機器學(xué)習(xí)訓(xùn)練，就像沒有在體育比賽時熱身一樣，而在這一過程中需要完成很多工作。

探索性數(shù)據(jù)分析結(jié)合了圖形和統(tǒng)計方法。一些更常見的技術(shù)包括單個變量的直方圖和盒須圖、變量對的散點圖以及描述性統(tǒng)計圖，例如，變量之間的相關(guān)性作為成對相關(guān)性的熱圖。

探索性數(shù)據(jù)分析還可以包括降維技術(shù)，例如主成分分析(PCA)和非線性降維(NLDR)。對于基于時間的數(shù)據(jù)，還需要基于時間繪制原始變量和統(tǒng)計數(shù)據(jù)的折線圖，其中除了其他事項外，還可以突出季節(jié)和周期的變化以及風(fēng)暴和流行病等外部因素引起的異常跳躍。

探索性數(shù)據(jù)分析不僅僅是統(tǒng)計圖形。這是一種數(shù)據(jù)分析的哲學(xué)方法，旨在幫助你保持開放的態(tài)度，而不是試圖將數(shù)據(jù)強加到模型中。如今，探索性數(shù)據(jù)分析的許多思想已被納入到數(shù)據(jù)挖掘中。

2.構(gòu)建無監(jiān)督集群

聚類分析是一個無監(jiān)督的學(xué)習(xí)問題，它要求模型查找相似數(shù)據(jù)點的集群。當(dāng)前使用幾種聚類算法往往具有略微不同的特征。通常情況下，聚類算法查看數(shù)據(jù)點的特征向量之間的度量或距離函數(shù)，然后將彼此“接近”的度量或距離函數(shù)進行分組。如果類不重疊，則聚類算法最有效。

最常見的聚類方法之一是k-均值，它試圖使用歐幾里得的距離度量將n個觀測值劃分為k個聚類，目的是最小化每個聚類中的方差(平方和)。這是矢量量化的一種方法，對于特征學(xué)習(xí)很有用。

勞埃德(Lloyd)算法(帶有質(zhì)心更新的迭代集群集聚)是解決這一問題的最常用的啟發(fā)式算法，雖然效率較高，但不能保證全局收斂。為了改善這一點，人們經(jīng)常使用由Forgy方法或隨機劃分方法生成的隨機初始簇質(zhì)心多次運行該算法。

k-均值假設(shè)球狀簇是可分離的，因此其均值向簇中心收斂，并且還假設(shè)數(shù)據(jù)點的順序無關(guān)緊要。集群的大小應(yīng)該相似，因此對最近的集群中心的分配是正確的。

如果k-均值聚類不適合，那么需要考慮使用層次聚類分析、混合模型或DBSCAN。還應(yīng)考慮其他類型的無監(jiān)督學(xué)習(xí)，例如自動編碼器和矩量方法。

3.使用半監(jiān)督學(xué)習(xí)標(biāo)記數(shù)據(jù)

標(biāo)記數(shù)據(jù)是機器學(xué)習(xí)的必要條件。如果沒有標(biāo)記數(shù)據(jù)，則無法訓(xùn)練模型來預(yù)測目標(biāo)值。而一個簡單的方法是人工標(biāo)記所有數(shù)據(jù)，但這并不經(jīng)濟可行。

而一種成本較低的方法是人工標(biāo)記一些數(shù)據(jù)，然后嘗試使用一個或多個模型預(yù)測其余的目標(biāo)值。這稱之為半監(jiān)督學(xué)習(xí)。使用自訓(xùn)練算法(一種半監(jiān)督學(xué)習(xí))，可以從單個模型中以高于某個閾值的概率接受任何預(yù)測值，并使用現(xiàn)在更大的訓(xùn)練數(shù)據(jù)集來構(gòu)建精確模型。然后將該模型用于另一輪預(yù)測，再進行迭代，直到?jīng)]有更多的預(yù)測為止。自我訓(xùn)練有時是有效的，而在其他時候，該模型因錯誤的預(yù)測而受到損壞。

如果你構(gòu)建多個模型并使用它們進行相互檢查，則可以采用更健壯的方法，例如三重訓(xùn)練。另一種選擇是將半監(jiān)督學(xué)習(xí)與基于不同數(shù)據(jù)構(gòu)建的現(xiàn)有模型的轉(zhuǎn)移學(xué)習(xí)相結(jié)合。

你可以自己實現(xiàn)這些方案中的任何一個?；蛘呖梢詫eb服務(wù)與受過訓(xùn)練的標(biāo)記數(shù)據(jù)一起使用，例如Amazon SageMaker Ground Truth、Hive Data、Labelbox、Dataloop和Datasaur。

4.添加補充數(shù)據(jù)集

外部性通?？梢越沂緮?shù)據(jù)集中的異常情況，特別是時間序列數(shù)據(jù)集。例如，如果將天氣數(shù)據(jù)添加到自行車租賃數(shù)據(jù)集，能夠解釋許多偏差，例如暴雨期間租金的急劇下降。

預(yù)測零售額還提供了其他很好的例子。銷售行為、競爭產(chǎn)品、廣告變化、經(jīng)濟事件和天氣都可能影響銷售?？傊?，如果數(shù)據(jù)沒有意義，添加一些場景，也許所有內(nèi)容都會變得更加清晰。

5.嘗試采用自動機器學(xué)習(xí)(AutoML)

找到最佳數(shù)據(jù)模型的唯一方法是訓(xùn)練每種可能的模型，然后看看哪種模型排在首位。對于許多類型的數(shù)據(jù)，尤其是帶標(biāo)簽的表格數(shù)據(jù)，可以將自動機器學(xué)習(xí)(AutoML)工具指向數(shù)據(jù)集，稍后再返回以獲得一些很好的答案。有時，最好的模型將是其他模型的集合，這可能會導(dǎo)致成本高昂，但是，最好的簡單模型通常與該集合幾乎一樣好，并且運行起來成本低得多。

在幕后，自動機器學(xué)習(xí)(AutoML)服務(wù)不只是盲目嘗試每個合適的模型。例如，一些自動創(chuàng)建標(biāo)準(zhǔn)化和工程化的特征集，估算缺失值，刪除相關(guān)特征，并添加用于時間序列預(yù)測的滯后列。另一個可選活動是對一些最佳模型執(zhí)行超參數(shù)優(yōu)化，以進一步改善它們。為了在指定的時間內(nèi)獲得最佳結(jié)果，某些自動機器學(xué)習(xí)(AutoML)服務(wù)可以迅速終止對沒有太大改進的模型的訓(xùn)練，并將更多的周期投入到看起來更有希望的模型中。

6.通過轉(zhuǎn)移學(xué)習(xí)定制訓(xùn)練有素的模型

從頭開始訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)通常需要大量數(shù)據(jù)(數(shù)百萬個訓(xùn)練項目并不罕見)、大量時間和計算資源(使用多個服務(wù)器GPU需要花費數(shù)周的時間)。一種強大的捷徑叫轉(zhuǎn)移學(xué)習(xí)，它是通過用新數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)頂部的一些新層，或者從網(wǎng)絡(luò)中提取特征，并使用這些特征來訓(xùn)練簡單的線性分類器，來定制經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。這可以使用云計算服務(wù)(例如Azure自定義視覺或自定義語言理解)來完成，也可以利用通過使用TensorFlow或PyTorch創(chuàng)建的經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)庫來完成。而遷移學(xué)習(xí)或微調(diào)通常可以在單個GPU上在幾分鐘之內(nèi)完成。

7.嘗試在“Model Zoo”中進行深度學(xué)習(xí)算法

即使你無法使用首選的云計算服務(wù)或深度學(xué)習(xí)框架輕松地通過轉(zhuǎn)移學(xué)習(xí)來創(chuàng)建所需的模型，仍然可以避免從頭開始設(shè)計和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型的麻煩。大多數(shù)主要框架的原生模型庫Model Zoo比其模型API更為廣泛。甚至有一些網(wǎng)站為多個框架或任何可以處理特定表示形式的框架(例如ONNX0)維護Model Zoo。

在Model Zoo中，人們會發(fā)現(xiàn)許多模型都經(jīng)過了充分的訓(xùn)練，并且隨時可以使用。但是，有些快照是部分訓(xùn)練的快照，其權(quán)重可作為使用自己的數(shù)據(jù)集進行訓(xùn)練的起點。

8.優(yōu)化模型的超參數(shù)

第一次訓(xùn)練模型通常不會結(jié)束流程。機器學(xué)習(xí)模型通常可以通過使用不同的超參數(shù)進行改進，而最佳模型可以通過超參數(shù)優(yōu)化或調(diào)整來找到。這并不是真正的起步，但它是從早期不太好的模型過渡到更好模型的一種方法。

超參數(shù)是模型外部的參數(shù)，用于控制學(xué)習(xí)過程。模型內(nèi)部的參數(shù)(例如節(jié)點權(quán)重)是在模型訓(xùn)練期間學(xué)習(xí)的。超參數(shù)優(yōu)化本質(zhì)上是為給定模型找到最佳的超參數(shù)集的過程。優(yōu)化的每個步驟都需要重新訓(xùn)練模型，并獲得損失函數(shù)的值。

重要的超參數(shù)取決于模型和模型中使用的優(yōu)化器。例如，學(xué)習(xí)速率是神經(jīng)網(wǎng)絡(luò)的一個常見超參數(shù)，除非優(yōu)化器在不同的時間段控制學(xué)習(xí)速率。對于徑向基核函數(shù)和支持向量機分類器，超參數(shù)可以是正則化參數(shù)和核函數(shù)常數(shù)。

超參數(shù)優(yōu)化器可以使用多種搜索算法。網(wǎng)格搜索是傳統(tǒng)的方法：一方面，網(wǎng)格搜索需要大量訓(xùn)練才能覆蓋多個超參數(shù)的所有組合;另一方面，如果有足夠的計算資源，則所有訓(xùn)練都可以并行運行。隨機搜索有時會更有效，并且也很容易并行化。其他替代方法包括貝葉斯優(yōu)化、梯度下降、進化優(yōu)化和提前停止算法。

總而言之，可以使用探索性數(shù)據(jù)分析開始模型構(gòu)建過程。使用無監(jiān)督學(xué)習(xí)來了解有關(guān)數(shù)據(jù)和功能的更多信息。嘗試使用自動機器學(xué)習(xí)(AutoML)可以快速測試許多模型。如果需要深度神經(jīng)網(wǎng)絡(luò)模型，需要先嘗試進行轉(zhuǎn)移學(xué)習(xí)或Model Zoo，然后再嘗試從頭開始設(shè)計和訓(xùn)練自己的網(wǎng)絡(luò)。如果找到認(rèn)為很好的模型，可以嘗試通過超參數(shù)調(diào)整對其進行改進。然后，可以在生產(chǎn)中試用該模型，并對其進行監(jiān)控。

而這還沒有真正結(jié)束。隨著時間的推移，數(shù)據(jù)或概念會由于實際事件而漂移，因此需要優(yōu)化和重新訓(xùn)練模型。人們甚至可能會發(fā)現(xiàn)，不同類型的模型更適合新數(shù)據(jù)。

原文標(biāo)題：8 ways to jump-start your machine learning，作者：Martin Heller

【51CTO譯稿，合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯：華軒來源： 51CTO

機器學(xué)習(xí)深度學(xué)習(xí)技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<big id="ppzjh"><code id="ppzjh"><optgroup id="ppzjh"></optgroup></code></big><style id="ppzjh"></style>

<blockquote id="ppzjh"><p id="ppzjh"></p></blockquote>