自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

七個(gè)關(guān)鍵因素:如何選擇出優(yōu)秀機(jī)器學(xué)習(xí)算法?

人工智能 機(jī)器學(xué)習(xí) 算法
任意的機(jī)器學(xué)習(xí)問題都可以應(yīng)用多種算法,生成多種模型。例如,垃圾郵件檢測分類問題可以使用多種模型來解決,包括樸素貝葉斯模型、邏輯回歸模型和像BiLSTMs這樣的深度學(xué)習(xí)技術(shù)。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

任意的機(jī)器學(xué)習(xí)問題都可以應(yīng)用多種算法,生成多種模型。例如,垃圾郵件檢測分類問題可以使用多種模型來解決,包括樸素貝葉斯模型、邏輯回歸模型和像BiLSTMs這樣的深度學(xué)習(xí)技術(shù)。

[[347078]]

擁有豐富的選擇是好的,但難點(diǎn)在于,如何決定在生產(chǎn)中實(shí)現(xiàn)哪個(gè)模型。雖然我們有許多性能指標(biāo)來評估一個(gè)模型,但為每個(gè)問題實(shí)現(xiàn)每個(gè)算法是不明智的。這需要大量的時(shí)間和大量的工作,因此,知道如何為特定的任務(wù)選擇正確的算法至關(guān)重要。

在本文中,我們將研究可以幫助選擇最適合你的項(xiàng)目和特定業(yè)務(wù)需求的算法的因素,理解這些因素將使你理解模型將要執(zhí)行的任務(wù)和問題的復(fù)雜性。

可解釋性

當(dāng)我們討論算法的可解釋性時(shí),討論的是它解釋其預(yù)測的能力,缺乏這種解釋的算法被稱為黑箱算法。

像k-最近鄰算法(k-nearest neighbor,KNN)這樣的算法通過特征重要性具有較高的可解釋性,而線性模型這樣的算法通過賦予特征的權(quán)重具有可解釋性。當(dāng)考慮你的機(jī)器學(xué)習(xí)模型最終會(huì)做什么時(shí),了解算法的可解釋性變得非常重要。

對于諸如檢測癌細(xì)胞或判斷房屋貸款的信用風(fēng)險(xiǎn)等分類問題,必須了解系統(tǒng)結(jié)果背后的原因。僅僅預(yù)測是不夠的,我們需要能夠評估它。即使預(yù)測是準(zhǔn)確的,我們也必須了解導(dǎo)致這些預(yù)測的過程。如果理解結(jié)果背后的原因是問題的要求,那么需要相應(yīng)地選擇合適的算法。

數(shù)據(jù)點(diǎn)的數(shù)量和特征

在選擇合適的機(jī)器學(xué)習(xí)算法時(shí),數(shù)據(jù)點(diǎn)的特征和數(shù)量起著至關(guān)重要的作用。根據(jù)用例的不同,機(jī)器學(xué)習(xí)模型將與各種不同的數(shù)據(jù)集一起工作,這些數(shù)據(jù)集的數(shù)據(jù)點(diǎn)和特征也會(huì)有所不同。在某些情況下,選擇模型需要理解模型如何處理不同大小的數(shù)據(jù)集。

像神經(jīng)網(wǎng)絡(luò)這樣的算法可以很好地處理大量數(shù)據(jù)和大量特征。但有些算法,如支持向量機(jī),只能處理有限數(shù)量的特征。在選擇算法時(shí),一定要考慮到數(shù)據(jù)的大小和特征的數(shù)量。

數(shù)據(jù)格式

數(shù)據(jù)通常來自于開源和自定義數(shù)據(jù)資源的混合,因此它也可以以各種不同的格式出現(xiàn)。最常見的數(shù)據(jù)格式是分類的和數(shù)值的。任何給定的數(shù)據(jù)集可能只包含分類數(shù)據(jù)、數(shù)字?jǐn)?shù)據(jù)或兩者的組合。

算法只能處理數(shù)值數(shù)據(jù),因此如果你的數(shù)據(jù)在格式上是分類的或非數(shù)值的,那么你將需要考慮將其轉(zhuǎn)換為數(shù)值數(shù)據(jù)的過程。

線性數(shù)據(jù)

在選擇模型之前,了解數(shù)據(jù)的線性是必要的一步。確定數(shù)據(jù)的線性有助于確定決策邊界或回歸線的形狀,這反過來指導(dǎo)我們使用的模型。一些諸如身高-體重的關(guān)系可以用線性函數(shù)表示,這意味著當(dāng)一個(gè)增加時(shí),另一個(gè)通常以相同的值增加,這種關(guān)系可以用線性模型表示。 

 

通過散點(diǎn)圖理解數(shù)據(jù)的線性度

了解這一點(diǎn)將幫助你選擇合適的機(jī)器學(xué)習(xí)算法。如果數(shù)據(jù)幾乎是線性可分的,或者可以使用線性模型表示,那么支持向量機(jī)、線性回歸或邏輯回歸等算法是一個(gè)不錯(cuò)的選擇。此外,還可以采用深度神經(jīng)網(wǎng)絡(luò)或集成模型。

訓(xùn)練時(shí)間

訓(xùn)練時(shí)間是算法學(xué)習(xí)和創(chuàng)建模型所花費(fèi)的時(shí)間。對于像針對特定用戶的電影推薦這樣的用例,每次用戶登錄時(shí)都需要對數(shù)據(jù)進(jìn)行培訓(xùn)。但是對于像庫存預(yù)測這樣的用例,需要每秒鐘都對模型進(jìn)行訓(xùn)練。因此,考慮訓(xùn)練模型所花費(fèi)的時(shí)間是至關(guān)重要的。

眾所周知,神經(jīng)網(wǎng)絡(luò)需要大量的時(shí)間來訓(xùn)練一個(gè)模型。傳統(tǒng)的機(jī)器算法,如k近鄰算法和邏輯回歸算法,花費(fèi)的時(shí)間要少得多。一些算法,如隨機(jī)森林,需要根據(jù)所使用的CPU內(nèi)核不同的訓(xùn)練時(shí)間。

預(yù)測時(shí)間

預(yù)測時(shí)間是模型進(jìn)行預(yù)測所需要的時(shí)間。對于產(chǎn)品通常是搜索引擎或在線零售商店的互聯(lián)網(wǎng)公司來說,快速預(yù)測時(shí)間是用戶體驗(yàn)順暢的關(guān)鍵。在這些情況下,速度非常重要,如果預(yù)測速度太慢,即使有良好結(jié)果的算法也沒有用。

然而,在一些業(yè)務(wù)需求中,準(zhǔn)確性比預(yù)測時(shí)間更重要。比如在我們前面提到的癌細(xì)胞的例子中,或者在檢測欺詐交易時(shí)。支持向量機(jī)、線性回歸、邏輯回歸和幾種類型的神經(jīng)網(wǎng)絡(luò)等算法可以進(jìn)行快速預(yù)測。然而,像KNN和ensemble模型這樣的算法通常需要更多的時(shí)間來進(jìn)行預(yù)測。

存儲(chǔ)需求

如果可以將整個(gè)數(shù)據(jù)集加載到服務(wù)器或計(jì)算機(jī)的RAM中,則可以應(yīng)用大量算法。然而,當(dāng)這是不可能的,你可能需要采用增量學(xué)習(xí)算法。

增量學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,通過輸入數(shù)據(jù)不斷地?cái)U(kuò)展已有模型的知識(shí),即進(jìn)一步訓(xùn)練模型。增量學(xué)習(xí)算法的目的是適應(yīng)新的數(shù)據(jù)而不忘記已有的知識(shí),因此不需要對模型進(jìn)行再訓(xùn)練。

在為機(jī)器學(xué)習(xí)任務(wù)選擇算法時(shí),性能似乎是最明顯的指標(biāo)。但僅憑性能還不足以選擇出最佳算法,你的模型需要滿足其他標(biāo)準(zhǔn),如內(nèi)存需求、訓(xùn)練和預(yù)測時(shí)間、可解釋性和數(shù)據(jù)格式。通過綜合更廣泛的因素,你可以做出更自信的決定。如果很難在幾個(gè)選定的模型中選擇最佳算法,你也可以在驗(yàn)證數(shù)據(jù)集上測試它們。

當(dāng)決定實(shí)現(xiàn)一個(gè)機(jī)器學(xué)習(xí)模型時(shí),選擇正確的模型意味著分析你的需求和預(yù)期結(jié)果。雖然這可能需要一些額外的時(shí)間和努力,但回報(bào)是更高的準(zhǔn)確性和改進(jìn)的性能。

 

責(zé)任編輯:華軒 來源: 讀芯術(shù)
相關(guān)推薦

2020-09-22 10:17:37

人工智能AI技術(shù)

2022-06-28 05:54:10

機(jī)器身份網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2009-02-27 15:13:00

2009-02-16 18:22:55

2020-05-28 10:18:57

IaaS云計(jì)算提供商

2021-12-06 13:56:45

云端云遷移云計(jì)算

2012-05-31 14:04:40

私有云云計(jì)算

2017-11-30 11:43:00

大數(shù)據(jù)存儲(chǔ)因素

2020-02-26 10:13:59

云計(jì)算IT安全

2024-10-12 17:13:53

2011-06-21 16:48:21

關(guān)鍵詞SEO

2022-09-28 13:33:27

云運(yùn)營云計(jì)算

2021-10-13 16:00:45

零信任網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2021-01-08 10:14:13

云計(jì)算混合云IT

2019-11-12 14:05:39

云計(jì)算數(shù)據(jù)IT

2015-08-14 09:36:46

2021-07-02 15:24:07

軟件開發(fā)軟件開發(fā)

2012-03-29 09:38:45

云計(jì)算云存儲(chǔ)

2019-06-10 14:30:19

2018-05-17 13:59:28

IT顧問
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)