機(jī)器學(xué)習(xí)的7個步驟
機(jī)器學(xué)習(xí)的應(yīng)用正在迅速發(fā)展,已迅速成為醫(yī)學(xué),電子商務(wù),銀行等不同領(lǐng)域不可或缺的一部分。今天,我們將把機(jī)器學(xué)習(xí)分解為一個過程,并了解從開始到實(shí)現(xiàn)的所有步驟。它的實(shí)際應(yīng)用。
機(jī)器學(xué)習(xí)的過程將在下面列出的7個步驟中進(jìn)行細(xì)分。為了說明每個步驟的重要性和功能,我們將使用一個簡單模型的示例。該模型將負(fù)責(zé)區(qū)分蘋果和橙子。機(jī)器學(xué)習(xí)能夠勝任復(fù)雜任務(wù)。但是,為了以簡單的方式解釋該過程,以一個基本的例子來解釋相關(guān)的概念。
步驟1:收集數(shù)據(jù)
為了開發(fā)我們的機(jī)器學(xué)習(xí)模型,我們的第一步將是收集可用于區(qū)分這兩種成果的相關(guān)數(shù)據(jù)??梢允褂貌煌膮?shù)將水果分類為橙色或蘋果。為簡單起見,我們僅采用模型要利用的2個功能來執(zhí)行其操作。第一個特征是水果本身的顏色,第二個特征是水果的形狀。使用這些功能,我們希望我們的模型可以準(zhǔn)確地區(qū)分兩種水果。
需要一種機(jī)制來收集我們選擇的兩個功能的數(shù)據(jù)。例如,為了收集有關(guān)顏色的數(shù)據(jù),我們可以使用光譜儀,對于形狀數(shù)據(jù),我們可以使用水果的圖片,以便可以將它們視為2D圖形。為了收集數(shù)據(jù),我們將嘗試獲取盡可能多的不同類型的蘋果和橙子,以便為我們的功能創(chuàng)建各種數(shù)據(jù)集。為此,我們可能會嘗試在市場上尋找可能來自世界不同地區(qū)的橙子和蘋果。
收集數(shù)據(jù)的步驟是機(jī)器學(xué)習(xí)過程的基礎(chǔ)。選擇錯誤的功能或?qū)W⒂跀?shù)據(jù)集的有限類型條目等錯誤可能會使模型完全失效。這就是為什么當(dāng)收集數(shù)據(jù)時必須考慮必要的原因的原因,因?yàn)樵诖穗A段所犯的錯誤只會隨著我們進(jìn)行到后續(xù)階段而擴(kuò)大。
步驟2:準(zhǔn)備該數(shù)據(jù)
一旦我們收集了這兩個功能的數(shù)據(jù),下一步就是準(zhǔn)備數(shù)據(jù)以供進(jìn)一步使用。此階段的重點(diǎn)是識別并最小化我們針對這兩個功能的數(shù)據(jù)集中的任何潛在偏差。首先,我們將隨機(jī)化這兩個水果的數(shù)據(jù)順序。這是因?yàn)槲覀儾幌M唵闻c模型的選擇有任何關(guān)系。此外,我們將檢查我們的數(shù)據(jù)集是否偏向某個特定水果。這又將有助于識別和糾正潛在的偏見,因?yàn)檫@將意味著該模型將能夠正確地識別一種水果,但可能會與另一種水果抗?fàn)帯?/p>
數(shù)據(jù)準(zhǔn)備的另一個主要組成部分是將數(shù)據(jù)集分為兩部分。較大的部分(約80%)將用于訓(xùn)練模型,而較小的部分(約20%)用于評估。這很重要,因?yàn)樵谂嘤?xùn)和評估中使用相同的數(shù)據(jù)集將無法公平評估模型在實(shí)際場景中的性能。除了拆分?jǐn)?shù)據(jù)外,還需要采取其他措施來完善數(shù)據(jù)集。這可能包括刪除重復(fù)的條目,丟棄不正確的讀數(shù)等。
為模型準(zhǔn)備充分的數(shù)據(jù)可以提高其效率。它可以幫助減少模型的盲點(diǎn),從而提高預(yù)測的準(zhǔn)確性。因此,有意義的是審議和檢查你們的數(shù)據(jù)集,以便可以對其進(jìn)行微調(diào)以產(chǎn)生更好和有意義的結(jié)果。
步驟3:選擇模型
一旦完成了以數(shù)據(jù)為中心的步驟,選擇模型類型就是我們的下一個行動方案。由數(shù)據(jù)科學(xué)家開發(fā)的各種現(xiàn)有模型可以用于不同的目的。這些模型在設(shè)計(jì)時考慮了不同的目標(biāo)。例如,某些模型更適合處理文本,而另一種模型可能更適合處理圖像。關(guān)于我們的模型,簡單的線性回歸模型適用于區(qū)分水果。在這種情況下,水果的類型將是我們的因變量,而水果的顏色和水果的形狀將是兩個預(yù)測變量或自變量。
在我們的示例中,模型選擇非常簡單。在更復(fù)雜的情況下,我們需要做出與預(yù)期結(jié)果相匹配的選擇??梢栽?大類中探索機(jī)器學(xué)習(xí)模型的選項(xiàng)。第一類是監(jiān)督學(xué)習(xí)模型。在這樣的模型中,結(jié)果是已知的,因此我們不斷改進(jìn)模型本身,直到我們的輸出達(dá)到所需的精度水平。為我們的水果模型選擇的線性回歸模型是監(jiān)督學(xué)習(xí)的一個例子。如果結(jié)果未知,我們需要分類,則使用第二類,即無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的示例包括K-means和Apriori算法。第三類是強(qiáng)化學(xué)習(xí)。它著重于學(xué)習(xí)在反復(fù)試驗(yàn)的基礎(chǔ)上做出更好的決策。它們通常在商業(yè)環(huán)境中使用。馬爾可夫的決策過程就是一個例子。
步驟4:培訓(xùn)
機(jī)器學(xué)習(xí)過程的核心是模型的訓(xùn)練。大量的“學(xué)習(xí)”在此階段完成。在這里,我們使用分配給訓(xùn)練的數(shù)據(jù)集的一部分來教我們的模型來區(qū)分這兩種成果。如果我們用數(shù)學(xué)術(shù)語查看模型,則輸入(即我們的2個要素)將具有系數(shù)。這些系數(shù)稱為特征權(quán)重。也將涉及一個常數(shù)或y截距。這稱為模型的偏差。確定其值的過程是反復(fù)試驗(yàn)的。最初,我們?yōu)樗鼈冞x擇隨機(jī)值并提供輸入。將獲得的輸出與實(shí)際輸出進(jìn)行比較,并通過嘗試不同的權(quán)重和偏差值將差異最小化。
培訓(xùn)需要耐心和實(shí)驗(yàn)。知道將在其中實(shí)施模型的領(lǐng)域的知識也很有用。例如,如果將機(jī)器學(xué)習(xí)模型用于識別保險(xiǎn)公司的高風(fēng)險(xiǎn)客戶,則由于可以在迭代過程中進(jìn)行更多有根據(jù)的猜測,因此有關(guān)保險(xiǎn)行業(yè)運(yùn)作方式的知識將加快培訓(xùn)過程。如果該模型開始成功地發(fā)揮作用,那么培訓(xùn)將證明是非常有益的。這相當(dāng)于孩子學(xué)習(xí)騎自行車的時間。最初,他們可能會摔倒多次,但過了一會兒,他們會更好地掌握過程,并能夠在騎自行車時對不同情況做出更好的反應(yīng)。
步驟5:評估
在訓(xùn)練好模型之后,需要對其進(jìn)行測試,以查看其在現(xiàn)實(shí)環(huán)境中能否正常運(yùn)行。這就是為什么將用于評估而創(chuàng)建的數(shù)據(jù)集的一部分用于檢查模型的熟練程度的原因。這會將模型置于一個場景中,在該場景中遇到的情況并非其訓(xùn)練的一部分。在我們的案例中,這可能意味著嘗試確定該模型中全新的蘋果或橙子的類型。但是,通過訓(xùn)練,該模型應(yīng)具有足夠的能力來推斷信息并確定該水果是蘋果還是橙子。
在商業(yè)應(yīng)用中,評估變得非常重要。評估使數(shù)據(jù)科學(xué)家可以檢查他們是否設(shè)定了要實(shí)現(xiàn)的目標(biāo)。如果結(jié)果不令人滿意,則需要重新檢查先前的步驟,以便找出并找出模型性能不佳的根本原因。如果評估未正確完成,則該模型可能無法出色地實(shí)現(xiàn)其所需的商業(yè)目的。這可能意味著設(shè)計(jì)和銷售模型的公司可能會失去與客戶的良好信譽(yù)。這也可能會損害公司的聲譽(yù),因?yàn)樵谛湃喂娟P(guān)于機(jī)器學(xué)習(xí)模型的敏銳度時,未來的客戶可能會猶豫不決。因此,評估模型對于避免上述不良影響至關(guān)重要。
步驟6:超參數(shù)調(diào)整
如果評估成功,則進(jìn)入超參數(shù)調(diào)整步驟。此步驟試圖改善在評估步驟中獲得的積極結(jié)果。對于我們的示例,我們將看看是否可以使我們的模型在識別蘋果和橙子方面更加出色。我們可以采用不同的方法來改進(jìn)模型。其中之一是重新訓(xùn)練步驟,并使用訓(xùn)練數(shù)據(jù)集的多次掃描來訓(xùn)練模型。這可能會導(dǎo)致更高的準(zhǔn)確性,因?yàn)橛?xùn)練的持續(xù)時間越長,暴露越多,并改善了模型的質(zhì)量。解決該問題的另一種方法是優(yōu)化提供給模型的初始值。隨機(jī)初始值通常會因反復(fù)試驗(yàn)逐漸完善而產(chǎn)生較差的結(jié)果。然而,如果我們可以提出更好的初始值,或者使用分布而不是值來啟動模型,那么我們的結(jié)果可能會更好。我們還可以使用其他參數(shù)來完善模型,但是該過程比邏輯過程更直觀,因此沒有確定的方法。
自然地,出現(xiàn)一個問題,當(dāng)模型實(shí)現(xiàn)其目標(biāo)時,為什么我們首先需要進(jìn)行超參數(shù)調(diào)整?這可以通過查看基于機(jī)器學(xué)習(xí)的服務(wù)提供商的競爭性質(zhì)來回答??蛻魧で髾C(jī)器學(xué)習(xí)模型來解決各自的問題時,可以從多個選項(xiàng)中進(jìn)行選擇。但是,它們更有可能被產(chǎn)生最準(zhǔn)確結(jié)果的方法所吸引。這就是為什么要確保機(jī)器學(xué)習(xí)模型的商業(yè)成功,超參數(shù)調(diào)整是必不可少的步驟。
步驟7:預(yù)測
機(jī)器學(xué)習(xí)過程的最后一步是預(yù)測。在此階段,我們認(rèn)為模型已準(zhǔn)備就緒,可以用于實(shí)際應(yīng)用。我們的水果模型現(xiàn)在應(yīng)該能夠回答給定的水果是蘋果還是橙子的問題。該模型不受人為干擾,并根據(jù)其數(shù)據(jù)集和訓(xùn)練得出自己的結(jié)論。該模型所面臨的挑戰(zhàn)仍然是在不同的相關(guān)場景下其性能是否能勝過或至少與人類判斷相匹配。
預(yù)測步驟是最終用戶在各自行業(yè)中使用機(jī)器學(xué)習(xí)模型時看到的內(nèi)容。這一步凸顯了為什么許多人認(rèn)為機(jī)器學(xué)習(xí)是各個行業(yè)的未來。復(fù)雜但執(zhí)行良好的機(jī)器學(xué)習(xí)模型可以改善其各自所有者的決策過程。做出決定時,人類只能處理一定數(shù)量的數(shù)據(jù)和相關(guān)因素。另一方面,機(jī)器學(xué)習(xí)模型可以處理和鏈接大量數(shù)據(jù)。這些鏈接使模型可以獲得獨(dú)特的見解,如果采用通常的手動方法,則可能無法發(fā)現(xiàn)這些見解。結(jié)果,寶貴的人力資源從處理信息然后做出決定的負(fù)擔(dān)中解放出來。
結(jié)論
借助機(jī)器學(xué)習(xí),我們可以確定如何區(qū)分蘋果和橘子,盡管聽起來可能并不令人印象深刻,但是對于大多數(shù)機(jī)器學(xué)習(xí)模型而言,我們采取的步驟都是相同的。隨著機(jī)器學(xué)習(xí)的發(fā)展和AI的普遍發(fā)展,該標(biāo)準(zhǔn)將來可能會改變,但是下次需要進(jìn)行ML項(xiàng)目時,請記住這些標(biāo)準(zhǔn):
- 收集數(shù)據(jù)
- 準(zhǔn)備該數(shù)據(jù)
- 選擇模型
- 訓(xùn)練
- 評估
- 超參數(shù)調(diào)整
- 預(yù)言