如何培訓、測試和維護人工智能和機器學習模型
為了深入了解創(chuàng)建人工智能和機器學習模型所需的技能集,需要了解模型創(chuàng)建過程,這是由機器學習軟件逐步學習完成的,以及生成符合預定義成功標準的模型所面臨的挑戰(zhàn)。
機器學習軟件使用數(shù)據(jù)來訓練一個模型,這個模型構(gòu)成了人工智能產(chǎn)品,可以通過定期更新人工智能輸入數(shù)據(jù)在一段時間內(nèi)重復使用。機器學習軟件有四種基本的學習類型:
- 監(jiān)督:包括讓算法學習數(shù)據(jù),同時使用數(shù)據(jù)上的標簽提供正確答案。這本質(zhì)上意味著要預測的類或值從一開始就是已知的,并且對算法進行了很好的定義。
- 無監(jiān)督:與有監(jiān)督的方法不同,算法并不提供正確答案或任何答案,由算法自行決定是否收集相似的數(shù)據(jù)并加以理解。
- 半監(jiān)督學習:監(jiān)督和非監(jiān)督學習的混合。
- 強化:在強化學習中,每一次正確的預測都會給予算法獎勵,從而提高準確率。
需要數(shù)據(jù)科學專業(yè)知識來確定機器學習軟件中用于擬合特定數(shù)據(jù)集的最佳統(tǒng)計算法。
在眾多的統(tǒng)計算法中,比較流行的有:用于情感分析、垃圾郵件檢測和推薦的樸素貝葉斯算法;用于結(jié)果預測的決策樹;可以合并多個決策樹來改進預測的隨機森林;用于二元分類(A或B)邏輯回歸;AdaBoost、Gaussian Mixed、Recommender和K-Means聚類將數(shù)據(jù)重新組織,如市場細分。
訓練人工智能和機器學習模型
機器學習有三個不同的學習(也稱為訓練)階段:訓練、驗證和測試。在開始之前,必須確保數(shù)據(jù)組織良好且無誤。盡管這一概念很簡單,但將數(shù)據(jù)轉(zhuǎn)換為有序性可能是一個耗時且面向細節(jié)的過程,可能需要人工處理。
其目標是數(shù)據(jù)不存在重復、拼寫錯誤和斷開連接。在清理之后,數(shù)據(jù)被隨機分成三組,分別用于三個訓練階段。隨機數(shù)據(jù)劃分的目的是阻止選擇數(shù)據(jù)偏差。
以下是一些與模型創(chuàng)建相關(guān)的定義:
- 參數(shù)。模型參數(shù)是機器學習軟件在訓練過程中從人工智能輸入數(shù)據(jù)自動學習的值,盡管用戶可以在訓練過程中人工更改參數(shù)值。例如,會話期間要進行的最大通過次數(shù)和訓練數(shù)據(jù)的最大模型大小(以字節(jié)為單位)。
- 超參數(shù)。超參數(shù)位于機器學習外部,由數(shù)據(jù)科學家用戶預先輸入,因此超參數(shù)不是從人工智能數(shù)據(jù)中派生出來的,可以在訓練過程中更改。超參數(shù)的例子包括使用聚類算法時返回的簇數(shù)和神經(jīng)網(wǎng)絡中的層數(shù)。
- 變量。機器學習軟件會選擇特定的人工智能數(shù)據(jù)輸入字段,并在訓練過程中使用額外的變量。其變量可以是年齡、身高和體重。
在開始訓練(第一階段)之前,給數(shù)據(jù)添加標簽是很重要的,這樣機器學習軟件就可以繼續(xù)從數(shù)據(jù)中獲取重要的線索,以幫助它學習。無監(jiān)督學習不需要添加標簽。機器學習軟件的默認參數(shù)值也可以用來啟動或參數(shù)可以單獨更改。
準確性測試模型
當訓練階段滿足成功標準時,就進入了驗證階段。第一遍使用一組新的數(shù)據(jù)。如果結(jié)果良好,就進入最后的測試階段。
如果沒有得到理想的結(jié)果,則可以讓機器學習軟件對數(shù)據(jù)進行額外的傳遞,直到機器學習軟件沒有顯示新的模式或達到最大的傳遞次數(shù)。隨著訓練的推進,這些參數(shù)由機器學習軟件或管理它的人員自動修改。
測試階段是針對一組新數(shù)據(jù)的“期末考試”——但這一次缺少“輔助”數(shù)據(jù)標簽(僅用于監(jiān)督學習)。如果軟件通過了成功的標準測試,它就是一個工作模型。如果沒有,那就繼續(xù)訓練。和以前一樣,測試團隊可以人工修改參數(shù),或者讓機器學習軟件在訓練過程中自動修改參數(shù)。
人工智能的機器學習是機器學習軟件暴露數(shù)據(jù)的重復回放,參數(shù)由機器學習軟件自動迭代改變(可能由人工修改),以使模型在每次經(jīng)過測試之后更智能。機器學習軟件繼續(xù)對數(shù)據(jù)進行多次遍歷,直到意識到?jīng)]有檢測到新的模式,或者直到它達到最大遍歷次數(shù),從而使其停止。
人工智能模型的持續(xù)維護
保持警惕(監(jiān)控)是享受人工智能自由的代價。要確定人工智能模型的表現(xiàn)如何,一個典型的方法是監(jiān)測實際表現(xiàn)與人工智能預測的匹配程度。如果人工智能預測表現(xiàn)不佳,就應該重新進入機器學習模型訓練過程,使用最新的數(shù)據(jù)修正模型。
需要記住的是,輸入的數(shù)據(jù)很容易隨時間而改變,這就是交易中的數(shù)據(jù)漂移。數(shù)據(jù)漂移可能會導致人工智能模型的準確性下降,因此早期數(shù)據(jù)漂移預警對于保持問題的領(lǐng)先至關(guān)重要。人工智能工具可以跟蹤數(shù)據(jù)漂移并找到離群數(shù)據(jù),如Fiddler、Neptune和Azure ML,這些工具可以提供早期預警,因此數(shù)據(jù)問題可以通過機器學習的更新盡早解決。