自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)開發(fā)指南(基礎(chǔ)篇)

原創(chuàng)
人工智能 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的重要組成,簡單來說就是計(jì)算機(jī)程序?qū)W習(xí)數(shù)據(jù),并產(chǎn)生相應(yīng)的建議與決策的過程。

【51CTO.com原創(chuàng)稿件】

前言

機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的重要組成,簡單來說就是計(jì)算機(jī)程序?qū)W習(xí)數(shù)據(jù),并產(chǎn)生相應(yīng)的建議與決策的過程。

一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)的定義是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

本文用圖文并茂的方式帶你深入了解機(jī)器學(xué)習(xí)的概念原理及開發(fā)流程。文章結(jié)構(gòu)如下:

  • 前言

  • 一、機(jī)器學(xué)習(xí)概論

  • 二、機(jī)器學(xué)習(xí)開發(fā)流程 

一、機(jī)器學(xué)習(xí)概論

機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)分布構(gòu)建出概率統(tǒng)計(jì)模型,并運(yùn)用模型對數(shù)據(jù)進(jìn)行分析與預(yù)測的方法。按照學(xué)習(xí)數(shù)據(jù)分布的方式的不同,主要可以分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)

1、監(jiān)督學(xué)習(xí):

是從有標(biāo)注的數(shù)據(jù)(x為變量特征空間, y為標(biāo)簽)中,通過選擇的模型及確定的學(xué)習(xí)策略,再用合適算法計(jì)算后學(xué)習(xí)到最優(yōu)模型,并用模型預(yù)測的過程。

由模型預(yù)測結(jié)果Y的取值有限的或者無限的,可分為分類模型或者回歸模型。

2、非監(jiān)督學(xué)習(xí):

是從無標(biāo)注的數(shù)據(jù)(x為變量特征空間),通過選擇的模型及確定的學(xué)習(xí)策略,再用合適算法計(jì)算后學(xué)習(xí)到最優(yōu)模型,并用模型發(fā)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律或者內(nèi)在結(jié)構(gòu)。

按照應(yīng)用場景,可以分為聚類,降維和關(guān)聯(lián)分析等模型。

二、機(jī)器學(xué)習(xí)開發(fā)流程

1、明確業(yè)務(wù)問題

明確業(yè)務(wù)問題是機(jī)器學(xué)習(xí)的先決條件,這里需要抽象出現(xiàn)實(shí)業(yè)務(wù)問題的解決方案:需要學(xué)習(xí)什么樣的數(shù)據(jù)--輸入,目標(biāo)是得到什么樣的模型做決策--輸出。

(如:學(xué)習(xí)已有的新浪新聞及其類別標(biāo)簽數(shù)據(jù),得到一個(gè)分類模型,通過模型對每天新的新聞做類別預(yù)測,以歸類到每個(gè)新聞?lì)l道。)

 

2、數(shù)據(jù)選擇:收集及輸入數(shù)據(jù)

數(shù)據(jù)決定了機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能逼近這個(gè)上限。 意味著數(shù)據(jù)的質(zhì)量決定了模型的最終效果,在實(shí)際的工業(yè)應(yīng)用中,算法通常占了很小的一部分,大部分工程師的工作都是在找數(shù)據(jù)、提煉數(shù)據(jù)、分析數(shù)據(jù)。數(shù)據(jù)選擇需要關(guān)注的是:

① 數(shù)據(jù)需具有代表性,否則會導(dǎo)致模型的過擬合,對訓(xùn)練數(shù)據(jù)之外的新數(shù)據(jù)無識別能力;

② 如果監(jiān)督學(xué)習(xí)的業(yè)務(wù)與時(shí)間有關(guān),數(shù)據(jù)時(shí)間窗口需要明確,否則可能會導(dǎo)致數(shù)據(jù)泄漏,即存在和利用因果顛倒的feature的現(xiàn)象。(如預(yù)測明天會不會下雨,但是訓(xùn)練數(shù)據(jù)引入明天或者本周的溫濕度情況)  

3、特征工程:數(shù)據(jù)預(yù)處理及特征提取

特征工程就是將原始數(shù)據(jù)轉(zhuǎn)化為模型有用的特征,技術(shù)手段如特征表示,缺失值/異常值處理,數(shù)據(jù)離散化,數(shù)據(jù)標(biāo)準(zhǔn)化,特征提取等。

  • 特征表示 數(shù)據(jù)需要轉(zhuǎn)換為計(jì)算機(jī)能夠處理的數(shù)值形式。 如果數(shù)據(jù)是圖片數(shù)據(jù)需要轉(zhuǎn)換為RGB三維矩陣的表示;而文本類的數(shù)據(jù)可以用多維數(shù)組來表示,有Onehot獨(dú)熱編碼表示、word2vetor分布式表示及bert動(dòng)態(tài)編碼等。

  • 異常值處理

    收集的數(shù)據(jù)由于人為或者自然因素可能引入了異常值(噪音),這會對模型學(xué)習(xí)進(jìn)行干擾。

    通常需要對人為引起的異常值進(jìn)行處理,通過業(yè)務(wù)判斷和技術(shù)手段(python、正則式匹配、pandas數(shù)據(jù)處理及matplotlib可視化等數(shù)據(jù)分析處理技術(shù))篩選異常的信息,并結(jié)合業(yè)務(wù)情況刪除或者替換數(shù)值。 

  • 缺失值處理

    數(shù)據(jù)缺失的部分,通過結(jié)合業(yè)務(wù)進(jìn)行填充數(shù)值、不做處理或者刪除。 根據(jù)缺失率情況及處理方式分為以下情況:

    ① 缺失率較高,并結(jié)合業(yè)務(wù)可以直接刪除該特征變量。此外可以新增一個(gè)bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;

    ② 缺失率較低,結(jié)合業(yè)務(wù)可使用一些缺失值填充手段,如pandas的fillna方法、訓(xùn)練隨機(jī)森林模型預(yù)測缺失值填充;

    ③ 不做處理:部分模型如隨機(jī)森林、xgboost、lightgbm能夠處理數(shù)據(jù)缺失的情況,不需要對缺失數(shù)據(jù)做任何的處理。

  • 數(shù)據(jù)離散化

    數(shù)據(jù)離散化能減小算法的時(shí)間和空間開銷(不同算法情況不一),并可以使特征更有業(yè)務(wù)解釋性。

    離散化是將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間,分段的原則有基于等距離、等頻率等方法。

  • 數(shù)據(jù)標(biāo)準(zhǔn)化

    數(shù)據(jù)各個(gè)特征變量的量綱差異很大,可以使用數(shù)據(jù)標(biāo)準(zhǔn)化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:

    ① min-max 標(biāo)準(zhǔn)化:

    將數(shù)值范圍縮放到(0,1),但沒有改變數(shù)據(jù)分布。max為樣本最大值,min為樣本最小值。

    ② z-score 標(biāo)準(zhǔn)化:

    將數(shù)值范圍縮放到0附近, 經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。u是平均值,σ是標(biāo)準(zhǔn)差。

  • 特征提取

    特征提取環(huán)節(jié),是結(jié)合業(yè)務(wù)及技術(shù)手段生成特征(特征衍生)并最終確認(rèn)(特征選擇/特征降維)進(jìn)入模型的特征變量,這對模型結(jié)果有著決定性的影響。 

    特征衍生:可能現(xiàn)有基礎(chǔ)特征對樣本信息的表述有限,通過生成新含義的特征進(jìn)行補(bǔ)充。特征衍生是對現(xiàn)有基礎(chǔ)特征的含義進(jìn)行某種處理(組合/轉(zhuǎn)換之類):

    ① 結(jié)合業(yè)務(wù)的理解做衍生,比如通過12個(gè)月工資可以加工出:平均月工資,薪資變化,是否發(fā)工資 等等;

    ② 使用特征衍生工具:feature tools等技術(shù);

    特征選擇:篩選出顯著特征、摒棄非顯著特征。 特征選擇方法一般分為三類:

① 過濾法:按照特征的發(fā)散性或者相關(guān)性指標(biāo)對各個(gè)特征進(jìn)行評分后選擇,如方差驗(yàn)證、相關(guān)系數(shù)、卡方檢驗(yàn)及信息增益等方法。

② 包裝法,每次選擇部分特征,或者排除部分特征,根據(jù)模型預(yù)測效果評分選擇特征。

③ 嵌入法:使用某些模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小來選擇特征,如XGBOOST特征重要性輸出。

特征降維:如果特征選擇后的特征數(shù)目仍太多,這種情形下經(jīng)常會有數(shù)據(jù)樣本稀疏、距離計(jì)算困難的問題(稱為 “維數(shù)災(zāi)難”),可以通過特征降維解決。 常用的降維方法有:主成分分析法(PCA), 線性判別分析法(LDA)等。

4、模型訓(xùn)練

模型訓(xùn)練是選擇模型學(xué)習(xí)數(shù)據(jù)分布的過程。這過程還需要依據(jù)訓(xùn)練結(jié)果調(diào)整算法的(超)參數(shù),使得結(jié)果變得更加優(yōu)良。

  • 數(shù)據(jù)集劃分

    訓(xùn)練模型前,一般會把數(shù)據(jù)集分為訓(xùn)練集和測試集,并可再對訓(xùn)練集再細(xì)分為訓(xùn)練集和驗(yàn)證集,從而對模型的泛化能力進(jìn)行評估。

    ① 訓(xùn)練集(training set):用于運(yùn)行學(xué)習(xí)算法。

    ② 開發(fā)驗(yàn)證集(development set)用于調(diào)整參數(shù),選擇特征以及對算法其它優(yōu)化。常用的驗(yàn)證方式有交叉驗(yàn)證Cross-validation,留一法等;

    ③ 測試集(test set)用于評估算法的性能,但不會據(jù)此改變學(xué)習(xí)算法或參數(shù)。

  • 模型選擇

    常見的機(jī)器學(xué)習(xí)算法如下:

     

模型選擇取決于數(shù)據(jù)情況和預(yù)測目標(biāo)??梢杂?xùn)練多個(gè)模型,根據(jù)實(shí)際的效果選擇表現(xiàn)較好的模型或者模型融合。

 

  • 模型訓(xùn)練

    訓(xùn)練過程可以通過調(diào)參進(jìn)行優(yōu)化,調(diào)參的過程是一種基于數(shù)據(jù)集、模型和訓(xùn)練過程細(xì)節(jié)的實(shí)證過程。超參數(shù)優(yōu)化需要基于對算法的原理的理解和經(jīng)驗(yàn),此外還有自動(dòng)調(diào)參技術(shù):網(wǎng)格搜索、貝葉斯優(yōu)化等。 

5、 模型評估

模型學(xué)習(xí)的目的:使學(xué)到的模型對新數(shù)據(jù)能有很好的預(yù)測能力(泛化能力)。

模型評估的標(biāo)準(zhǔn):基于給定損失函數(shù)的模型訓(xùn)練誤差(training error)和測試誤差(test error)評估模型,現(xiàn)實(shí)中通常由測試誤差評估模型的泛化能力。

  • 評估指標(biāo)

    ① 評估分類模型: 常用的評估標(biāo)準(zhǔn)有查準(zhǔn)率P、查全率R、兩者調(diào)和平均F1-score 等,并由混淆矩陣的統(tǒng)計(jì)相應(yīng)的個(gè)數(shù)計(jì)算出數(shù)值:

    查準(zhǔn)率是指分類器分類正確的正樣本(TP)的個(gè)數(shù)占該分類器所有預(yù)測為正樣本個(gè)數(shù)(TP+FP)的比例;

    查全率是指分類器分類正確的正樣本個(gè)數(shù)(TP)占所有的正樣本個(gè)數(shù)(TP+FN)的比例。

    F1-score是查準(zhǔn)率P、查全率R的調(diào)和平均:

    ② 評估回歸模型: 常用的評估指標(biāo)有RMSE均方根誤差 等。反饋的是預(yù)測數(shù)值與實(shí)際值的擬合情況。

    ③ 評估聚類模型:可分為兩類方式,一類將聚類結(jié)果與某個(gè)“參考模型”的結(jié)果進(jìn)行比較,稱為“外部指標(biāo)”(external index):如蘭德指數(shù),F(xiàn)M指數(shù) 等; 另一類是直接考察聚類結(jié)果而不利用任何參考模型,稱為“內(nèi)部指標(biāo)”(internal index):如緊湊度、分離度等。

  • 評估模型

    根據(jù)訓(xùn)練集及測試集的指標(biāo)表現(xiàn),分析原因并對模型進(jìn)行優(yōu)化,常用的方法有:

6、決策

決策是機(jī)器學(xué)習(xí)最終目的,對模型預(yù)測信息加以分析解釋,并應(yīng)用于實(shí)際的工作領(lǐng)域。

需要注意的是工程上是結(jié)果導(dǎo)向,模型在線上運(yùn)行的效果直接決定模型的成敗,不僅僅包括其準(zhǔn)確程度、誤差等情況,還包括其運(yùn)行的速度(時(shí)間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性的綜合考慮。

[[280630]] 

參考文獻(xiàn)

《面向程序員數(shù)據(jù)挖掘指南》

《機(jī)器學(xué)習(xí)》--周志華

《統(tǒng)計(jì)學(xué)習(xí)方法》--李航

Google machine-learning

作者:

大白,多年算法開發(fā)經(jīng)驗(yàn),熟悉自然語言處理,銀行金融風(fēng)控,知識圖譜等領(lǐng)域。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

 

責(zé)任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2011-07-25 16:21:22

Sencha touc

2022-08-02 08:01:09

開發(fā)插件Chrome前端技術(shù)

2011-06-09 18:24:36

QT Wince

2012-03-26 09:27:40

谷歌安卓開發(fā)谷歌安卓

2023-05-15 18:44:07

前端開發(fā)

2015-03-10 10:59:18

Node.js開發(fā)指南基礎(chǔ)介紹

2009-06-24 16:30:21

JSF組件模型

2015-11-12 16:14:52

Python開發(fā)實(shí)踐

2010-06-13 09:27:56

Widget開發(fā)

2015-12-16 10:30:18

前端開發(fā)指南

2012-05-18 10:08:56

TitaniumAndroid

2021-08-09 09:47:34

Blazor 路由開發(fā)

2011-04-18 11:00:34

使用音頻BlackBerry

2011-12-29 10:48:49

移動(dòng)Web

2021-06-21 15:21:52

鴻蒙HarmonyOS應(yīng)用開發(fā)

2022-03-23 15:17:00

Harmony鴻蒙操作系統(tǒng)

2014-06-12 09:35:25

設(shè)備定向API移動(dòng)開發(fā)

2014-05-16 11:09:38

Handlebars模板引擎

2011-08-02 17:58:09

iPhone開發(fā) 事件

2011-11-29 16:38:58

Knockout
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號