機(jī)器學(xué)習(xí)簡(jiǎn)介
一、機(jī)器學(xué)習(xí)的定義
機(jī)器學(xué)習(xí)(Machine Learning)是計(jì)算機(jī)科學(xué)的子領(lǐng)域,也是人工智能的一個(gè)分支和實(shí)現(xiàn)方式。機(jī)器學(xué)習(xí)所關(guān)注的是計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能。機(jī)器學(xué)習(xí)的形式化描述: 對(duì)于某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么就稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。
機(jī)器學(xué)習(xí)主要的理論基礎(chǔ)涉及到概率論、數(shù)理統(tǒng)計(jì)、數(shù)值逼近、最優(yōu)化理論、計(jì)算復(fù) 雜理論等,核心要素是數(shù)據(jù)、算法和模型。
二、機(jī)器學(xué)習(xí)的發(fā)展
機(jī)器學(xué)習(xí)的發(fā)展分為知識(shí)推理期、知識(shí)工程期、淺層學(xué)習(xí)和深度學(xué)習(xí)幾個(gè)階段。在機(jī)器學(xué)習(xí)的發(fā)展過(guò)程中,隨著人們對(duì)智能的理解和現(xiàn)實(shí)問(wèn)題的解決方法演變,大致出現(xiàn)了符號(hào)主義、貝葉斯、聯(lián)結(jié)主義、進(jìn)化主義、行為類推主義五大流派。
三、機(jī)器學(xué)習(xí)的演化
四、機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它是實(shí)現(xiàn)人工智能的一個(gè)核心技術(shù),即以機(jī)器學(xué)習(xí)為手段解決人工智能中的問(wèn)題。機(jī)器學(xué)習(xí)是通過(guò)一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法并從數(shù)據(jù)中分析獲得規(guī)律,然后利用規(guī)律對(duì)新樣本進(jìn)行預(yù)測(cè)。
數(shù)據(jù)挖掘是從大量的業(yè)務(wù)數(shù)據(jù)中挖掘隱藏、有用的、正確的知識(shí)促進(jìn)決策的執(zhí)行。數(shù)據(jù)挖掘的很多算法都來(lái)自于機(jī)器學(xué)習(xí),并在實(shí)際應(yīng)用中進(jìn)行優(yōu)化。機(jī)器學(xué)習(xí)最近幾年也逐漸跳出實(shí)驗(yàn)室, 解決從實(shí)際的數(shù)據(jù)中學(xué)習(xí)模式,解決實(shí)際問(wèn)題。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的交集越來(lái)越大。
五、機(jī)器學(xué)習(xí)典型應(yīng)用領(lǐng)域
- 藝術(shù)創(chuàng)作
- 金融領(lǐng)域
- 醫(yī)療領(lǐng)域
- 自然語(yǔ)言處理
- 網(wǎng)絡(luò)安全
- 工業(yè)領(lǐng)域
- 娛樂(lè)行業(yè)
六、機(jī)器學(xué)習(xí)應(yīng)用
- 人機(jī)大戰(zhàn)
AlphaGo是深度卷積神經(jīng)網(wǎng)絡(luò)CNN、加強(qiáng) 學(xué)習(xí)RL、蒙特卡洛樹(shù)搜索MCTS三者相結(jié)合的產(chǎn)物
- 趨勢(shì)預(yù)測(cè)
Google流感趨勢(shì)預(yù)測(cè)
- 社保欺詐
反垃圾郵件系統(tǒng)
- 個(gè)性化推薦
七、機(jī)器學(xué)習(xí)流程
- 機(jī)器學(xué)習(xí)是一門入門容易但精通難的學(xué)科
- 機(jī)器學(xué)習(xí)分析人員需要掌握行業(yè)知識(shí)以了解業(yè)務(wù)流程、理解數(shù)據(jù)背后的隱含信息以合理解讀數(shù)據(jù)、從變化的角度和時(shí)間維度把握需求以確定使用哪些數(shù)據(jù),這是數(shù)據(jù)分析的基礎(chǔ)
- 機(jī)器學(xué)習(xí)的主要流程是明確分析目標(biāo)、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、建模分析、結(jié)果評(píng)估、部署使用以及學(xué)習(xí)更新。
八、機(jī)器學(xué)習(xí)怎么做
- 明確數(shù)據(jù)分析目標(biāo):明確數(shù)據(jù)分析目標(biāo)是機(jī)器學(xué)習(xí)首要的重要步驟,這個(gè)步驟需 要與用戶進(jìn)行充分的溝通。
- 數(shù)據(jù)收集:充足、全面的高質(zhì)量數(shù)據(jù)是機(jī)器學(xué)習(xí)的基礎(chǔ)。
- 數(shù)據(jù)預(yù)處理:數(shù)據(jù)清理,為保證數(shù)據(jù)的質(zhì)量,必要的數(shù)據(jù)治理是需要的。
- 數(shù)據(jù)建模:算法本身沒(méi)有絕對(duì)的好壞,不同的機(jī)器學(xué)習(xí)算法都有各自的使用范圍。選擇合適的建模方法或算法,算法的好壞需要實(shí)驗(yàn)比較確定。此階段是機(jī)器學(xué)習(xí)的核心部分,使用精巧復(fù)雜的分析方法從 數(shù)據(jù)中提取知識(shí),包括選擇建模技術(shù)、生成測(cè)試設(shè)計(jì)以及構(gòu) 建和評(píng)估模型。算法調(diào)優(yōu)(包括參數(shù)或結(jié)構(gòu)等方面),機(jī)器學(xué)習(xí)算法是科學(xué),應(yīng)用是藝術(shù)。
- 效果評(píng)估:選定模型之后,就可以評(píng)估機(jī)器學(xué)習(xí)結(jié)果在多大程度上能夠 幫助實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。此階段的要素包括評(píng)估學(xué)習(xí)結(jié)果,以便 為機(jī)器學(xué)習(xí)的過(guò)程提供反饋。
- 部署使用 更新:有效的機(jī)器學(xué)習(xí)結(jié)果會(huì)改善客戶業(yè)務(wù)決策的效果,給客戶帶來(lái)價(jià)值。因?yàn)闃I(yè)務(wù)可能發(fā)生變化,在部署過(guò)程中需要更新機(jī)器學(xué)習(xí)的模型等。機(jī)器學(xué)習(xí)不是一勞永逸的事情(遞增式學(xué)習(xí))。
九、機(jī)器學(xué)習(xí)常用算法
- 監(jiān)督學(xué)習(xí):支持向量機(jī)SVM、決策樹(shù)、樸素貝葉斯分類、k-近鄰算法KNN
- 非監(jiān)督學(xué)習(xí):主成分分析、奇異值分解、K-均值聚類
- 強(qiáng)化學(xué)習(xí):Q-learning
- 聚類算法
- 分類算法
- 回歸分析
- 關(guān)聯(lián)分析
十、數(shù)據(jù)挖掘常用算法
- 推薦算法
- 社會(huì)網(wǎng)絡(luò)分析-文本分析
- 十一、機(jī)器學(xué)習(xí)常見(jiàn)問(wèn)題
- 數(shù)據(jù)質(zhì)量問(wèn)題與預(yù)處理
- 數(shù)據(jù)量較少
- 數(shù)據(jù)量過(guò)多
- 維度災(zāi)難
- 數(shù)據(jù)不完整
- 異常數(shù)據(jù)
十二、數(shù)據(jù)分析常見(jiàn)陷阱
1、錯(cuò)誤理解相關(guān)關(guān)系
- 事物間的相關(guān)性并不意味著存在因果關(guān)系,或者有可能其因果關(guān)系顛倒了
- 需要深入理解業(yè)務(wù),規(guī)避大部分錯(cuò)誤
- 需要分析是否由第三方變量同時(shí)引起兩種變量的變化,找出其原因
2、錯(cuò)誤的比較對(duì)象
- 機(jī)器學(xué)習(xí)中的結(jié)果或效果進(jìn)行比較時(shí),容易將不同樣本集進(jìn)行結(jié)果比較,比較對(duì)象不合理,其結(jié)果自然無(wú)效,結(jié)論便不能成立
3、數(shù)據(jù)抽樣
- 數(shù)據(jù)抽樣時(shí)如果出現(xiàn)偏差可能會(huì)影響分析結(jié)果
- 需要考慮采樣標(biāo)準(zhǔn)
4、忽略或關(guān)注極值
- 忽視極值可能失去某類樣本或丟失某項(xiàng)重要特征
- 過(guò)于關(guān)注極值可能會(huì)對(duì)結(jié)果造成偏差,影響結(jié)論
5、相信巧合數(shù)據(jù)
- 實(shí)驗(yàn)中多次重復(fù)實(shí)驗(yàn)可避免巧合數(shù)據(jù)的出現(xiàn)
6、數(shù)據(jù)未做歸一化
- 兩個(gè)數(shù)據(jù)進(jìn)行比較時(shí),容易進(jìn)行總數(shù)比較,而忽視比例的比較
7、忽視第三方數(shù)據(jù)
- 搜集或使用爬蟲獲得更多數(shù)據(jù)使數(shù)據(jù)源更豐富
8、過(guò)度關(guān)心統(tǒng)計(jì)指標(biāo)
- 可能會(huì)忽視某些方法或結(jié)論成立的前提條件
- 十二、機(jī)器學(xué)習(xí)方法的選擇
- 理解目標(biāo)要求是機(jī)器學(xué)習(xí)方法選擇的關(guān)鍵,首先要 對(duì)問(wèn)題進(jìn)行分類,如果數(shù)據(jù)集中有標(biāo)簽則可進(jìn)行監(jiān) 督式學(xué)習(xí),反之可應(yīng)用無(wú)監(jiān)督學(xué)習(xí)
- 熟悉各類機(jī)器學(xué)習(xí)方法的特性是分析方法選擇的基 礎(chǔ),不僅需要了解如何使用各類分析算法,還要了解其實(shí)現(xiàn)的原理
- 在選擇模型前,要對(duì)數(shù)據(jù)進(jìn)行探索性分析
- 機(jī)器學(xué)習(xí)方法選擇過(guò)程中可在幾個(gè)可能模型中分析選出較優(yōu)的模型
- 選擇模型后,比較不同模型的擬合程度,反復(fù)調(diào)整參數(shù)使模型結(jié)果趨于穩(wěn)定
十三、機(jī)器學(xué)習(xí)項(xiàng)目團(tuán)隊(duì)的組建
- 職能崗位
- 項(xiàng)目經(jīng)理
- 業(yè)務(wù)專家
- 機(jī)器學(xué)習(xí)工程師
- 數(shù)據(jù)建模人員
- 可視化人員
- 評(píng)估人員
- 其他
十四、機(jī)器學(xué)習(xí)人才培養(yǎng)的難題
- 數(shù)理要求高
- 學(xué)習(xí)成本高
- 跨學(xué)科綜合能力
- 實(shí)踐機(jī)會(huì)少
十五、機(jī)器學(xué)習(xí)技能要求
十六、常見(jiàn)的機(jī)器學(xué)習(xí)平臺(tái)
- Python
- R
- TensorFlow
- Caffe
- 開(kāi)源社區(qū)Github