自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

掌握這六步,搭建機器學(xué)習(xí)項目

人工智能
機器學(xué)習(xí)覆蓋的范圍十分廣泛。這篇文章將整體描述機器學(xué)習(xí)適用的典型問題,提供實現(xiàn)機器學(xué)習(xí)項目雛形的框架。

上圖白板展示了一系列機器學(xué)習(xí)項目啟動

機器學(xué)習(xí)覆蓋的范圍十分廣泛。這篇文章將整體描述機器學(xué)習(xí)適用的典型問題,提供實現(xiàn)機器學(xué)習(xí)項目雛形的框架。

首先厘清一些定義。

機器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)區(qū)別何在?

這三個主題沒有明確的定義,因而有些難以理解。為防止誤解,我們將問題簡化。讀者可以認為本文提到的機器學(xué)習(xí)就是發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,以理解某些問題或者預(yù)測未來事件。

希望讀者在閱讀以下步驟時能邊學(xué)邊做,檢驗結(jié)果。在實踐中學(xué)習(xí)。

一條機器學(xué)習(xí)管道可以被分解成三個主要步驟:數(shù)據(jù)收集、數(shù)據(jù)建模和模型運用。這三個步驟相互影響、環(huán)環(huán)相扣。

啟動項目時,你可能走入如下循環(huán):收集數(shù)據(jù),對其建模,發(fā)現(xiàn)收集到的數(shù)據(jù)質(zhì)量較差,重新收集數(shù)據(jù),建模,運用這一模型,發(fā)現(xiàn)它并不管用,重新建模,運用,發(fā)現(xiàn)新模型仍然沒用,再次收集數(shù)據(jù)……

等等,模型是什么?運用又是什么?如何收集數(shù)據(jù)?

好問題。

收集數(shù)據(jù)的方式取決于問題。下文將展示一些例子,讀者也可以看看電子表中的顧客購買記錄。

建模就是運用機器學(xué)習(xí)算法從收集到的數(shù)據(jù)中尋找知識。

普通算法和機器學(xué)習(xí)算法的區(qū)別是什么?

普通的算法就像菜譜,是把原料轉(zhuǎn)換為美味菜肴的一系列指令。

機器學(xué)習(xí)的特殊之處在于,原始條件是材料和菜肴,而非指令。機器學(xué)習(xí)算法研究原料和菜肴,給出轉(zhuǎn)換所需的指令。

機器學(xué)習(xí)算法多種多樣,不同算法解決不同問題的性能不同,但是它們的目標(biāo)一致,即尋找數(shù)據(jù)中的模式或者指令集。

運用就是實際應(yīng)用找到的指令集。運用的形式多種多樣,既可以是在網(wǎng)絡(luò)商店中向顧客推薦商品,也可以是為醫(yī)療機構(gòu)尋找更好的疾病檢測方案。

不同項目中每個步驟的具體細節(jié)不盡相同,但是原理基本相似。

本文重點講解數(shù)據(jù)建模。假設(shè)讀者已經(jīng)收集到了數(shù)據(jù),正準(zhǔn)備用它構(gòu)建一個機器學(xué)習(xí)模型。這個過程可以分為以下幾步:

 

掌握這六步,搭建<span><span><span><i style=完美的機器學(xué)習(xí)項目" src="http://p9.pstatp.com/large/pgc-image/278cd0d2bfac4070a450306dc3ae8b4c" width="640" height="251">

 

機器學(xué)習(xí)項目可以分為三步,數(shù)據(jù)收集,建模和模型運用。本文主要關(guān)注建模階段,并假設(shè)讀者已經(jīng)擁有數(shù)據(jù)。

1. 問題定義——要解決的商業(yè)問題是什么?如何把它轉(zhuǎn)化為機器學(xué)習(xí)問題?

2. 數(shù)據(jù)——既然機器學(xué)習(xí)是在數(shù)據(jù)中洞察規(guī)律,那么數(shù)據(jù)是什么類型的?它如何與問題產(chǎn)生關(guān)聯(lián)?數(shù)據(jù)是結(jié)構(gòu)性的還是無結(jié)構(gòu)的?靜態(tài)的還是動態(tài)的?

3. 模型評估——怎么樣才算成功?準(zhǔn)確率95%的機器學(xué)習(xí)模型夠好嗎?

4. 變量——需要使用哪一部分數(shù)據(jù)?已知信息如何影響數(shù)據(jù)使用?

5. 建模——選擇哪個模型?如何改進?如何比較不同模型的性能?

6. 實驗——還可以做什么嘗試?模型的表現(xiàn)符合預(yù)期嗎?已知信息如何影響其他步驟?

下面深入討論上述問題。

 

1. 問題定義——把商業(yè)問題改寫成機器學(xué)習(xí)問題

判斷能否運用機器學(xué)習(xí),第一步是把待解決的商業(yè)問題轉(zhuǎn)化為機器學(xué)習(xí)問題。

有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和強化學(xué)習(xí)是四種主要的機器學(xué)習(xí)技術(shù)(此處為了行文簡單,省略了半監(jiān)督學(xué)習(xí))。其中監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)最常應(yīng)用于商業(yè)項目。

有監(jiān)督學(xué)習(xí)

  1. 已知數(shù)據(jù)和類標(biāo)的機器學(xué)習(xí)稱為監(jiān)督學(xué)習(xí)。機器學(xué)習(xí)算法旨在研究影響類標(biāo)的因素。監(jiān)督發(fā)生在訓(xùn)練階段。如果算法猜錯了類標(biāo),它會嘗試自我修正。
  2. 比如,如果試圖檢測某人是否患有心臟病,可以把100份匿名病歷作為數(shù)據(jù),是否患有心臟病作為類標(biāo)。
  3. 機器學(xué)習(xí)算法可以研究病歷(輸入)以及病人是否患有心臟病(輸出),然后判斷病歷中的哪些指標(biāo)導(dǎo)致心臟病。
  4. 訓(xùn)練好算法之后,就可以把新病歷(輸入)傳給算法,算法將預(yù)測患者是否患有心臟病(輸出)。算法返回的結(jié)果只是患病概率的大小,它并不絕對。
  5. 算法會告訴你:“基于觀察,這個人的病歷和心臟病人的病歷相似度達到70%。”

無監(jiān)督學(xué)習(xí)

有數(shù)據(jù)而沒有類標(biāo)的機器學(xué)習(xí)稱為無監(jiān)督學(xué)習(xí)。以在線電子游戲商店的顧客支付記錄為例??赡芟M褂眠@些數(shù)據(jù)將顧客分組,從而提供個性化服務(wù)。可以使用機器學(xué)習(xí)算法來完成這一任務(wù)。

觀察分組之后人為給出類標(biāo)。有些組可能對電腦游戲感興趣,有些組則更喜歡獨立游戲,還有的組只購買打折游戲。這一過程稱為聚類。

一定要記住算法不提供類標(biāo),它只是尋找相似顧客間的規(guī)律。類標(biāo)需要專業(yè)人士運用專業(yè)知識給出。

遷移學(xué)習(xí)

遷移學(xué)習(xí)改進已有機器學(xué)習(xí)模型發(fā)現(xiàn)的規(guī)律,將其用于學(xué)習(xí)新問題。

從零開始訓(xùn)練機器學(xué)習(xí)模型可能浪費大量金錢和時間。好在并不總是需要自己搭建模型。有時機器學(xué)習(xí)算法在一類數(shù)據(jù)中找到的規(guī)律可以用于另一類數(shù)據(jù)。

比如一家汽車保險公司想要搭建一個文本分類模型,以判斷保險申請人是否需要承擔(dān)事故責(zé)任。

可以使用一個通讀過維基百科并且記住了單詞間規(guī)律(比如哪些詞可能搭配出現(xiàn))的已有模型。使用保險申請書(數(shù)據(jù))及其結(jié)果(類標(biāo))對模型進行微調(diào),就可以把它運用于你的問題。

商業(yè)項目中所用到的機器學(xué)習(xí)技術(shù)很可能屬于以上三個類別。

接下來再把它們細分為分類、回歸和推薦。

  • 分類——預(yù)測事物所屬的類別。比如顧客是否會購買某種商品,或者某人是否患有心臟病。注意,類別可以多于兩種。把事物分為兩類稱為二元分類,分為三類及以上稱為多元分類。多標(biāo)簽指的是同一事物可以同時屬于多類。
  • 回歸——預(yù)測具體數(shù)值。比如房屋的售價,或者下個月訪問網(wǎng)站的人數(shù)。
  • 推薦——向某人推薦某物。比如基于購買記錄為顧客推薦商品,或者基于閱讀記錄向讀者推薦書目。

了解了這些,下一步就是用機器學(xué)習(xí)術(shù)語描述商業(yè)問題。

沿用剛才的汽車保險案例。保險公司的員工每天需要閱讀成千上萬的申請書,并判斷申請人是否應(yīng)該承擔(dān)事故責(zé)任。

但現(xiàn)在申請的數(shù)量逐漸超出員工處理能力。而公司擁有成千上萬的申請書記錄,每一份都標(biāo)注了申請人是否應(yīng)負事故責(zé)任。

機器學(xué)習(xí)能派上用場嗎?

讀者想必已經(jīng)知道答案。但還是來驗證一下。這一問題能歸到上述的三類問題——分類、回歸或者聚類之中嗎?

重新描述這一問題。

一家汽車保險公司希望把收到的保險申請分為申請人應(yīng)負責(zé)任和申請人無責(zé)任兩類。

看到分類這個關(guān)鍵詞了嗎?

分析結(jié)果是,這可能是個潛在的機器學(xué)習(xí)分類問題。“潛在”是因為機器學(xué)習(xí)也可能無法解決這個問題。

把商業(yè)問題轉(zhuǎn)化為機器學(xué)習(xí)問題時,盡量由淺入深。在起始階段,超過一個句子的問題描述都是多余的。必要時再把問題復(fù)雜化。

 

2. 數(shù)據(jù)——數(shù)據(jù)是什么類型的?它如何與問題產(chǎn)生關(guān)聯(lián)?

已擁有或者需要收集的數(shù)據(jù)取決于待解決的問題。

已有的數(shù)據(jù)可能是結(jié)構(gòu)數(shù)據(jù)或者非結(jié)構(gòu)數(shù)據(jù)。這兩種數(shù)據(jù)又可以分別分為靜態(tài)或動態(tài)數(shù)據(jù)。

  • 結(jié)構(gòu)數(shù)據(jù)——比如由許多行和列構(gòu)成的表格,記錄顧客交易信息的電子表,存儲病歷的數(shù)據(jù)庫。數(shù)據(jù)可能是數(shù)值,比如平均心率;也可能是類別,比如性別;或者等級,比如胸痛程度。
  • 非結(jié)構(gòu)數(shù)據(jù)——無法被簡單地制成表格的數(shù)據(jù),比如圖片、音頻文件和自然語言文本。
  • 靜態(tài)數(shù)據(jù)——現(xiàn)存的、無法改變的歷史數(shù)據(jù)。比如顧客購買記錄。
  • 動態(tài)數(shù)據(jù)——經(jīng)常更新的數(shù)據(jù),可能更改舊紀(jì)錄或不斷添加新紀(jì)錄。

這四類數(shù)據(jù)可能彼此重疊。

靜態(tài)的結(jié)構(gòu)化信息表也可能包含不斷更新的文本和照片。

用于預(yù)測心臟病的數(shù)據(jù)表中可能包含性別、平均心率、平均血壓和胸痛程度。

在保險申請書的例子中,可能有一項數(shù)據(jù)是發(fā)送的文本,另一項是照片,最后是申請結(jié)果。隨著新申請的輸入和舊申請的更改,表格將不斷更新。

 

掌握這六步,搭建<span><span><span><i style=完美的機器學(xué)習(xí)項目" src="http://p3.pstatp.com/large/pgc-image/7570d203ba3b4389b8b41c5a4687576e" width="640" height="295">

 

兩種不同類型的結(jié)構(gòu)數(shù)據(jù)。表格1.0包含數(shù)值和類別數(shù)據(jù)。表格2.0以結(jié)構(gòu)化形式包含圖片和自然語言文本等非結(jié)構(gòu)數(shù)據(jù)。

兩種不同類型的結(jié)構(gòu)數(shù)據(jù)。表格1.0包含數(shù)值和類別數(shù)據(jù)。表格2.0以結(jié)構(gòu)化形式包含圖片和自然語言文本等非結(jié)構(gòu)數(shù)據(jù)。

盡管數(shù)據(jù)種類不同,原則都是一致的,那就是使用數(shù)據(jù)以獲取知識或者預(yù)測事件。

有監(jiān)督學(xué)習(xí)使用特征變量來預(yù)測目標(biāo)變量。預(yù)測心臟病可能需要用到性別這一特征變量,目標(biāo)變量可能是病人是否患有心臟病。

 

掌握這六步,搭建<span><span><span><i style=完美的機器學(xué)習(xí)項目" src="http://p1.pstatp.com/large/pgc-image/41fbf39eb8e24400819ac79544aaf435" width="640" height="410">

 

表格1.0分成ID欄(黃色部分,不用于構(gòu)建機器學(xué)習(xí)模型),特征變量(橘色部分)和目標(biāo)變量(綠色)。機器學(xué)習(xí)模型識別出特征變量中的規(guī)律,用它來預(yù)測目標(biāo)變量。

無監(jiān)督學(xué)習(xí)沒有類標(biāo),但仍然需要發(fā)現(xiàn)規(guī)律。這意味著把相近的樣本分為一類,并找出離群值。

遷移學(xué)習(xí)和有監(jiān)督學(xué)習(xí)需要解決相同的問題,除非要自行改變從別處得到的機器學(xué)習(xí)算法。

記住,使用客戶數(shù)據(jù)來改進商業(yè)模式或者服務(wù)質(zhì)量時,一定要讓他們知情。這就是為什么到處都能看到“本網(wǎng)站使用cookies”的提示。這些網(wǎng)站研究用戶的瀏覽習(xí)慣,使用機器學(xué)習(xí)來改進服務(wù)。

 

3. 評估——如何定義成功的機器學(xué)習(xí)模型?準(zhǔn)確率95%足夠好嗎?

已經(jīng)把商業(yè)問題轉(zhuǎn)化成機器學(xué)習(xí)問題,也已經(jīng)擁有數(shù)據(jù)。接下來考慮如何判斷模型是否成功。

分類、回歸和推薦問題的評價標(biāo)準(zhǔn)不同。選擇何種標(biāo)準(zhǔn)取決于問題類別。

要讓這個項目成功,模型的準(zhǔn)確率至少需要達到95%。

用準(zhǔn)確率95%的模型分析保險申請的責(zé)任人或許綽綽有余。但是心臟疾病檢測可能需要更精確的結(jié)果。

下面是分類問題中需要考慮的其他事項。

  • 假陰性——模型預(yù)測結(jié)果為陰性,但結(jié)果實際上為陽性。對于預(yù)測垃圾郵件這樣的問題來說,假陰性可能無關(guān)緊要。但如果自動駕駛車輛的計算機視覺系統(tǒng)沒有檢測到行人,就可能釀成大禍。
  • 假陽性——模型預(yù)測結(jié)果為陽性,但結(jié)果實際上為陰性。某人被診斷患有心臟病而實際上并未患病。只要沒有對病人的生活習(xí)慣造成不良影響或者進行無謂的治療,這樣的錯誤可能無關(guān)緊要。
  • 真陰性——模型預(yù)測結(jié)果為陰性,真實結(jié)果也為陰性。這是理想的結(jié)果。
  • 真陽性——模型預(yù)測結(jié)果為陽性,真實結(jié)果也為陽性。這也是理想的結(jié)果。
  • 準(zhǔn)確率——符合真實結(jié)果的陽性預(yù)測的比例。一個沒有產(chǎn)生假陽性結(jié)果的模型準(zhǔn)確率為1.0。
  • 查全率——檢測出的陽性結(jié)果占所有陽性結(jié)果的比值。一個沒有產(chǎn)生假陰性結(jié)果的模型查全率為1.0。
  • F1值——準(zhǔn)確率和查全率的綜合結(jié)果,數(shù)值越接近1越好。
  • 接收者操作特征(ROC)曲線和曲線下面積(AUC)——ROC曲線的圖像用于比較真陽性和假陽性率。AUC是ROC曲線下的區(qū)域。完全錯誤的模型AUC為0.0,完全正確的模型AUC為1.0。

回歸問題(關(guān)于數(shù)值預(yù)測)需要降低預(yù)測結(jié)果和真實值之間的誤差。預(yù)測房屋售價時,模型的預(yù)測結(jié)果越接近實際價格越好。使用MAE或者RMSE來度量這一誤差。

  • 平均絕對誤差(MAE)——模型預(yù)測結(jié)果和實際值間的平均誤差。
  • 根均方誤差(RMSE)——模型預(yù)測結(jié)果和實際值間的平均方差

如果想讓數(shù)值大的錯誤更加顯著就使用RMSE來度量。比如預(yù)測為20萬美元的房子實際價格為30萬美元,差值為10萬比差值為5萬的結(jié)果要壞一倍以上。如果差值為10萬比差值為5萬壞一倍,那就使用MAE來度量。

推薦問題的解決方案更難測試。一種方式是在建模時隱藏部分數(shù)據(jù)。建模完成后再預(yù)測這部分數(shù)據(jù)的推薦結(jié)果,觀察它與實際結(jié)果的相關(guān)性。

比如為顧客推薦網(wǎng)店商品時,已知2010至2019年度的購買記錄??梢允褂?010至2018年的數(shù)據(jù)來構(gòu)建模型,然后用模型來預(yù)測2019年的情況。這樣就把問題轉(zhuǎn)化為了分類,因為目標(biāo)變?yōu)榱舜_認某人是否可能購買某件商品。

然而,傳統(tǒng)的分類方法并不是推薦問題的最優(yōu)解。準(zhǔn)確率和查全率沒有級別區(qū)分。

如果機器學(xué)習(xí)模型推薦了十個商品,你肯定希望頁面上首先顯示最符合顧客需求的商品,對吧?

  • 準(zhǔn)確率@k——和一般的準(zhǔn)確率原理相同,但只在符合要求的項目中選擇k個。比如,k取5意味著只選出最好的五個推薦項??赡苡?0000種商品,但不可能把它們?nèi)客扑]給顧客。

 

特征——數(shù)據(jù)有哪些特征?哪些特征可以用來搭建模型?

數(shù)據(jù)各不相同。特征指的是數(shù)據(jù)集中不同種類的數(shù)據(jù)。

特征主要可以分為類別型,連續(xù)型(數(shù)值型)和衍生型。

  • 類別型特征——特征值可以被劃分為不同的種類。比如心臟病預(yù)測問題中患者的性別?;蛘呔W(wǎng)店問題中某人是否購買了商品。
  • 連續(xù)型(或數(shù)值型)特征——平均心率或者登錄次數(shù)這類可以用數(shù)值度量的特征。
  • 衍生特征——從數(shù)據(jù)中派生出的特征,常被稱為特征工程。特征工程就是某個領(lǐng)域的專家運用知識生成數(shù)據(jù)。比如把登錄次數(shù)和時間戳結(jié)合起來,計算出距上次登錄時間這一新特征?;蛘甙讶掌谵D(zhuǎn)換為是否為工作日這一新特征。

文本、圖像,任何東西都可能是特征。任何特征都需要轉(zhuǎn)換成數(shù)值才能被機器學(xué)習(xí)算法用于構(gòu)建模型。

以下是一些關(guān)于特征的注意事項。

  • 保證特征在訓(xùn)練和測試過程中一致——應(yīng)該盡量使用接近真實系統(tǒng)中的特征來訓(xùn)練模型。
  • 和該領(lǐng)域的專家合作——已知信息有哪些,它們?nèi)绾斡绊戇x擇使用的特征?與機器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家分享這些信息。
  • 特征是否有價值?——如果只有10%的樣本含有這一特征,它適合用于建模嗎?優(yōu)先選擇覆蓋面最廣的特征,也就是說,大多數(shù)樣本都包含這些特征的對應(yīng)數(shù)據(jù)。
  • 完美意味著錯誤——準(zhǔn)確率百分之百的模型往往是錯把訓(xùn)練數(shù)據(jù)用于測試產(chǎn)生的。沒有十全十美的模型。

可以簡單地使用特征設(shè)立基本標(biāo)準(zhǔn)??蛻袅魇Х矫娴膶<铱赡苤溃軟]有登錄的顧客有80%的幾率會注銷會員。

或者,房產(chǎn)中介可能知道,臥室多于5個并且衛(wèi)生間多于5個的房屋售價高于50萬美元。

這些標(biāo)準(zhǔn)經(jīng)過了簡化,而且無需太精確。但你可以嘗試用它們來改進機器學(xué)習(xí)模型。

 

5. 建模——應(yīng)該選擇哪個模型?如何改進模型?如何比較不同模型?

定義好問題、確定好數(shù)據(jù)、評價標(biāo)準(zhǔn)和特征之后,就可以開始建模了。

建模分為三部分,選擇模型,改進模型和比較模型。

選擇模型

選擇模型時需要考慮可讀性,可維護性,數(shù)據(jù)量以及訓(xùn)練和預(yù)測方面的限制。

  • 可讀性和可維護性——模型如何做出決策?如何修復(fù)錯誤?
  • 數(shù)據(jù)量——數(shù)據(jù)的規(guī)模有多大?數(shù)據(jù)規(guī)模會改變嗎?
  • 訓(xùn)練和預(yù)測方面的限制——這一項與上兩項息息相關(guān),有多少時間和資源可投入訓(xùn)練和預(yù)測?

首先,簡化這些問題。一個藝術(shù)品般完美的模型可能很有誘惑力。但是如果2%的性能改善需要耗費10倍的計算資源和5倍的時間,或許不做改進為好。

邏輯回歸之類的線性模型通常易于理解,訓(xùn)練和預(yù)測速度也比神經(jīng)網(wǎng)絡(luò)等深度模型要快。

但是真實世界中獲取的數(shù)據(jù)不總是線性的。

那怎么辦?

決策樹集成和梯度提升算法用于處理excel表和數(shù)據(jù)幀之類的結(jié)構(gòu)數(shù)據(jù)效果最好。了解隨機森林、XGBoost和CatBoost算法。

神經(jīng)網(wǎng)絡(luò)之類的深度學(xué)習(xí)模型適用于圖片、音頻文件和自然語言文本。代價是它們需要更長的訓(xùn)練和預(yù)測時間,并且更難調(diào)試。但這不意味著不應(yīng)該使用它們。

遷移學(xué)習(xí)結(jié)合了深度學(xué)習(xí)模型和線性模型的優(yōu)點。它使用預(yù)先訓(xùn)練好的深度學(xué)習(xí)模型,將其識別出的模式輸入線性模型。這將極大節(jié)約訓(xùn)練時間。

哪里可以找到預(yù)先訓(xùn)練好的模型?

預(yù)訓(xùn)練模型可以在PyTorch hub, TensorFlow hub, model zoo和fast.ai framework等網(wǎng)站上找到。

那其他種類的模型呢?

搭建模型雛形時無需自行搭建機器學(xué)習(xí)模型。前人已經(jīng)留下了模型代碼。

重要的是處理輸入和輸出,使其適應(yīng)已有模型。這意味著嚴格定義模型和類標(biāo),理解需要解決的問題。

 

掌握這六步,搭建<span><span><span><i style=完美的機器學(xué)習(xí)項目" src="http://p1.pstatp.com/large/pgc-image/b6745e88d4ed4fc089c605f982299942" width="692" height="208">

 

首先,主要工作是確保輸入(數(shù)據(jù))和已有模型相匹配。下一步是確保輸出符合問題定義和評價標(biāo)準(zhǔn)。

微調(diào)和改進模型

模型的最初結(jié)果并不意味著一切。可以像調(diào)試一輛汽車一樣調(diào)試并改進機器學(xué)習(xí)模型。

微調(diào)模型需要改變超參數(shù),比如調(diào)整學(xué)習(xí)率或者優(yōu)化器?;蛘呤瞧渌囟P椭械慕?gòu)因素,比如隨機森林中樹的數(shù)量以及神經(jīng)網(wǎng)絡(luò)的層數(shù)。

這一調(diào)整過程曾經(jīng)是人工的,如今逐漸走向自動化,并將無處不在。

通過遷移學(xué)習(xí)調(diào)用預(yù)訓(xùn)練模型能夠綜合前述步驟的優(yōu)勢。

調(diào)試模型時應(yīng)優(yōu)先考慮可復(fù)制性和效率。其他人應(yīng)該能夠重現(xiàn)你的步驟來改進他們的模型。由于主要目標(biāo)是減少訓(xùn)練時間而不是提出新的思路,調(diào)試過程應(yīng)該是效率導(dǎo)向的。

比較模型

把蘋果與蘋果比較。

使用數(shù)據(jù)X訓(xùn)練模型1,使用數(shù)據(jù)Y來評測

使用數(shù)據(jù)X訓(xùn)練模型2,使用數(shù)據(jù)Y來評測

必須使用同樣的數(shù)據(jù)訓(xùn)練和評測不同模型。模型1和2是可變的,而數(shù)據(jù)X, Y則不然。

 

6. 實驗——還可以嘗試什么方法?我們的發(fā)現(xiàn)如何影響其他步驟?模型是否表現(xiàn)得符合預(yù)期?

這一步包含了其他所有步驟。因為機器學(xué)習(xí)是個高度迭代的過程,必須確保實驗可以執(zhí)行。

首要目標(biāo)是要盡量縮小線下實驗和線上實驗間的時間差。

線下實驗發(fā)生在項目還沒有向用戶開放時。線上實驗發(fā)生在機器學(xué)習(xí)模型開始批量生產(chǎn)之后。

每一次實驗必須使用數(shù)據(jù)的不同部分。

  • 訓(xùn)練數(shù)據(jù)集——使用它來訓(xùn)練模型,一般占整個數(shù)據(jù)集的70%-80%。
  • 驗證/開發(fā)數(shù)據(jù)集——使用它來微調(diào)模型,一般占整個數(shù)據(jù)集的10%-15%。
  • 測試數(shù)據(jù)集——使用它來測試和比較模型,一般占整個數(shù)據(jù)集的10%-15%。

這些數(shù)據(jù)集的數(shù)據(jù)量可以根據(jù)問題和數(shù)據(jù)的類型略微浮動。

如果模型在訓(xùn)練集上表現(xiàn)不佳,意味著它沒有很好地學(xué)習(xí)。解決方案是嘗試不同的模型、改進現(xiàn)有的模型或者收集更多高質(zhì)量數(shù)據(jù)。

如果模型在測試集上表現(xiàn)不佳,意味著它難以推廣。模型可能發(fā)生了過擬合。使用一個更簡單的模型或者收集更多數(shù)據(jù)。

如果模型在真實數(shù)據(jù)上表現(xiàn)不佳,意味著真實數(shù)據(jù)和訓(xùn)練集與數(shù)據(jù)集之間差異較大。重復(fù)前面兩步。確保數(shù)據(jù)與待解決的問題相符。

嘗試大幅改變時,記錄內(nèi)容和原因。記住,就像在模型微調(diào)中一樣,所有人,包括未來的你自己,都應(yīng)該能夠重復(fù)你的操作。

這意味著需要定期保存最新的模型和數(shù)據(jù)集。

結(jié)合上述步驟,做出項目雛形

許多企業(yè)對機器學(xué)習(xí)略知一二,但不知道如何開始運用。最好通過上面六步做出概念模型。

此類嘗試的目的不在于從根本上改變商業(yè)運營模式,只是探索使用機器學(xué)習(xí)為公司增添商業(yè)價值的可能性。

畢竟,目標(biāo)并非追趕華而不實的潮流,而是獲得真正有價值的解決方案。

規(guī)定好搭建項目雛形的期限,兩周、六周和十二周都是比較合適的。有了高質(zhì)量的數(shù)據(jù),一個優(yōu)秀的機器學(xué)習(xí)和數(shù)據(jù)科學(xué)從業(yè)者可以在短時間內(nèi)實現(xiàn)最終建模成果的80%-90%。

行業(yè)專家、機器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家應(yīng)該協(xié)同合作。否則可能搭建出一個用于錯誤對象的優(yōu)秀模型,這是非常糟糕的結(jié)果。

如果可能的話,通知網(wǎng)絡(luò)設(shè)計師改進在線商店的布局,以幫助機器學(xué)習(xí)實驗。

由于項目雛形的特性,你的企業(yè)可能無法從機器學(xué)習(xí)中獲利。項目經(jīng)理必須清楚這一點。機器學(xué)習(xí)工程師或者數(shù)據(jù)科學(xué)家也要做好白費努力的心理準(zhǔn)備。

但無法獲利并不意味著滿盤皆輸。

無用的模型也有價值,你能從中得知什么是無用的,然后把精力花在別處。這就是為實驗設(shè)定期限的原因。時間總是不夠用,但ddl就是生產(chǎn)力。

如果機器學(xué)習(xí)模型表現(xiàn)很好,繼續(xù)下一步,否則就回到上一步。在實踐中學(xué)習(xí)比空想要快得多。

 

注意

數(shù)據(jù)是核心。沒有高質(zhì)量的數(shù)據(jù),任何機器學(xué)習(xí)模型都將徒勞無功。運用機器學(xué)習(xí)應(yīng)該從收集高質(zhì)量數(shù)據(jù)開始。

應(yīng)用會改變一切。離線表現(xiàn)很好的模型可能在上線時表現(xiàn)不佳。本文的重點是數(shù)據(jù)建模。模型一旦投入使用,就會面臨架構(gòu)管理、數(shù)據(jù)驗證、模型再訓(xùn)練和分析等諸多問題。云服務(wù)商會提供這些服務(wù),但把它們結(jié)合起來仍然是黑科技。如果你是老板,給你的數(shù)據(jù)工程師開出高薪。如果你是數(shù)據(jù)工程師,和老板分享你所掌握的。

數(shù)據(jù)收集和模型運用是機器學(xué)習(xí)管道中耗時最長的部分。本文僅討論了建模,但仍然遺漏了數(shù)據(jù)預(yù)處理的細節(jié)。

商業(yè)工具多種多樣。機器學(xué)習(xí)是一個由許多小工具組成的大工具。從代碼庫和框架到不同的應(yīng)用架構(gòu)。每一個問題都有許多不同的解決方案。最佳的實現(xiàn)方法總在不斷更新。但本文所討論的話題萬變不離其宗。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2018-11-14 07:41:58

機器學(xué)習(xí)算法感知器

2017-08-30 17:30:43

大數(shù)據(jù)數(shù)據(jù)化運營

2009-09-09 09:46:00

MyEclipse配置

2010-07-09 12:08:36

設(shè)置SNMP協(xié)議

2010-02-22 09:38:22

WCF開發(fā)

2011-07-30 13:28:03

2010-06-29 19:23:20

UML活動圖

2010-11-19 10:18:11

網(wǎng)絡(luò)連接故障

2009-12-11 13:31:31

策略路由配置

2013-08-23 09:30:56

BYOD方案BYODMDM

2011-03-03 10:55:07

2009-10-27 17:40:35

Oracle表空間狀態(tài)

2009-02-06 13:01:00

綠色數(shù)據(jù)中心數(shù)據(jù)中心

2023-04-11 11:22:13

2010-09-13 10:39:43

CSSCSS文件

2024-05-06 13:15:45

2012-03-09 15:32:48

華為管理服務(wù)

2010-06-09 17:58:14

UML活動圖

2012-03-29 09:50:17

2010-09-28 16:31:38

設(shè)置DHCP服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號