自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你需了解的機器學(xué)習(xí)算法、如何開發(fā)機器學(xué)習(xí)模型?

人工智能 機器學(xué)習(xí) 算法
創(chuàng)建一個優(yōu)秀的機器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求,不妨看看本文是如何一步一步實現(xiàn)的。

[[201235]]

習(xí)概念及其對業(yè)務(wù)目標(biāo)的影響是非常重要的。

算法的選擇

在問題定義上的一個小變動可能需要有一個完全不同的算法來解決,或者至少要使用不同的數(shù)據(jù)輸入來構(gòu)建不同的模型。一個能夠為用戶識別照片類型的約會網(wǎng)站可以使用無監(jiān)督學(xué)習(xí)技術(shù)(比如聚類)來識別常見的主題。而如果要向特定的某個人推薦潛在的約會對象,則網(wǎng)站可能要使用基于輸入的監(jiān)督學(xué)習(xí),輸入數(shù)據(jù)需具體到個人,例如他們已經(jīng)看過的照片。

特征的選擇

機器學(xué)習(xí)模型識別數(shù)據(jù)中的模式。輸入到模型中的數(shù)據(jù)被組織成特征(也稱為變量或?qū)傩?:這些特征都是相關(guān)的、大部分獨立的數(shù)據(jù)片段,描述了你想要預(yù)測或識別的現(xiàn)象的某些方面。

以前文提到的那家希望優(yōu)先考慮貸款申請人外展服務(wù)的公司為例。如果我們將問題定義為“根據(jù)客戶轉(zhuǎn)換的可能性優(yōu)先考慮”,我們將會得到包括類似客戶對公司各種外展活動的響應(yīng)率等特征。如果我們將問題定義為“優(yōu)先考慮最可能償還貸款的客戶”,我們就不會得到這些特征,因為它們與評估客戶的可能性無關(guān)。

目標(biāo)函數(shù)的選擇

目標(biāo)函數(shù)是你要優(yōu)化的目標(biāo),或者是模型試圖預(yù)測的結(jié)果。例如,如果你向用戶推薦他們可能感興趣的商品,則模型的輸出可能是用戶在看到商品時點擊該商品的概率,也可能是用戶購買商品的概率。目標(biāo)函數(shù)的選擇主要取決于業(yè)務(wù)目標(biāo),在這個例子中,你對用戶的參與感興趣(目標(biāo)函數(shù)可能是點擊或停留的時間)還是對營業(yè)收入感興趣(目標(biāo)函數(shù)是購買)?另一個要考慮的關(guān)鍵因素是數(shù)據(jù)的可用性:對于要學(xué)習(xí)的算法,你必須提供大量“標(biāo)記”為正(用戶看到并點擊的產(chǎn)品)或負(fù)(用戶看到的產(chǎn)品,但沒有點擊)的數(shù)據(jù)點。

二、如何開發(fā)機器學(xué)習(xí)模型?

摘要: 創(chuàng)建一個優(yōu)秀的機器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求,不妨看看本文是如何一步一步實現(xiàn)的。

建模步驟一覽

從較高的層次上來講,創(chuàng)建一個優(yōu)秀的機器學(xué)習(xí)模型跟創(chuàng)建其他任何產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求。你需要在構(gòu)思、原型設(shè)計和測試之間不斷地迭代,直到你的解決方案足夠好,并能夠投入市場,此時你就可以將其產(chǎn)品化,并發(fā)布出去?,F(xiàn)在,我們來看看每個階段的細節(jié)吧。

由于數(shù)據(jù)是機器學(xué)習(xí)的重要組成部分,因此我們需要在產(chǎn)品開發(fā)過程之上進行數(shù)據(jù)分層,因此我們的流程如下所示:

  • 構(gòu)思。讓待解決的關(guān)鍵問題和針對解決方案的潛在數(shù)據(jù)輸入保持一致。
  • 數(shù)據(jù)準(zhǔn)備。以一種有用的格式收集和獲取數(shù)據(jù),以便對模型進行理解和學(xué)習(xí)。
  • 原型與測試。建立一個或一組模型來解決問題,測試它們執(zhí)行和迭代的程度,直到有一個模型能得到令人滿意的結(jié)果。
  • 產(chǎn)品化。讓模型以及數(shù)據(jù)收集與處理穩(wěn)定化、規(guī)?;员阍谏a(chǎn)環(huán)境中生成有用的輸出。

構(gòu)思

這個階段的目標(biāo)是要讓模型解決的關(guān)鍵問題、目標(biāo)函數(shù)和潛在的輸入作為一個整體與模型保持一致。

  • 與問題保持一致。如前所述,機器學(xué)習(xí)可用于解決真正的業(yè)務(wù)問題。請確保你的團隊和公司中的所有利益相關(guān)者就你正在解決的問題以及如何使用解決方案達成一致。
  • 選擇目標(biāo)函數(shù)。待解決的問題決定了模型的目標(biāo)是什么。模型試圖預(yù)測的目標(biāo)函數(shù)是什么?你是否在查找數(shù)據(jù)中的模式?例如,將照片集按照某種特征分成多個組。
  • 定義質(zhì)量指標(biāo)。你如何衡量模型的質(zhì)量?在沒有看到真正結(jié)果的時候,一般很難預(yù)見可接受的質(zhì)量,但目標(biāo)的定向性對此是有幫助的。
  • 集思廣益所有可能的輸入。你的目標(biāo)是確定哪些數(shù)據(jù)可以幫你解決問題或者做出決定。最有幫助的問題是:“專家會如何處理這個問題”??紤]一下解決方案將以什么樣的變量或者數(shù)據(jù)為基礎(chǔ)。每一個可能影響人類判斷的因素是否都應(yīng)該測試。請盡可能廣泛地搜集這些問題的答案。了解關(guān)鍵因素可能需要有商業(yè)方面專業(yè)的知識,這是企業(yè)或者產(chǎn)品人員需要在此階段中頻繁參與的重要原因之一。數(shù)據(jù)團隊將不得不將這些潛在的輸入轉(zhuǎn)化為模型特征。請注意,為了將輸入轉(zhuǎn)換為特征,可能需要額外的處理,后面我們會詳細討論這個。

數(shù)據(jù)準(zhǔn)備

本階段的目標(biāo)是收集原始數(shù)據(jù),并將其作為原型模型的輸入。你可能需要對原始數(shù)據(jù)進行復(fù)雜的轉(zhuǎn)換才能使其成為輸入數(shù)據(jù)。例如,假設(shè)你的某個特征是消費者對品牌的看法:你首先需要找到消費者談?wù)撈放频南嚓P(guān)來源。如果品牌名稱包括常用詞(例如“蘋果”),則需要將品牌名稱與一般情況下的含義(與水果有關(guān))區(qū)分開來,然后再通過觀點分析模型來運行,所有這些都要在構(gòu)建原型之前完成。并非所有的特征構(gòu)建起來都很復(fù)雜,但有些可能需要耗費大量的工作。

讓我們來更詳細地了解一下這個階段需要做什么:

  • 以最快的速度收集數(shù)據(jù)。首先,確定缺少了哪些數(shù)據(jù)。在某些情況下,你可能需要對必要的輸入分解到“構(gòu)建塊”級別,或者是到代理級別,這樣才能更方便地獲取到數(shù)據(jù)。一旦確定下來缺少哪些數(shù)據(jù),就要以最快捷、最簡單的方法去獲取。對于不可擴展的方法,比如手工下載或購買數(shù)據(jù)樣本,即使代價有點高但可能卻是最實際的方法。在這個階段采集太多的數(shù)據(jù)通常沒有太大的意義,因為你不了解數(shù)據(jù)是否有用,哪種格式***,等等。商業(yè)人士應(yīng)該參與到這個階段中來,因為他們可以協(xié)助數(shù)據(jù)專家們從大量的渠道獲取到原本不太容易獲取的數(shù)據(jù)。請注意,在監(jiān)督學(xué)習(xí)算法中,你不僅需要用于模型特征的數(shù)據(jù),你還需要為模型的目標(biāo)函數(shù)提供數(shù)據(jù)點,以進行訓(xùn)練、驗證以及測試模型。回到房價那個例子,為了建立一個預(yù)測房價的模型,你需要一些包含房價的房屋信息!
  • 數(shù)據(jù)清洗與規(guī)范化。在這個階段中,數(shù)據(jù)科學(xué)或工程團隊將承擔(dān)起主要的工作職責(zé)。他們將投入大部分的精力把構(gòu)思和原始數(shù)據(jù)轉(zhuǎn)化為實際的模型。數(shù)據(jù)集需要進行檢查和清洗,以避免使用不良數(shù)據(jù)以及不相關(guān)的異常值等等。同時,數(shù)據(jù)還可能會以不同的比例進行轉(zhuǎn)換,以使其更容易地與其他數(shù)據(jù)集一致,并能一起使用。特別是在處理文字和圖像的時候,通常需要對數(shù)據(jù)進行預(yù)處理,以提取相關(guān)的信息。例如,將太多太大的圖像插入模型可能會導(dǎo)致信息過量而無法處理,因此你可能需要降低圖片的質(zhì)量、使用圖像的其中一部分或僅使用對象輪廓。對于文本,你可能需要檢測與文本相關(guān)的實體,進行觀點分析,查找常用的n-gram(經(jīng)常用于表示一定數(shù)量單詞的序列)或執(zhí)行各種其他的轉(zhuǎn)換。這些通??捎涩F(xiàn)成的庫來實現(xiàn),無需重新發(fā)明輪子。

原型與測試

這個階段的目標(biāo)是獲得一個模型的原型,測試并對它進行迭代,直到能夠得到一個足夠好并且能夠用于生產(chǎn)的的模型。

  • 構(gòu)建原型。一旦數(shù)據(jù)準(zhǔn)備完畢,數(shù)據(jù)科學(xué)團隊就可以開始研究實際的模型了。這個階段涉及到大量的實驗,比如選擇最相關(guān)的特征、測試多種算法等。這并不是一個簡單的任務(wù),獲得用于生產(chǎn)模型在時間計劃上并不好把控。
  • 驗證和測試原型。在這個階段中,數(shù)據(jù)科學(xué)家的職責(zé)就是要確保最終生成的模型盡可能的好。他們將根據(jù)預(yù)定義的質(zhì)量度量標(biāo)準(zhǔn)來評估模型的性能,比較不同算法下模型的性能,調(diào)整各種參數(shù)并對最終的模型進行性能測試。對于監(jiān)督學(xué)習(xí),需要確定模型預(yù)測的結(jié)果是否能夠滿足你的需求。對于無監(jiān)督學(xué)習(xí),根據(jù)問題的不同,有多種不同的性能評估技術(shù)。以聚類為例,你可以輕松地繪制出在多個維度上聚類的對象。如果算法使用了關(guān)鍵字來標(biāo)記文檔,那么關(guān)鍵字是否有意義呢?在打標(biāo)記失敗或重要用例丟失的情況下,是否有明顯的差距呢?這并不能代替更加科學(xué)的方法,但在實踐上有助于快速改進。
  • 迭代。此時,你需要與團隊一起來決定是否需要進一步的迭代。該模型與你的預(yù)期有多少相符?它是否表現(xiàn)得足夠好,讓你目前的業(yè)務(wù)狀況得到顯著的改善?是否有特別薄弱的方面?是否需要更多的數(shù)據(jù)點?你能想到其他特征來提高性能嗎?是否有替代數(shù)據(jù)源可以提高模型的輸入質(zhì)量?等等。這些都需要集思廣益。

產(chǎn)品化

當(dāng)原型模型能夠很好地解決業(yè)務(wù)問題,并能進入生產(chǎn)的時候,你就來到了這個階段。請注意,如果尚未準(zhǔn)備好進行全面的產(chǎn)品化,你需要首先確定模型要擴展的比例。比如說,對于一個電影推薦工具:你可能是先對少數(shù)用戶提供推薦服務(wù),但要為每個用戶提供完整的使用體驗,在這種情況下,模型就要根據(jù)每個用戶的相關(guān)性對數(shù)據(jù)庫中的每個電影進行排序。與僅推薦動作電影相比,這是另一個不同的擴展要求。

現(xiàn)在,我們來探討一下有關(guān)將模型生產(chǎn)化的更多的技術(shù)細節(jié):

  • 增加數(shù)據(jù)覆蓋率。在很多情況下,你可以用比生產(chǎn)中更少更有限的數(shù)據(jù)來構(gòu)建原型。例如,你可以根據(jù)特定客戶來構(gòu)建原型,然后將其擴展到整個客戶群。
  • 擴展數(shù)據(jù)收集。一旦驗證了哪些數(shù)據(jù)對模型有用,你需要構(gòu)建一種可擴展的方式來收集和獲取數(shù)據(jù)。在原型設(shè)計階段,以手動方式來收集數(shù)據(jù)還是可以的,但是對于生產(chǎn),你應(yīng)該盡可能地自動化。
  • 刷新數(shù)據(jù)。創(chuàng)建一個隨時間刷新數(shù)據(jù)的機制,以更新現(xiàn)有值或添加新信息。除非由于某種原因不能保留歷史數(shù)據(jù),否則系統(tǒng)應(yīng)該要以某種方式來持續(xù)積累更多的數(shù)據(jù)。
  • 擴展模型。這個包含了數(shù)據(jù)科學(xué)和工程學(xué)兩個方面的內(nèi)容。從數(shù)據(jù)科學(xué)的角度來講,如果你更改了基礎(chǔ)數(shù)據(jù),例如擴大了客戶群的數(shù)量,就需要重新訓(xùn)練和測試模型。在特定數(shù)據(jù)集上工作良好的模型并不一定能適用于更廣泛或其他不同的數(shù)據(jù)集。從架構(gòu)上來講,模型需要能夠在數(shù)據(jù)不斷增長的基礎(chǔ)上及時擴展以進行更頻繁地運行。在電影推薦示例中,可能會有更多的用戶、更多的電影以及有關(guān)每個用戶喜好的更多信息。
  • 檢查特殊值。雖然模型也許在整體上可以很好地擴展,但在某些很小但很重要的情況下可能就無法正常工作了。例如,電影推薦的平均使用效果可能還不錯,但對于家長來說,如果他們用自己的賬號為孩子選擇了電影,那么推薦系統(tǒng)就會顯示兒童電影。這是一個產(chǎn)品設(shè)計問題,你需要在產(chǎn)品中將父母自己的建議與為孩子的建議分開來,但是,這并不是模型可以告訴你的。

到目前為止,我所描述的是一個概念性的流程。在現(xiàn)實中,界限一般比較模糊,你經(jīng)常需要在不同階段之間來回走動。你可能會對數(shù)據(jù)的供給不滿意,從而考慮重來,或者在模型產(chǎn)品化之后,你發(fā)現(xiàn)模型并不能很好的工作,你不得不退回去重新構(gòu)建原型。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2020-12-31 08:00:00

機器學(xué)習(xí)人工智能工程師

2020-07-13 14:50:51

機器學(xué)習(xí)模型算法

2017-07-13 10:12:58

機器學(xué)習(xí)

2020-09-22 14:59:52

機器學(xué)習(xí)人工智能計算機

2016-11-15 15:02:00

機器學(xué)習(xí)算法

2022-05-18 16:24:36

PythonPyCaret機器學(xué)習(xí)

2020-12-16 15:56:26

機器學(xué)習(xí)人工智能Python

2017-03-24 15:58:46

互聯(lián)網(wǎng)

2021-01-25 09:00:00

機器學(xué)習(xí)人工智能算法

2024-05-23 16:48:42

機器學(xué)習(xí)算法人工智能

2017-07-07 14:41:13

機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2021-11-02 09:40:50

TensorFlow機器學(xué)習(xí)人工智能

2022-06-02 15:42:05

Python機器學(xué)習(xí)

2018-11-14 07:41:58

機器學(xué)習(xí)算法感知器

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫

2018-09-10 11:40:26

機器學(xué)習(xí)數(shù)據(jù)準(zhǔn)備算法

2020-06-18 16:05:20

機器學(xué)習(xí)人工智能算法

2023-11-02 08:32:11

機器學(xué)習(xí)人工智能

2024-05-27 00:05:00

2018-08-03 10:30:16

算法回歸機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號