自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何選擇Spark機器學(xué)習(xí)API

作者：Andrew C. Oliver 2017-07-26 17:25:22

人工智能機器學(xué)習(xí) Spark

本文將簡要介紹Spark機器學(xué)習(xí)庫(Spark MLlib’s APIs)的各種機器學(xué)習(xí)算法，主要包括：統(tǒng)計算法、分類算法、聚類算法和協(xié)同過濾算法，以及各種算法的應(yīng)用。

本文將簡要介紹Spark機器學(xué)習(xí)庫(Spark MLlib’s APIs)的各種機器學(xué)習(xí)算法，主要包括：統(tǒng)計算法、分類算法、聚類算法和協(xié)同過濾算法，以及各種算法的應(yīng)用。

你不是一個數(shù)據(jù)科學(xué)家。“根據(jù)科技和商業(yè)媒體報道，機器學(xué)習(xí)將防止全球變暖”，顯然只有中國的新聞媒體才會發(fā)布類似的虛假新聞，可能機器學(xué)習(xí)能夠識別虛假新聞吧(與分類算法有關(guān))?事實上，機器學(xué)習(xí)還真的可以呢!

那么機器學(xué)習(xí)能做點什么呢?你又將怎樣發(fā)現(xiàn)呢?如果你已經(jīng)使用了Apache Spark進行批處理和流處理，那么現(xiàn)在有一東西可以幫你更好地處理。有一個你在用Spark SQL和Spark流處理的時候很可能同時用到的東西，就是Spark MLlib，Spark MLlib是一個API形式的機器學(xué)習(xí)庫和統(tǒng)計算法。

下面簡要介紹一下四種最基本的MLlib APIs，主要包括它們的作用和應(yīng)用。PS：文中所有標(biāo)藍(lán)字體均可點擊底部閱讀原文獲取詳情。

統(tǒng)計算法

這些API主要是用來進行A-B檢驗或者A-B-C檢驗。通常在商業(yè)中，我們認(rèn)為，如果兩個東西的平均值相等，那么這兩個東西就大體相當(dāng)了。其實不一定。試想一下，一個汽車制造商換掉汽車座椅之后，做一個關(guān)于座椅舒適度的調(diào)查。對于個子矮小的用戶來說，他們可能覺得座椅更舒服了，但是對于個子高大的用戶來說，他們可能會覺得非常不舒服，以至于放棄購買汽車，而個子中等的用戶剛好平衡了這個差異。通常，新座椅也許要更舒服一些，但是，如果沒有身高超過6英尺的用戶購買的話，我們還是失敗了。根據(jù)Spark的假設(shè)測試，你可以先做一個皮爾遜卡方值檢驗或者一個柯爾莫可洛夫-斯米洛夫檢驗，先測試一下某個東西的“合適程度”，或者它的取值是否符合“正態(tài)分布”。這種方法基本適用于所有需要比較兩串?dāng)?shù)據(jù)的情況。“合適程度”表明“你是否喜歡”，或者說新算法是否達(dá)到了“優(yōu)于”舊算法的目的。

分類算法

你的屬性是什么?如果你手頭有一堆屬性不同的東西，你可以讓電腦對這些東西進行正確的歸類。這里的技巧就是要把各個屬性對應(yīng)到各個“類”，而對于這個分類，并沒有標(biāo)準(zhǔn)的正確答案，錯誤答案倒是不少。如果你認(rèn)為某人在看一組表格并把它們歸類，這就是分類算法。你在使用垃圾郵件過濾器時就已經(jīng)接觸過分類算法了，垃圾郵件過濾器就是過濾掉包含垃圾郵件中常見詞語的郵件。分類算法還可以用來診斷患者病情或用來預(yù)測哪些用戶有可能取消訂購有線廣播電視(一般是不看體育節(jié)目的人)。從本質(zhì)上來說，分類學(xué)習(xí)是基于過去的數(shù)據(jù)標(biāo)簽，然后把這些標(biāo)簽應(yīng)用到未來的發(fā)展預(yù)測。

聚類算法

當(dāng)你跟一個人討論“機器學(xué)習(xí)”的時候，如果對方只能說出k-means算法，那說明他只看過“小抄”，什么都不懂。如果你手上有一組屬性，你可以找到一些關(guān)鍵點把這些屬性歸為各個類中，這就是聚類算法。你能說出各個不同類之間的區(qū)別，但是也有可能有些類是比較接近的。有可能一個大的東西和一個小的東西被歸為了同一類，而另一個更小的東西卻被歸為了大的一類。再加上其他各種復(fù)雜的屬性和不同的維度，所以其實聚類算法也有很多種。聚類算法和分類算法不同，但是聚類算法經(jīng)常用來對一群人分組，二者***的區(qū)別在于，在聚類算法中，我們不知道集群前面的標(biāo)簽(或組)是什么，而在分類算法中，標(biāo)簽就很明確了。客戶細(xì)分是一個常見的應(yīng)用，不同的客戶有不一樣的喜好特點，比如可以把客戶分成信用組、保留風(fēng)險組或購買組(對于新鮮農(nóng)產(chǎn)品或熟食)，但是也有可能要根據(jù)已有數(shù)據(jù)進行詐騙識別的分類。

協(xié)同過濾算法

好吧，協(xié)同過濾算法是一種大眾化的算法。我們公司就用協(xié)同過濾算法去提高搜索結(jié)果的精確度，我還做過一個相關(guān)的講座，如果有足夠多的人點擊第二張貓的照片，那它一定比***張貓的圖片好。在一個社交或電子商務(wù)環(huán)境中，如果你充分運用各種用戶的“喜歡”和“不喜歡”，你就可以找到出對于大部分用戶或者某一特定用戶群體來說“***的”結(jié)果，這是通過個性化系統(tǒng)的多屬性過濾來實現(xiàn)的，例如，當(dāng)你在Google地圖或Yelp上搜索餐廳(你可以根據(jù)服務(wù)質(zhì)量、食物種類、內(nèi)部風(fēng)格、是否適合小孩、是否有情調(diào)、用戶評論和消費水平等等進行過濾)時使用的就是這個原理。

上述并不是關(guān)于機器學(xué)習(xí)的所有算法，但也算是使用過程中最常見的幾種算法了。以上四個大類中，每一類中都包含好幾個可選算法或者衍生算法，那要選哪個呢?好吧，具體選用哪一種算法是考慮數(shù)學(xué)背景、實驗過程和已知數(shù)據(jù)等各種因素的綜合結(jié)果。記住，這些算法都只是你分析問題的工具而已，也有可能使用這些算法之后得到的是沒有用的結(jié)果。

責(zé)任編輯：龐桂玉來源： CSDN大數(shù)據(jù)

機器學(xué)習(xí)Spark API

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營