自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘算法與現(xiàn)實(shí)生活中的應(yīng)用案例

大數(shù)據(jù) 算法
相對(duì)于武漢,北京的秋來(lái)的真是早,九月初的傍晚,就能夠感覺(jué)到絲絲絲絲絲絲的涼意。

[[149735]]

相對(duì)于武漢,北京的秋來(lái)的真是早,九月初的傍晚,就能夠感覺(jué)到絲絲絲絲絲絲的涼意。

最近兩件事挺有感覺(jué)的。

看某發(fā)布會(huì),設(shè)計(jì)師李劍葉的話挺讓人感動(dòng)的。“**的設(shè)計(jì)是內(nèi)斂和克制的…。希望設(shè)計(jì)成為一種,可以被忽略的存在感”。

其次,有感于不斷跳Tone的婦科圣手,馮唐,“有追求、敢放棄”是他的標(biāo)簽。

“如何分辨出垃圾郵件”、“如何判斷一筆交易是否屬于欺詐”、“如何判斷紅酒的品質(zhì)和檔次”、“掃描王是如何做到文字識(shí)別的”、“如何判斷佚名的著作是否出自某位名家之手”、“如何判斷一個(gè)細(xì)胞是否屬于腫瘤細(xì)胞”等等,這些問(wèn)題似乎都很專業(yè),都不太好回答。但是,如果了解一點(diǎn)點(diǎn)數(shù)據(jù)挖掘(Data Mining)的知識(shí),你,或許會(huì)有柳暗花明的感覺(jué)。

的確,數(shù)據(jù)挖掘無(wú)處不在。它和生活密不可分,就像空氣一樣,彌漫在你的周圍。但是,很多時(shí)候,你并不能意識(shí)到它。因此,它是陌生的,也是熟悉的。

本文,主要想簡(jiǎn)單介紹下數(shù)據(jù)挖掘中的算法,以及它包含的類型。然后,通過(guò)現(xiàn)實(shí)中觸手可及的、活生生的案例,去詮釋它的真實(shí)存在。


一、數(shù)據(jù)挖掘的算法類型

數(shù)據(jù)挖掘

一般來(lái)說(shuō),數(shù)據(jù)挖掘的算法包含四種類型,即分類、預(yù)測(cè)、聚類、關(guān)聯(lián)。前兩種屬于有監(jiān)督學(xué)習(xí),后兩種屬于無(wú)監(jiān)督學(xué)習(xí),屬于描述性的模式識(shí)別和發(fā)現(xiàn)。

(一)有監(jiān)督學(xué)習(xí)

有監(jiān)督的學(xué)習(xí),即存在目標(biāo)變量,需要探索特征變量和目標(biāo)變量之間的關(guān)系,在目標(biāo)變量的監(jiān)督下學(xué)習(xí)和優(yōu)化算法。例如,信用評(píng)分模型就是典型的有監(jiān)督學(xué)習(xí),目標(biāo)變量為“是否違約”。算法的目的在于研究特征變量(人口統(tǒng)計(jì)、資產(chǎn)屬性等)和目標(biāo)變量之間的關(guān)系。

(1)分類算法

分類算法和預(yù)測(cè)算法的***區(qū)別在于,前者的目標(biāo)變量是分類離散型(例如,是否逾期、是否腫瘤細(xì)胞、是否垃圾郵件等),后者的目標(biāo)變量是連續(xù)型。一般而言,具體的分類算法包括,邏輯回歸、決策樹(shù)、KNN、貝葉斯判別、SVM、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等。

(2)預(yù)測(cè)算法

預(yù)測(cè)類算法,其目標(biāo)變量一般是連續(xù)型變量。常見(jiàn)的算法,包括線性回歸、回歸樹(shù)、神經(jīng)網(wǎng)絡(luò)、SVM等。

(二)無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí),即不存在目標(biāo)變量,基于數(shù)據(jù)本身,去識(shí)別變量之間內(nèi)在的模式和特征。例如關(guān)聯(lián)分析,通過(guò)數(shù)據(jù)發(fā)現(xiàn)項(xiàng)目A和項(xiàng)目B之間的關(guān)聯(lián)性。例如聚類分析,通過(guò)距離,將所有樣本劃分為幾個(gè)穩(wěn)定可區(qū)分的群體。這些都是在沒(méi)有目標(biāo)變量監(jiān)督下的模式識(shí)別和分析。

(1)聚類分析

聚類的目的就是實(shí)現(xiàn)對(duì)樣本的細(xì)分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。常見(jiàn)的聚類算法包括kmeans、系譜聚類、密度聚類等。

(2)關(guān)聯(lián)分析

關(guān)聯(lián)分析的目的在于,找出項(xiàng)目(item)之間內(nèi)在的聯(lián)系。常常是指購(gòu)物籃分析,即消費(fèi)者常常會(huì)同時(shí)購(gòu)買哪些產(chǎn)品(例如游泳褲、防曬霜),從而有助于商家的捆綁銷售。

#p#

二、基于數(shù)據(jù)挖掘的案例和應(yīng)用

上文所提到的四種算法類型(分類、預(yù)測(cè)、聚類、關(guān)聯(lián)),是比較傳統(tǒng)和常見(jiàn)的。還有其他一些比較有趣的算法分類和應(yīng)用場(chǎng)景,例如協(xié)同過(guò)濾、異常值分析、社會(huì)網(wǎng)絡(luò)、文本分析等。下面,想針對(duì)不同的算法類型,具體的介紹下數(shù)據(jù)挖掘在日常生活中真實(shí)的存在。下面是能想到的、幾個(gè)比較有趣的、和生活緊密關(guān)聯(lián)的例子。

數(shù)據(jù)挖掘

(一)基于分類模型的案例

這里面主要想介紹兩個(gè)案例,一個(gè)是垃圾郵件的分類和判斷,另外一個(gè)是在生物醫(yī)藥領(lǐng)域的應(yīng)用,即腫瘤細(xì)胞的判斷和分辨。

[[149737]]

(1)垃圾郵件的判別

郵箱系統(tǒng)如何分辨一封Email是否屬于垃圾郵件?這應(yīng)該屬于文本挖掘的范疇,通常會(huì)采用樸素貝葉斯的方法進(jìn)行判別。它的主要原理是,根據(jù)郵件正文中的單詞,是否經(jīng)常出現(xiàn)在垃圾郵件中,進(jìn)行判斷。例如,如果一份郵件的正文中包含“報(bào)銷”、“發(fā)票”、“促銷”等詞匯時(shí),該郵件被判定為垃圾郵件的概率將會(huì)比較大。

一般來(lái)說(shuō),判斷郵件是否屬于垃圾郵件,應(yīng)該包含以下幾個(gè)步驟。

***,把郵件正文拆解成單詞組合,假設(shè)某篇郵件包含100個(gè)單詞。

第二,根據(jù)貝葉斯條件概率,計(jì)算一封已經(jīng)出現(xiàn)了這100個(gè)單詞的郵件,屬于垃圾郵件的概率和正常郵件的概率。如果結(jié)果表明,屬于垃圾郵件的概率大于正常郵件的概率。那么該郵件就會(huì)被劃為垃圾郵件。

(2)醫(yī)學(xué)上的腫瘤判斷

如何判斷細(xì)胞是否屬于腫瘤細(xì)胞呢?腫瘤細(xì)胞和普通細(xì)胞,有差別。但是,需要非常有經(jīng)驗(yàn)的醫(yī)生,通過(guò)病理切片才能判斷。如果通過(guò)機(jī)器學(xué)習(xí)的方式,使得系統(tǒng)自動(dòng)識(shí)別出腫瘤細(xì)胞。此時(shí)的效率,將會(huì)得到飛速的提升。并且,通過(guò)主觀(醫(yī)生)+客觀(模型)的方式識(shí)別腫瘤細(xì)胞,結(jié)果交叉驗(yàn)證,結(jié)論可能更加靠譜。

如何操作?通過(guò)分類模型識(shí)別。簡(jiǎn)言之,包含兩個(gè)步驟。首先,通過(guò)一系列指標(biāo)刻畫細(xì)胞特征,例如細(xì)胞的半徑、質(zhì)地、周長(zhǎng)、面積、光滑度、對(duì)稱性、凹凸性等等,構(gòu)成細(xì)胞特征的數(shù)據(jù)。其次,在細(xì)胞特征寬表的基礎(chǔ)上,通過(guò)搭建分類模型進(jìn)行腫瘤細(xì)胞的判斷。

(二)基于預(yù)測(cè)模型的案例

這里面主要想介紹兩個(gè)案例。即通過(guò)化學(xué)特性判斷和預(yù)測(cè)紅酒的品質(zhì)。另外一個(gè)是,通過(guò)搜索引擎來(lái)預(yù)測(cè)和判斷股價(jià)的波動(dòng)和趨勢(shì)。

(1)紅酒品質(zhì)的判斷

如何評(píng)鑒紅酒?有經(jīng)驗(yàn)的人會(huì)說(shuō),紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產(chǎn)地、氣候、釀造的工藝等等。但是,統(tǒng)計(jì)學(xué)家并沒(méi)有時(shí)間去品嘗各種各樣的紅酒,他們覺(jué)得通過(guò)一些化學(xué)屬性特征就能夠很好地判斷紅酒的品質(zhì)了。并且,現(xiàn)在很多釀酒企業(yè)其實(shí)也都這么干了,通過(guò)監(jiān)測(cè)紅酒中化學(xué)成分的含量,從而控制紅酒的品質(zhì)和口感。

那么,如何判斷鑒紅酒的品質(zhì)呢?

***步,收集很多紅酒樣本,整理檢測(cè)他們的化學(xué)特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。

第二步,通過(guò)分類回歸樹(shù)模型進(jìn)行預(yù)測(cè)和判斷紅酒的品質(zhì)和等級(jí)。

(2)搜索引擎的搜索量和股價(jià)波動(dòng)

一只南美洲熱帶雨林中的蝴蝶,偶爾扇動(dòng)了幾下翅膀,可以在兩周以后,引起美國(guó)德克薩斯州的一場(chǎng)龍卷風(fēng)。你在互聯(lián)網(wǎng)上的搜索是否會(huì)影響公司股價(jià)的波動(dòng)?

很早之前,就已經(jīng)有文獻(xiàn)證明,互聯(lián)網(wǎng)關(guān)鍵詞的搜索量(例如流感)會(huì)比疾控中心提前1到2周預(yù)測(cè)出某地區(qū)流感的爆發(fā)。

同樣,現(xiàn)在也有些學(xué)者發(fā)現(xiàn)了這樣一種現(xiàn)象,即公司在互聯(lián)網(wǎng)中搜索量的變化,會(huì)顯著影響公司股價(jià)的波動(dòng)和趨勢(shì),即所謂的投資者注意力理論。該理論認(rèn)為,公司在搜索引擎中的搜索量,代表了該股票被投資者關(guān)注的程度。因此,當(dāng)一只股票的搜索頻數(shù)增加時(shí),說(shuō)明投資者對(duì)該股票的關(guān)注度提升,從而使得該股票更容易被個(gè)人投資者購(gòu)買,進(jìn)一步地導(dǎo)致股票價(jià)格上升,帶來(lái)正向的股票收益。這是已經(jīng)得到無(wú)數(shù)論文驗(yàn)證了的。

(三)基于關(guān)聯(lián)分析的案例:沃爾瑪?shù)钠【颇虿?/p>

啤酒尿布是一個(gè)非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發(fā)現(xiàn)一個(gè)非常有趣的現(xiàn)象,即把尿布與啤酒這兩種風(fēng)馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在于,美國(guó)的婦女通常在家照顧孩子,所以,她們常常會(huì)囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時(shí)又會(huì)順手購(gòu)買自己愛(ài)喝的啤酒。沃爾瑪從數(shù)據(jù)中發(fā)現(xiàn)了這種關(guān)聯(lián)性,因此,將這兩種商品并置,從而大大提高了關(guān)聯(lián)銷售。

啤酒尿布主要講的是產(chǎn)品之間的關(guān)聯(lián)性,如果大量的數(shù)據(jù)表明,消費(fèi)者購(gòu)買A商品的同時(shí),也會(huì)順帶著購(gòu)買B產(chǎn)品。那么A和B之間存在關(guān)聯(lián)性。在超市中,常常會(huì)看到兩個(gè)商品的捆綁銷售,很有可能就是關(guān)聯(lián)分析的結(jié)果。

(四)基于聚類分析的案例:零售客戶細(xì)分

對(duì)客戶的細(xì)分,還是比較常見(jiàn)的。細(xì)分的功能,在于能夠有效的劃分出客戶群體,使得群體內(nèi)部成員具有相似性,但是群體之間存在差異性。其目的在于識(shí)別不同的客戶群體,然后針對(duì)不同的客戶群體,精準(zhǔn)地進(jìn)行產(chǎn)品設(shè)計(jì)和推送,從而節(jié)約營(yíng)銷成本,提高營(yíng)銷效率。

例如,針對(duì)商業(yè)銀行中的零售客戶進(jìn)行細(xì)分,基于零售客戶的特征變量(人口特征、資產(chǎn)特征、負(fù)債特征、結(jié)算特征),計(jì)算客戶之間的距離。然后,按照距離的遠(yuǎn)近,把相似的客戶聚集為一類,從而有效的細(xì)分客戶。將全體客戶劃分為諸如,理財(cái)偏好者、基金偏好者、活期偏好者、國(guó)債偏好者、風(fēng)險(xiǎn)均衡者、渠道偏好者等。

數(shù)據(jù)挖掘

(五)基于異常值分析的案例:支付中的交易欺詐偵測(cè)

采用支付寶支付時(shí),或者刷信用卡支付時(shí),系統(tǒng)會(huì)實(shí)時(shí)判斷這筆刷卡行為是否屬于盜刷。通過(guò)判斷刷卡的時(shí)間、地點(diǎn)、商戶名稱、金額、頻率等要素進(jìn)行判斷。這里面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會(huì)被終止。

異常值的判斷,應(yīng)該是基于一個(gè)欺詐規(guī)則庫(kù)的??赡馨瑑深愐?guī)則,即事件類規(guī)則和模型類規(guī)則。***,事件類規(guī)則,例如刷卡的時(shí)間是否異常(凌晨刷卡)、刷卡的地點(diǎn)是否異常(非經(jīng)常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現(xiàn)商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標(biāo)準(zhǔn)差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規(guī)則,則是通過(guò)算法判定交易是否屬于欺詐。一般通過(guò)支付數(shù)據(jù)、賣家數(shù)據(jù)、結(jié)算數(shù)據(jù),構(gòu)建模型進(jìn)行分類問(wèn)題的判斷。

(六)基于協(xié)同過(guò)濾的案例:電商猜你喜歡和推薦引擎

電商中的猜你喜歡,應(yīng)該是大家最為熟悉的。在京東商城或者亞馬遜購(gòu)物,總會(huì)有“猜你喜歡”、“根據(jù)您的瀏覽歷史記錄精心為您推薦”、“購(gòu)買此商品的顧客同時(shí)也購(gòu)買了**商品”、“瀏覽了該商品的顧客最終購(gòu)買了**商品”,這些都是推薦引擎運(yùn)算的結(jié)果。

這里面,確實(shí)很喜歡亞馬遜的推薦,通過(guò)“購(gòu)買該商品的人同時(shí)購(gòu)買了**商品”,常常會(huì)發(fā)現(xiàn)一些質(zhì)量比較高、較為受認(rèn)可的書。
一般來(lái)說(shuō),電商的“猜你喜歡”(即推薦引擎)都是在協(xié)同過(guò)濾算法(Collaborative Filter)的基礎(chǔ)上,搭建一套符合自身特點(diǎn)的規(guī)則庫(kù)。即該算法會(huì)同時(shí)考慮其他顧客的選擇和行為,在此基礎(chǔ)上搭建產(chǎn)品相似性矩陣和用戶相似性矩陣?;诖?,找出最相似的顧客或最關(guān)聯(lián)的產(chǎn)品,從而完成產(chǎn)品的推薦。

(七)基于社會(huì)網(wǎng)絡(luò)分析的案例:電信中的種子客戶

種子客戶和社會(huì)網(wǎng)絡(luò),最早出現(xiàn)在電信領(lǐng)域的研究。即,通過(guò)人們的通話記錄,就可以勾勒出人們的關(guān)系網(wǎng)絡(luò)。電信領(lǐng)域的網(wǎng)絡(luò),一般會(huì)分析客戶的影響力和客戶流失、產(chǎn)品擴(kuò)散的關(guān)系。

基于通話記錄,可以構(gòu)建客戶影響力指標(biāo)體系。采用的指標(biāo),大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基于社會(huì)影響力,分析的結(jié)果表明,高影響力客戶的流失會(huì)導(dǎo)致關(guān)聯(lián)客戶的流失。其次,在產(chǎn)品的擴(kuò)散上,選擇高影響力客戶作為傳播的起點(diǎn),很容易推動(dòng)新套餐的擴(kuò)散和滲透。

此外,社會(huì)網(wǎng)絡(luò)在銀行(擔(dān)保網(wǎng)絡(luò))、保險(xiǎn)(團(tuán)伙欺詐)、互聯(lián)網(wǎng)(社交互動(dòng))中也都有很多的應(yīng)用和案例。

[[149738]]

(八)基于文本分析的案例

這里面主要想介紹兩個(gè)案例。一個(gè)是類似“掃描王”的APP,直接把紙質(zhì)文檔掃描成電子文檔。相信很多人都用過(guò),這里準(zhǔn)備簡(jiǎn)單介紹下原理。另外一個(gè)是,江湖上總是傳言紅樓夢(mèng)的前八十回和后四十回,好像并非都是出自曹雪芹之手,這里面準(zhǔn)備從統(tǒng)計(jì)的角度聊聊。

(1)字符識(shí)別:掃描王APP

手機(jī)拍照時(shí)會(huì)自動(dòng)識(shí)別人臉,還有一些APP,例如掃描王,可以掃描書本,然后把掃描的內(nèi)容自動(dòng)轉(zhuǎn)化為word。這些屬于圖像識(shí)別和字符識(shí)別(Optical Character Recognition)。圖像識(shí)別比較復(fù)雜,字符識(shí)別理解起來(lái)比較容易些。

查找了一些資料,字符識(shí)別的大概原理如下,以字符S為例。

***,把字符圖像縮小到標(biāo)準(zhǔn)像素尺寸,例如12*16。注意,圖像是由像素構(gòu)成,字符圖像主要包括黑、白兩種像素。

第二,提取字符的特征向量。如何提取字符的特征,采用二維直方圖投影。就是把字符(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個(gè)維度,垂直方向有16個(gè)維度。這樣分別計(jì)算水平方向上各個(gè)像素行中黑色像素的累計(jì)數(shù)量、垂直方向各個(gè)像素列上的黑色像素的累計(jì)數(shù)量。從而得到水平方向12個(gè)維度的特征向量取值,垂直方向上16個(gè)維度的特征向量取值。這樣就構(gòu)成了包含28個(gè)維度的字符特征向量。

第三,基于前面的字符特征向量,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),從而識(shí)別字符和有效分類。

(2)文學(xué)著作與統(tǒng)計(jì):紅樓夢(mèng)歸屬

這是非常著名的一個(gè)爭(zhēng)論,懸而未決。對(duì)于紅樓夢(mèng)的作者,通常認(rèn)為前80回合是曹雪芹所著,后四十回合為高鶚?biāo)鶎?。其?shí)主要問(wèn)題,就是想確定,前80回合和后40回合是否在遣詞造句方面存在顯著差異。

這事讓一群統(tǒng)計(jì)學(xué)家比較興奮了。有些學(xué)者通過(guò)統(tǒng)計(jì)名詞、動(dòng)詞、形容詞、副詞、虛詞出現(xiàn)的頻次,以及不同詞性之間的相關(guān)系做判斷。有些學(xué)者通過(guò)虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前后文風(fēng)的差異。有些學(xué)者通過(guò)場(chǎng)景(花卉、樹(shù)木、飲食、醫(yī)藥與詩(shī)詞)頻次的差異,來(lái)做統(tǒng)計(jì)判斷??偠灾?,主要通過(guò)一些指標(biāo)量化,然后比較指標(biāo)之間是否存在顯著差異,藉此進(jìn)行寫作風(fēng)格的判斷。

責(zé)任編輯:李英杰 來(lái)源: 比格堆塔
相關(guān)推薦

2024-05-09 12:52:12

大數(shù)據(jù)

2018-09-11 14:40:07

物聯(lián)網(wǎng)應(yīng)用物聯(lián)網(wǎng)IOT

2017-12-28 09:22:24

機(jī)器學(xué)習(xí)應(yīng)用生活

2023-03-30 08:10:31

Vue.js轉(zhuǎn)換和微交互

2023-08-24 08:37:50

VueCSS

2019-05-14 13:14:24

智慧社區(qū)智能服務(wù)智能家居

2023-02-13 07:53:33

單調(diào)棧柱子非負(fù)整數(shù)

2022-06-16 15:12:02

元宇宙房產(chǎn)虛構(gòu)世界

2020-06-04 08:06:12

物聯(lián)網(wǎng)應(yīng)用物聯(lián)網(wǎng)IOT

2015-01-05 09:53:05

Java

2022-08-14 14:46:58

元宇宙Web3.0虛擬宇宙

2022-06-05 23:59:31

加密貨幣區(qū)塊鏈比特幣

2016-10-21 14:57:10

2016-05-23 15:42:07

數(shù)據(jù)挖掘

2017-01-19 14:45:34

數(shù)據(jù)挖掘Google再營(yíng)銷

2009-01-18 15:43:29

數(shù)據(jù)挖掘電子商務(wù)WEB

2021-07-20 09:33:46

數(shù)據(jù)應(yīng)用程序開(kāi)發(fā)

2014-07-16 16:54:38

2018-10-25 14:47:53

分析消費(fèi)數(shù)據(jù)挖掘

2009-08-05 10:00:04

數(shù)據(jù)挖掘算法SQL Server
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)