自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="nrsdg"><li id="nrsdg"></li></u>

<p id="nrsdg"><label id="nrsdg"></label></p>

<pre id="nrsdg"><progress id="nrsdg"><form id="nrsdg"></form></progress></pre>

<cite id="nrsdg"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一個資深數(shù)據(jù)人對數(shù)據(jù)挖掘解讀

2017-02-27 16:30:07

大數(shù)據(jù) 數(shù)據(jù)分析

在銀行做了兩年的數(shù)據(jù)分析和挖掘工作，較少接觸互聯(lián)網(wǎng)的應用場景，因此，一直都在思考一個問題，“互聯(lián)網(wǎng)和金融，在數(shù)據(jù)挖掘上，究竟存在什么樣的區(qū)別”。在對這個問題的摸索和理解過程中，發(fā)現(xiàn)數(shù)據(jù)挖掘本身包含很多層次。并且模型本身也是存在傳統(tǒng)和時髦之分的。本文就想聊聊這些話題。

在銀行做了兩年的數(shù)據(jù)分析和挖掘工作，較少接觸互聯(lián)網(wǎng)的應用場景，因此，一直都在思考一個問題，“互聯(lián)網(wǎng)和金融，在數(shù)據(jù)挖掘上，究竟存在什么樣的區(qū)別”。在對這個問題的摸索和理解過程中，發(fā)現(xiàn)數(shù)據(jù)挖掘本身包含很多層次。并且模型本身也是存在傳統(tǒng)和時髦之分的。本文就想聊聊這些話題。

[[184258]]

一、數(shù)據(jù)挖掘的層次

一直想整理下對數(shù)據(jù)挖掘不同層次的理解，這也是這兩年多的時間里面，和很多金融領(lǐng)域、互聯(lián)網(wǎng)做數(shù)據(jù)相關(guān)工作的小伙伴，聊天交流的一些整理和歸納。大概可以分為四類。

大數(shù)據(jù)

(一)純粹的數(shù)據(jù)加工

側(cè)重于變量加工和預處理，從源系統(tǒng)或數(shù)據(jù)倉庫，對相關(guān)數(shù)據(jù)進行提取、加工、衍生處理，生成各種業(yè)務表。然后，以客戶號為主鍵，把這些業(yè)務表整合匯總，最終可以拉出一張大寬表，這張寬表就可以稱之為“客戶畫像”。即，有關(guān)客戶的很多變量和特征的集合。

在這個階段，主要的數(shù)據(jù)加工工具為SQL和SAS base。

(二)傻瓜式的挖掘工具

較為典型的就是SAS EM和clementine，里面嵌入很多較為傳統(tǒng)成熟的算法、模塊和節(jié)點(例如邏輯回歸、決策樹、SVM、神經(jīng)網(wǎng)絡、KNN、聚類等)。通過鼠標的托拉拽，流程式的節(jié)點，基本上就可以實現(xiàn)你挖掘數(shù)據(jù)的需求。

傻瓜式操作的優(yōu)點就是使得數(shù)據(jù)挖掘，入手非?？欤^為簡單。但是，也存在一些缺陷，即，使得這個挖掘過程變得有點單調(diào)和無趣。沒辦法批量運算模型，也沒辦法開發(fā)一些個性化的算法和應用。用的比較熟練，并且想要進一步提升的時候，建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語言和Python。這兩個挖掘工具是開源的，前者是統(tǒng)計學家開發(fā)的，后者是計算機學家開發(fā)的。

一方面，可以有很多成熟的、前沿的算法包調(diào)用，另外一方面，還可以根據(jù)自己的需求，對既有的算法包進行修改調(diào)整，適應自己的分析需求，較為靈活。此外，Python在文本、非結(jié)構(gòu)化數(shù)據(jù)、社會網(wǎng)絡方面的處理，功能比較強大。

(四)算法拆解和自行開發(fā)

一般會利用python、c、c++，自己重新編寫算法代碼。例如，通過自己的代碼實現(xiàn)邏輯回歸運算過程。甚至，根據(jù)自己的業(yè)務需求和數(shù)據(jù)特點，更改其中一些假定和條件，以便提高模型運算的擬合效果。尤其，在生產(chǎn)系統(tǒng)上，通過C編寫的代碼，運行速度比較快，較易部署，能夠滿足實時的運算需求。

一般來說，從互聯(lián)網(wǎng)的招聘和對技能的需求來說，一般JD里面要求了前三種，這樣的職位會被稱為“建模分析師”。但是如果增加上了***一條，這樣的職位或許就改稱為“算法工程師”。

二、模型的理解：傳統(tǒng)的和時髦的

據(jù)理解，模型應該包括兩種類型。一類是傳統(tǒng)的較為成熟的模型，另外一類是較為時髦有趣的模型。對于后者，大家會表現(xiàn)出更多的興趣，一般是代表著新技術(shù)、新方法和新思路。

(一)傳統(tǒng)的模型

傳統(tǒng)的模型，主要就是為了解決分類(例如決策樹、神經(jīng)網(wǎng)絡、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關(guān)聯(lián)(無序關(guān)聯(lián)和有序關(guān)聯(lián))這四類問題。這些都是較為常規(guī)和經(jīng)典的。

(二)時髦有趣的模型

比較有趣、前沿的模型，大概包括以下幾種類型，即社會網(wǎng)絡分析、文本分析、基于位置的服務(Location-Based Service，LBS)、數(shù)據(jù)可視化等。

它們之所以比較時髦，可能的原因是，采用比較新穎前沿的分析技術(shù)(社會網(wǎng)絡、文本分析)，非常貼近實際的應用(LBS)，或者是能夠帶來更好的客戶體驗(數(shù)據(jù)可視化)。

大數(shù)據(jù)

(1)社會網(wǎng)絡的應用

傳統(tǒng)的模型將客戶視為單一個體，忽視客戶之間的關(guān)系，基于客戶的特征建立模型。社會網(wǎng)絡是基于群體的，側(cè)重研究客戶之間的關(guān)聯(lián)，通過網(wǎng)絡、中心度、聯(lián)系強度、密度，得到一些非常有趣的結(jié)果。典型的應用，例如，關(guān)鍵客戶的識別、新產(chǎn)品的滲透和擴散、微博的傳播、風險的傳染、保險或信用卡網(wǎng)絡團伙欺詐、基于社會網(wǎng)絡的推薦引擎開發(fā)等。

[[184260]]

(2)文本挖掘的應用

文本作為非結(jié)構(gòu)化數(shù)據(jù)，加工分析存在一定的難度，包括如何分詞、如何判斷多義詞、如何判斷詞性，如何判斷情緒的強烈程度。典型的應用，包括搜索引擎智能匹配、通過投訴文本判斷客戶情緒、通過輿情監(jiān)控品牌聲譽、通過涉訴文本判定企業(yè)經(jīng)營風險、通過網(wǎng)絡爬蟲抓取產(chǎn)品評論、詞云展示等。

大數(shù)據(jù)

文本和濕人。關(guān)于文本分析，最近朋友圈有篇分享，很有意思，號稱可以讓你瞬間變成濕人。原理很簡單，就是先把《全宋詞》分詞，然后統(tǒng)計頻數(shù)前100的詞語。然后你可以隨機湊6個數(shù)(1-100)，這樣就可以拼湊出兩句詩。比如，隨機寫兩組數(shù)字，(2,37,66)和(57,88,33)，對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩，即“東風無人黃花落，憔悴今夜風月明”。還真像那么一回事，有興趣可以玩一玩。

(3)LBS應用

即基于位置的服務，即如何把服務和用戶的地理位置結(jié)合。當下的APP應用，如果不能很好地和地理位置結(jié)合，很多時候很難有旺盛的生命力。典型的APP，例如大眾點評(餐飲位置)、百度地圖(位置和路徑)、滴滴打車、微信位置共享、時光網(wǎng)(電影院位置)等服務。此外，銀行其實也在研究，如何把線上客戶推送到距離客戶最近的網(wǎng)點，完成O2O的***對接，從而帶來更好的客戶體驗。

[[184261]]

(4)可視化應用

基于地圖的一些可視化分析，比較熱門，例如，春節(jié)人口遷徙圖、微信活躍地圖、人流熱力圖、擁堵數(shù)據(jù)的可視化、社會網(wǎng)絡擴散可視化等。

如果你想讓你的分析和挖掘比較吸引眼球，請盡量往以上四個方面靠攏。

三、互聯(lián)網(wǎng)和金融數(shù)據(jù)挖掘的差異

博士后兩年，對銀行領(lǐng)域的數(shù)據(jù)挖掘有些基本的了解和認識，但是面對浩瀚的數(shù)據(jù)領(lǐng)域，也只能算剛剛?cè)腴T。很多時候，會很好奇互聯(lián)網(wǎng)領(lǐng)域，做數(shù)據(jù)挖掘究竟是什么樣的形態(tài)。

很早之前，就曾在知乎上提了個問題，“金融領(lǐng)域的數(shù)據(jù)挖掘和互聯(lián)網(wǎng)中的數(shù)據(jù)挖掘，究竟有什么的差異和不同”。這個問題掛了幾個月，雖有寥寥的回答，但是沒有得到想要的答案。

既然沒人能夠提供想要的答案，那就，根據(jù)自己的理解、一些場合的碰壁、以及和一些互聯(lián)網(wǎng)數(shù)據(jù)小伙伴的接觸，試圖歸納和回答下。應該有以下幾個方面的差異。

大數(shù)據(jù)

(一)“分析”和“算法”

在互聯(lián)網(wǎng)中，“分析”和“算法”，分得非常開，對應著“數(shù)據(jù)分析師”和“算法工程師”兩種角色。前者更多側(cè)重數(shù)據(jù)提取、加工、處理、運用成熟的算法包，開發(fā)模型，探索數(shù)據(jù)中的模式和規(guī)律。后者更多的是，自己寫算法代碼，通過C或python部署到生產(chǎn)系統(tǒng)，實時運算和應用。

在銀行領(lǐng)域，基本上，只能看到***種角色。數(shù)據(jù)基本上來源于倉庫系統(tǒng)，然后運用SQL、SAS、R，提取、加工、建模和分析。

(二)數(shù)據(jù)類型

數(shù)據(jù)類型，主要包括“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”兩類數(shù)據(jù)。前者就是傳統(tǒng)的二維表結(jié)構(gòu)。一行一條記錄，一列一個變量。后者包括文本、圖像、音頻、視頻等。

銀行里面的數(shù)據(jù)，更多的是結(jié)構(gòu)化數(shù)據(jù)，也有少量的非結(jié)構(gòu)化數(shù)據(jù)(投訴文本、貸款審批文本等)。業(yè)務部門對非結(jié)構(gòu)化數(shù)據(jù)的分析需求比較少。因此，在非結(jié)構(gòu)化數(shù)據(jù)的分析建模方面，稍顯不足。

互聯(lián)網(wǎng)，更多的是網(wǎng)絡日志數(shù)據(jù)，以文本等非結(jié)構(gòu)化數(shù)據(jù)為主，然后通過一定的工具將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)，進一步加工和分析。

(三)工具、存儲和架構(gòu)

互聯(lián)網(wǎng)，基本上是免費導向，所以常常選擇開源的工具，例如MySql、R、Python等。常常是基于hadoop的分布式數(shù)據(jù)采集、加工、存儲和分析。

商業(yè)銀行一般基于成熟的數(shù)據(jù)倉庫，例如TD，以及一些成熟的數(shù)據(jù)挖掘工具，SAS EG和EM。

(四)應用場景

在應用場景上，兩者之間也存在著非常大的差異。

(1)金融領(lǐng)域

金融領(lǐng)域的數(shù)據(jù)挖掘，不同的細分行業(yè)(如銀行和證券)，也是存在差別的。

銀行領(lǐng)域的統(tǒng)計建模。銀行內(nèi)的數(shù)據(jù)挖掘，較為側(cè)重統(tǒng)計建模，數(shù)據(jù)分析對象主要為截面數(shù)據(jù)，一般包括客戶智能(CI)、運營智能(OI)和風險智能(RI)。開發(fā)的模型以離線為主，少量模型，例如反欺詐、申請評分，對實時性的要求比較高。

證券領(lǐng)域的量化分析。證券行業(yè)的挖掘工作，更加側(cè)重量化分析，分析對象更多的是時間序列數(shù)據(jù)，旨在從大盤指數(shù)、波動特點、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢和機會，進行短期的套利操作。量化分析的實時性要求也比較高，可能是離線運算模型，但是在交易系統(tǒng)部署后，實時運算，捕捉交易事件和交易機會。

(2)互聯(lián)網(wǎng)

互聯(lián)網(wǎng)的實時計算?；ヂ?lián)網(wǎng)的應用場景，例如推薦引擎、搜索引擎、廣告優(yōu)化、文本挖掘(NLP)、反欺詐分析等，很多時候需要將模型部署在生產(chǎn)系統(tǒng)，對實時響應要求比較高，需要保證比較好的客戶體驗。

四、數(shù)據(jù)挖掘在金融領(lǐng)域的典型應用

別人常常會問，在銀行里面，數(shù)據(jù)挖掘究竟是做什么的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。

(一)信用評分

申請評分。當你申請信用卡、消費貸款、經(jīng)營貸款時，銀行是否會審批通過，發(fā)放多大規(guī)模的額度?這個判斷很可能就是申請評分模型運算的結(jié)果。通過模型計算你的還款能力和還款意愿，綜合評定放款額度和利率水平。

行為評分。當你信用卡使用一段時間后，銀行會根據(jù)你的刷卡行為和還款記錄，通過行為評分模型，判斷是否給你調(diào)整固定額度。

(二)個性化產(chǎn)品推薦

很多時候，你可能會收到銀行推送的短信或者接到銀行坐席的外呼，比如，向你推薦某款理財產(chǎn)品。這背后，很可能就是產(chǎn)品響應模型運算的結(jié)果。銀行會通過模型，計算你購買某款理財產(chǎn)品的概率，如果概率比價高的話，就會向你推送這款理財產(chǎn)品。

此外，很多時候，不同的客戶，銀行會個性化的推薦不同的產(chǎn)品，很可能就是產(chǎn)品關(guān)聯(lián)分析模型運算的結(jié)果。

(三)個性化廣告展示

登陸商業(yè)銀行網(wǎng)站時，通常會有一個廣告banner，banner上會展示若干幅廣告。很多時候，不同的客戶登陸網(wǎng)站，會接觸到不同的廣告，即個性化的廣告推送。一般來說，后臺經(jīng)過計算，會判斷，你對哪幾款廣告和產(chǎn)品感興趣，***推送3-5款你最感興趣的產(chǎn)品，從而能夠有效吸引你的注意，促進點擊、轉(zhuǎn)化和成交。

責任編輯：張燕妮來源： 36大數(shù)據(jù)

數(shù)據(jù)人數(shù)據(jù)挖掘

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="tfngy"></cite>

<legend id="tfngy"><track id="tfngy"></track></legend>

<sub id="tfngy"></sub>