到底穿T恤、正裝還是道袍?數(shù)據(jù)挖掘師的定位
(圖為:劍網(wǎng)3 玩家Cosplay)
心態(tài)不夠平靜,晚上在小區(qū)里面逛了一圈又一圈、一圈又一圈、一圈又一圈。
最近看了《再次出發(fā)》,大意是講兩個(gè)失意的音樂人重振旗鼓再次出發(fā),挺不錯(cuò)。但是,總覺得在電影院里面看劇情片,節(jié)奏太慢受不了,個(gè)人偏好。倒是里面所有的音樂都很好聽。它會(huì)給你平靜、簡單、自然、祥和、空靈和穿透的感覺。適合寫這篇文章的時(shí)候循環(huán)播放。
大數(shù)據(jù)是什么?其實(shí)我也不太清楚。但是人們常常用四個(gè)關(guān)鍵詞去刻畫和描述它。即Volume、Variety、Value和Velocity。
什么樣的人在從事數(shù)據(jù)挖掘的工作?別人說:“T恤、正裝和道袍”。
做挖掘采用什么工具?開源、“眾人堆柴火焰高”。
(一)大數(shù)據(jù)的本質(zhì)(4V)
(1)Volume(容量)
就是說數(shù)據(jù)規(guī)模和容量非常龐大。簡單來說,傳統(tǒng)的銀行數(shù)據(jù)倉庫中大概有小幾萬張表,記錄著各個(gè)系統(tǒng)的數(shù)據(jù)。拿其中一張表舉例(零售客戶金融資產(chǎn)表),一般而言,零售客戶都是非常海量的。股份制銀行至少有***的零售客戶。基本上,每天的零售客戶金融資產(chǎn)表,其產(chǎn)生的數(shù)據(jù)量就有幾個(gè)G。
銀行哪里來的大數(shù)據(jù)。有些人不太理解銀行里面記錄的都是什么數(shù)據(jù),還是比較抽象,不夠具體清晰。假設(shè)你有一張借記卡。你轉(zhuǎn)賬、存款、取現(xiàn)、貸款、購買理財(cái)、基金、保險(xiǎn)、刷卡、交易數(shù)據(jù)、你開戶時(shí)填寫的個(gè)人資料、辦理業(yè)務(wù)時(shí)填寫的個(gè)人資料,都會(huì)被記錄下來。簡而言之,你和銀行的每一次交互,在后臺(tái)系統(tǒng)都會(huì)存在記錄,這就是數(shù)據(jù)倉庫的原始數(shù)據(jù)來源。
(2)Variety(多樣性)
就是說數(shù)據(jù)類型非常多樣。但是,天下數(shù)據(jù),基本上也就包括三種類型。
***種,結(jié)構(gòu)化數(shù)據(jù)。就是常見的二維表。一條記錄代表一個(gè)客戶(行維度),列維度代表屬性和特征。例如,張三的定期余額、活期、理財(cái)、保險(xiǎn)、國債余額等。
第二種,半結(jié)構(gòu)化數(shù)據(jù)。需要通過一定的技術(shù)抽取關(guān)鍵的特征和變量。
例如簡歷,一般來說,都能夠從簡歷里面抽取一些通用的特征,如年齡、性別、工作單位、工作年限、教育背景等。例如,網(wǎng)絡(luò)日志分析,互聯(lián)網(wǎng)公司常常從用戶的瀏覽日志中抓取一些特征和變量,例如IP地址、瀏覽器類型、系統(tǒng)類型、登陸時(shí)間、登陸市場、登陸次數(shù)等等。有些做風(fēng)控的公司,通過抓取全國所有法院的判決文書,抓取企業(yè)是否涉訴,涉訴金額,作為判斷還款能力的重要標(biāo)準(zhǔn)和依據(jù)。
第三種,非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)處理起來就比較復(fù)雜,這也是當(dāng)前數(shù)據(jù)處理的一個(gè)前沿方向。例如圖像識(shí)別、人臉識(shí)別、視頻識(shí)別、音頻識(shí)別等。
(3)Value(價(jià)值)
就是說,海量數(shù)據(jù)意味著挖掘后產(chǎn)生的價(jià)值也是非常高的。通過數(shù)據(jù)挖掘去探索數(shù)據(jù)背后的規(guī)律和模式。
例如,通過挖掘,大致可以判斷客戶購買理財(cái)產(chǎn)品的概率有多大。如果比較大的話,就會(huì)向該客戶推薦該理財(cái)產(chǎn)品。例如,通過挖掘,可以識(shí)別客戶的交易圖譜,客戶關(guān)系網(wǎng)絡(luò)。
(4)Velocity(速度)
其實(shí)說實(shí)話,大數(shù)據(jù)之所以會(huì)為大眾所知,還是因?yàn)閿?shù)據(jù)存儲(chǔ)和加工技術(shù)的進(jìn)步,運(yùn)算不再成為一個(gè)瓶頸。
(二)數(shù)據(jù)挖掘工種:T恤、正裝和道袍
因?yàn)闃I(yè)務(wù)的關(guān)系,最近聽一個(gè)人做介紹和分享,有個(gè)觀點(diǎn)還是挺有趣的。他說做大數(shù)據(jù)的,大概有三類人群。在此借用一下觀點(diǎn)。
***種是穿T恤的,這種人一般都在互聯(lián)網(wǎng)公司。
第二種人穿正裝,這種人一般在金融機(jī)構(gòu)(例如銀行、證券)、金融相關(guān)的咨詢公司(SAS、FICO)。
第三種人是穿道袍的,到處忽悠,向非專業(yè)的layman傾銷觀點(diǎn)。例如一些第三方數(shù)據(jù)公司、或者一些動(dòng)輒就扯大數(shù)據(jù)概念,從來不落地的公司等。其實(shí)銀行里面更多,很多時(shí)候呼喊大數(shù)據(jù)口號(hào)的都是做戰(zhàn)略管理和規(guī)劃的,估計(jì)壓根沒接觸過海量數(shù)據(jù)。
前兩種人都較為偏技術(shù)一些。他們的差別更多的來自行業(yè)形態(tài)的差異。比方說,互聯(lián)網(wǎng)是較為充分競爭的領(lǐng)域,因此,穿T恤的,一般都挺有幾把刷子的。銀行和金融領(lǐng)域,還是處于政策管制的領(lǐng)域,競爭不是特別充分,投入產(chǎn)出和效率意識(shí)并不強(qiáng)。數(shù)據(jù)挖掘更像是錦上添花、花拳繡腿的產(chǎn)物。由此表現(xiàn)出來非常明顯的差別就是,銀行永遠(yuǎn)都是花最貴的錢,買最貴的技術(shù)、產(chǎn)品和外包服務(wù),例如SAS?;ヂ?lián)網(wǎng)一般都是,怎么免費(fèi)怎么來,數(shù)據(jù)庫和挖掘的軟件基本上都是開源的,例如R語言、python。
第三種穿道袍的人。雖然有些忽悠成分,但是,很多時(shí)候,也正是他們教育了普羅大眾,培育了整個(gè)市場,啟蒙了大環(huán)境。其實(shí),想一想,T恤、正裝、道袍各自有各自的定位和受眾。廣義一點(diǎn),其實(shí)穿道袍的人多了去了,任何行業(yè),任何領(lǐng)域,夸夸其談扯不到一點(diǎn)專業(yè)實(shí)質(zhì)的,都可以稱之為“道袍先生”。但是,存在,就是合理的。
(三)挖掘工具:開源的力量
接著上面的話題。
互聯(lián)網(wǎng)公司一般用免費(fèi)開源的挖掘軟件,例如Mysql、R語言、Python。高大上的銀行一般花了數(shù)千萬采購TD、SAS,常常采購的都是各種閹割的版本。畢竟SAS是封閉的商業(yè)軟件。
我自己使用最為熟練是SAS和R。簡單進(jìn)行比較一下。其他一些統(tǒng)計(jì)類軟件,例如SPSS、Eviews、AMOS、STATA,比較適合小樣本數(shù)據(jù)分析,適合高??蒲协h(huán)境,不展開。
(1)SAS的封閉
SAS base。側(cè)重大樣本數(shù)據(jù)分析,可以做千萬和上億樣本級(jí)別的數(shù)據(jù)分析。Base最擅長數(shù)據(jù)的加工、整理、匯總。然后,統(tǒng)計(jì)模塊部分,基本上能實(shí)現(xiàn)SPSS所有的功能。
SAS EM。和Modeler基本上一模一樣。傻瓜式的、拖拽風(fēng)格的挖掘工具。它之所以能夠貼上挖掘的稱號(hào),是因?yàn)槠淝度肓撕芏喑墒斓慕y(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法(聚類、貝葉斯、神經(jīng)網(wǎng)絡(luò)、決策樹、SVM、隨機(jī)森林、集成學(xué)習(xí)、邏輯回歸等)。但是,他們卻是非常傻瓜式的挖掘工具,因?yàn)樗麄兪腔趫D標(biāo)、節(jié)點(diǎn)和流程的。入手很快,結(jié)果較為粗糙,難以進(jìn)行個(gè)性化、定制化的數(shù)據(jù)分析和挖掘,難以進(jìn)行批量化的參數(shù)優(yōu)化和調(diào)整。
初期入手還行,后期處處受限。
(2)R的開放
R語言。是目前遇到的最自由式的數(shù)據(jù)挖掘工具。因?yàn)槭遣捎脙?nèi)存加工處理數(shù)據(jù),限制了數(shù)據(jù)分析的體量,有時(shí)候樣本或者算法較復(fù)雜,內(nèi)存會(huì)溢出報(bào)錯(cuò)。但是,說實(shí)話,這是我非常喜歡的挖掘工具。
一方面,它有很多算法包,我可以很容易找到最前沿的算法和模塊。例如,做社會(huì)網(wǎng)絡(luò)分析igraph、例如做文本分析tm等。而這些對(duì)于SAS來說,都是收費(fèi)模塊,很難獲取。
另一方面,你可以定制自己的算法和包。EM***的一個(gè)局限就是不能定制化自己的玩法,沒辦法修改模型算法,沒辦法對(duì)數(shù)據(jù)進(jìn)行遍歷和加工。但是,R可以做到。
例如,做kmeans聚類時(shí),R可以批量跑很多分組,但是EM每次只能run一個(gè)。例如,你可以用R同時(shí)循環(huán)50棵決策樹,從而找出***的決策樹。但是EM就做不到。
換言之,EM傻瓜操作的同時(shí),就難以滿足熟練工的更高階的需求。魚和熊掌,難以兼得。
我的一個(gè)感受。常常有人說,統(tǒng)計(jì)軟件,你只要精通一個(gè)就行了。其實(shí),我是比較不認(rèn)同這種說法的。很多時(shí)候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空間與你的工具完全是相關(guān)的。每個(gè)工具之所以能存在,必然是因?yàn)椋軌蛲瓿善渌浖荒軌蛲瓿傻牟糠?。這也是我當(dāng)時(shí)熟練SAS后,接觸R語言的一個(gè)最基本的理由和出發(fā)點(diǎn)。