大道至簡:玩轉(zhuǎn)數(shù)據(jù)可視化
在大數(shù)據(jù)時代下,有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的地下石油。但你知道石油的平均采收率指標(biāo)么?你知道你所擁有的數(shù)據(jù),其中的“地質(zhì)儲量“有多大么?你知道自己的”挖掘“方法能夠?qū)崿F(xiàn)的”開采量“么?通過這個一個形象的指標(biāo)類比,我們可以知道,大數(shù)據(jù)的“大”需要你去理解和探索,而得到“有用”價值,需要掌握合適的挖掘方法!
數(shù)據(jù)挖掘作為大數(shù)據(jù)分析的核心技術(shù),是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的、有潛在價值的信息的反復(fù)過程。它主要采用人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等技術(shù),高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。
小白我不是這個領(lǐng)域的專家,但我很清楚“可視化探索”數(shù)據(jù)價值并不是一件很難的工作,很適合每個小白進(jìn)入數(shù)據(jù)挖掘這個金領(lǐng)圈!當(dāng)然掌握可視化只是我“野心”的***步,呵呵!工欲善其事,必先利其器,我在互聯(lián)網(wǎng)調(diào)研的結(jié)果是,專門做可視化的軟件(Tableau等),基本找不到能用的版本,而且都沒有數(shù)據(jù)挖掘的算法;而專門做數(shù)據(jù)挖掘的軟件(SPSS等),有可視化和數(shù)據(jù)挖掘算法,但就是太丑了,不好操作;而SAS、R、Python這些編程工具,學(xué)習(xí)和應(yīng)用效率就更低了。***鎖定了一個國產(chǎn)軟件,叫Smartbi的(主要看到有免費(fèi)版,讓小白我心動了一下),下載安裝很容易,尤其可視化部分用了百度Echarts,簡直令人欣喜!
下面是軟件自帶一些例子里的可視化效果,尤其“可視化探索”節(jié)點(diǎn)下有“交互視圖”,可以在界面上隨意選擇X軸、Y軸和顏色字段,跟Tableau一樣好操作。
專家診病示例中的交互條形圖(看見“動態(tài)重計算”沒?)
專家診病模型中的網(wǎng)絡(luò)圖(用來看相關(guān)性也不錯嘛)
異常檢測示例中的散點(diǎn)圖(相關(guān)性很明顯:有地就有錢?)
異常檢測示例中的直方圖(閥值很明顯)
媒體分級示例中的餅圖(去掉***的cluster2,重新分析占比)
微博分析示例中的樹狀圖(小白我看不懂,求解)
統(tǒng)計功能示例中的交互箱線圖(以后可以分析股票嘍)
文本挖掘示例中的詞云(啥時候的數(shù)據(jù),怎么大連這么火)
微博分析示例中的賬號轉(zhuǎn)發(fā)關(guān)系(全是互相捧場的)
時間序列示例中的線型圖(應(yīng)該是用來預(yù)測的吧)
產(chǎn)品銷售的地圖分析(看到“值域漫游”了沒?)
這個數(shù)據(jù)挖掘軟件里的可視化功能不如Tableau里多,里面還有個叫“提升圖”的,沒看到示例,不知道是什么東西,但基本上能覆蓋我的需求了。最需要贊的是,個人免費(fèi)版本里,還有很多數(shù)據(jù)處理的功能,這樣以后對Excel的處理,也能順手搞定(雖然現(xiàn)在還看不懂每個的意思)。以及這么多還看不懂的東東(貌似很牛的樣子)!
工具算是找到了,我可以繼續(xù)堅持自己的 “大道至簡”觀點(diǎn),不是把模型、算法一直掛在嘴邊的才是牛人,能夠用圖形把問題說清楚的,才能站在溝通的制高點(diǎn)上,畢竟一圖解千言,專業(yè)的分析報告不是人人能看懂的!