科普 | 說說大數(shù)據(jù)是什么,及其特點與應用
Runsen在KFC買早餐,偶然聽見一句話,男孩對朋友說,“你每在手機上下一次訂單,就給肯德基的大數(shù)據(jù)做了一次貢獻。”
想來有趣,在網(wǎng)上購物、訂外賣、手機支付已成為很多人日常生活的一部分,可穿戴設備、智能家居設備等風頭正旺的現(xiàn)在,我們每天的吃飯、睡覺、工作,甚至娛樂產(chǎn)生的“數(shù)據(jù)”都會通過某種手段被保留和集中起來。根據(jù)IBM調(diào)研的說法,人類每天生成的數(shù)據(jù)涵蓋我們發(fā)送的文本、上傳的照片、各類傳感器數(shù)據(jù)、設備與設備之間的通信的所有信息等,相當于從地球到月球的距離。
將這樣量級的數(shù)據(jù)稱為“大數(shù)據(jù)”可一點也不為過。最早提出“大數(shù)據(jù)”時代到來的全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”今天我們就來說說大數(shù)據(jù)。
一、什么是大數(shù)據(jù)
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》 中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理的分析方法;而研究機構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn);根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。
我們這里主要采用第三種定義,即所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到獲取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策的目的資訊。
湖畔大學曾鳴老師曾列舉的的大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)最大的差別是:在線、實時與全貌。
①在線:首先大數(shù)據(jù)必須是永遠是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶里的,是隨時能調(diào)用的。不在線的數(shù)據(jù)不是大數(shù)據(jù),因為你根本沒時間把它導出來使用。只有在線的數(shù)據(jù)才能馬上被計算、被使用。
②實時:大數(shù)據(jù)必須實時反應。我們上淘寶輸入一個商品,后臺必須在10億件商品當中,瞬間進行呈現(xiàn)。如果要等一個小時才呈現(xiàn),我相信沒有人再上淘寶。十億件商品、幾百萬個賣家、一億的消費者,瞬間完成匹配呈現(xiàn),這才叫大數(shù)據(jù)。
③全貌:大數(shù)據(jù)還有一個最大的特征,它不再是樣本思維,它是一個全體思維。以前一提到數(shù)據(jù),人們第一個反應是樣本、抽樣,但是大數(shù)據(jù)不再抽樣,不再調(diào)用部分,我們要的是所有可能的數(shù)據(jù),它是一個全貌。其實叫全數(shù)據(jù)比大數(shù)據(jù)更準確。
二、大數(shù)據(jù)對企業(yè)有什么好處
“大數(shù)據(jù)”在物理學、
生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。據(jù)統(tǒng)計,企業(yè)內(nèi)部的經(jīng)營交易信息、互聯(lián)網(wǎng)中的商品物流信息、人與人交互信息、位置信息等數(shù)據(jù),每2~3年時間就會成倍增長。
而信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運用科學管理、決策分析的基礎。這些數(shù)據(jù)蘊含著巨大的商業(yè)價值,但是企業(yè)所關注的通常只占在總數(shù)據(jù)量的2%~4%左右。因此,企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,以至于浪費了更多的時間和資金,也失去制定關鍵商業(yè)決策的最佳契機。
對于一般的企業(yè)而言,大數(shù)據(jù)的作用主要表現(xiàn)在兩個方面:
1.幫助企業(yè)了解用戶
大數(shù)據(jù)通過相關性分析,將客戶和產(chǎn)品、服務進行關系串聯(lián),對用戶的偏好進行定位,從而提供更精準、更有導向性的產(chǎn)品和服務,提升銷售業(yè)績。典型的例子就是電商。像阿里淘寶這樣的電子商務平臺,積累了大量的用戶購買數(shù)據(jù)。在早期的時候,這些數(shù)據(jù)都是累贅和負擔,存儲它們需要大量的硬件成本。但是,現(xiàn)在這些數(shù)據(jù)都是阿里最寶貴的財富。
大數(shù)據(jù)也可以對業(yè)績產(chǎn)生直接影響。它的效率和準確性,遠遠超過傳統(tǒng)的用戶調(diào)研。除了電商,包括能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運輸、公共事業(yè)等,都是大數(shù)據(jù)的用武之地。
2.幫助企業(yè)了解自己
除了幫助了解用戶之外,大數(shù)據(jù)還能幫助了解自己。企業(yè)生產(chǎn)經(jīng)營需要大量的資源,大數(shù)據(jù)可以分析和鎖定資源的具體情況,例如儲量分布和需求趨勢。這些資源的可視化,可以幫助企業(yè)管理者更直觀地了解企業(yè)的運作狀態(tài),更快地發(fā)現(xiàn)問題,及時調(diào)整運營策略,降低經(jīng)營風險。總而言之,“知己知彼,百戰(zhàn)百勝”。大數(shù)據(jù),就是為決策服務的。
三、大數(shù)據(jù)有什么特點
大數(shù)據(jù)的特點有4個層面:
1.Volume(海量化):數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;
2.Variety(多樣化):數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù);
3.Velocity(時效性):處理速度快,1秒定律,從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化;
4.Value(價值密度):大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價值密度很低,數(shù)據(jù)中真正有價值的,只是其中的很少一部分。只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報
四、大數(shù)據(jù)的開發(fā)
1.數(shù)據(jù)采集
數(shù)據(jù)采集有線上和線下兩種方式,線上一般通過爬蟲,通過抓取或者通過已有應用系統(tǒng)的采集。
在這個階段,我們可以做一個大數(shù)據(jù)采集平臺,依托自動爬蟲(使用Python或者Node.js制作爬蟲軟件),ETL工具、或者自定義的抽取轉(zhuǎn)換引擎,從文件中、數(shù)據(jù)庫中、網(wǎng)頁中專項爬取數(shù)據(jù)。如果這一步通過自動化系統(tǒng)來做的話,可以很方便的管理所有的原始數(shù)據(jù),并且從數(shù)據(jù)的開始對數(shù)據(jù)進行標簽采集,可以規(guī)范開發(fā)人員的工作,同時目標數(shù)據(jù)源可以更方便的管理。
數(shù)據(jù)采集的難點在于多數(shù)據(jù)源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統(tǒng)計文檔、甚至是doc文件。如何將它們規(guī)整、有方案地整理進我們的大數(shù)據(jù)流程中也是必不可缺的一環(huán)。
2.數(shù)據(jù)匯聚
數(shù)據(jù)的匯聚是大數(shù)據(jù)流程最關鍵的一步,你可以在這里加上數(shù)據(jù)標準化,你也可以在這里做數(shù)據(jù)清洗,數(shù)據(jù)合并,還可以在這一步將數(shù)據(jù)存檔,將確認可用的數(shù)據(jù)經(jīng)過可監(jiān)控的流程進行整理歸類,這里產(chǎn)出的所有數(shù)據(jù)就是整個公司的數(shù)據(jù)資產(chǎn),到了一定的量就是一筆固定資產(chǎn)。
數(shù)據(jù)匯聚的難點在于如何標準化數(shù)據(jù),例如表名標準化,表的標簽分類,表的用途,數(shù)據(jù)的量,是否有數(shù)據(jù)增量?數(shù)據(jù)是否可用?
這些需要在業(yè)務上下很大的功夫,必要時還要引入智能化處理,例如根據(jù)內(nèi)容訓練結(jié)果自動打標簽,自動分配推薦表名、表字段名等,還有如何從原始數(shù)據(jù)中導入數(shù)據(jù)等。
3.數(shù)據(jù)轉(zhuǎn)化與映射
經(jīng)過數(shù)據(jù)匯聚的數(shù)據(jù)資產(chǎn)如何提供給具體的使用方使用?在這一步,主要就是考慮數(shù)據(jù)如何應用,如何將兩、三個數(shù)據(jù)表轉(zhuǎn)換成一張能夠提供服務的數(shù)據(jù)。然后定期更新增量。
經(jīng)過前面的那幾步,在這一步難點并不太多了,如何轉(zhuǎn)換數(shù)據(jù)與如何清洗數(shù)據(jù)、標準數(shù)據(jù)無二,將兩個字段的值轉(zhuǎn)換成一個字段,或者根據(jù)多個可用表統(tǒng)計出一張圖表數(shù)據(jù)等等。
4.數(shù)據(jù)應用
數(shù)據(jù)的應用方式很多,有對外的、有對內(nèi)的,如果擁有了前期的大量數(shù)據(jù)資產(chǎn),是通過restful API提供給用戶?還是提供流式引擎 KAFKA 給應用消費? 或者直接組成專題數(shù)據(jù),供自己的應用查詢?這里對數(shù)據(jù)資產(chǎn)的要求比較高,所以前期的工作做好了,這里的自由度很高。
五、大數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別
大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘的區(qū)別是,大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘更多是針對內(nèi)部企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘,數(shù)據(jù)分析就是進行做出針對性的分析和診斷,大數(shù)據(jù)需要分析的是趨勢和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷:
1.大數(shù)據(jù)
指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
2.數(shù)據(jù)分析
是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
3.數(shù)據(jù)挖掘
又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
根據(jù)信息存儲格式,用于挖掘的對象有關系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。
大數(shù)據(jù)是范圍比較廣的數(shù)據(jù)分析和數(shù)據(jù)挖掘。按照數(shù)據(jù)分析的流程來說,數(shù)據(jù)挖掘工作較數(shù)據(jù)分析工作靠前些,二者又有重合的地方,數(shù)據(jù)挖掘側(cè)重數(shù)據(jù)的清洗和梳理。數(shù)據(jù)分析處于數(shù)據(jù)處理的最末端,是最后階段。數(shù)據(jù)分析和數(shù)據(jù)挖掘的分界、概念比較模糊,模糊的意思是二者很難區(qū)分。大數(shù)據(jù)概念更為廣泛,是把創(chuàng)新的思維、信息技術(shù)、統(tǒng)計學等等技術(shù)的綜合體,每個人限于學術(shù)背景、技術(shù)背景,概述的都不一樣。
六、大數(shù)據(jù)的應用
數(shù)據(jù)在行業(yè)中的應用的越來越廣泛,我們先看看大數(shù)據(jù)在當下有怎樣的杰出表現(xiàn):
1.大數(shù)據(jù)幫助政府實現(xiàn)市場經(jīng)濟調(diào)控、公共衛(wèi)生安全防范、災難預警、社會輿論監(jiān)督;大數(shù)據(jù)幫助城市預防犯罪,實現(xiàn)智慧交通,提升緊急應急能力;電力企業(yè)會通過大數(shù)據(jù)實時做數(shù)據(jù)的監(jiān)測和預測,讓我們更好、更方便做這種電力的調(diào)度;
2.醫(yī)療中更是有著比較廣泛的應用,現(xiàn)在的基因工程以及疾病的預測分析和每個病人的手術(shù)方案等等,可能都會用到大數(shù)據(jù)。 大數(shù)據(jù)幫助醫(yī)療機構(gòu)建立患者的疾病風險跟蹤機制,幫助醫(yī)藥企業(yè)提升藥品的臨床使用效果,幫助艾滋病研究機構(gòu)為患者提供定制的藥物;
3.大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務,幫助旅游網(wǎng)站為旅游者提供心儀的旅游路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優(yōu)惠價格;
4.大數(shù)據(jù)幫助企業(yè)提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業(yè)提升廣告投放精準度;大數(shù)據(jù)幫助社交網(wǎng)站提供更準確的好友推薦,為用戶提供更精準的企業(yè)招聘信息,向用戶推薦可能喜歡的游戲以及適合購買的商品;
5.大數(shù)據(jù)幫助娛樂行業(yè)預測歌手,歌曲,電影,電視劇的受歡迎程度,并為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;另外電影其實都是需要渲染的,之前每渲染一分鐘可能就需要上千臺機器、可能需要一兩個月,現(xiàn)在通過云計算、大數(shù)據(jù)的方式,可能渲染一個一分鐘的電影鏡頭就縮短成了一秒或者兩秒。
6.大數(shù)據(jù)幫助航空公司節(jié)省運營成本,幫助電信企業(yè)實現(xiàn)售后服務質(zhì)量提升,幫助保險企業(yè)識別欺詐騙保行為,幫助快遞公司監(jiān)測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發(fā)生故障的設備;
七、大數(shù)據(jù)的展望
其實,除了以上大數(shù)據(jù)的應用外,未來大數(shù)據(jù)的身影應該無處不在,就算無法準確預測大數(shù)據(jù)終會將人類社會帶往到哪種最終形態(tài),但我相信只要發(fā)展腳步在繼續(xù),因大數(shù)據(jù)而產(chǎn)生的變革浪潮將很快淹沒地球的每一個角落。
比如,Amazon的最終期望是:“最成功的書籍推薦應該只有一本書,就是用戶要買的下一本書。”Google也希望當用戶在搜索時,最好的體驗是搜索結(jié)果只包含用戶所需要的內(nèi)容,而這并不需要用戶給予Google太多的提示。
而當物聯(lián)網(wǎng)發(fā)展到達一定規(guī)模時,借助條形碼、二維碼、RFID等能夠唯一標識產(chǎn)品,傳感器、可穿戴設備、智能感知、視頻采集、增強現(xiàn)實等技術(shù)可實現(xiàn)實時的信息采集和分析,這些數(shù)據(jù)能夠支撐智慧城市,智慧交通,智慧能源,智慧醫(yī)療,智慧環(huán)保的理念需要,這些都所謂的智慧將是大數(shù)據(jù)的采集數(shù)據(jù)來源和服務范圍。
未來的大數(shù)據(jù)除了將更好的解決社會問題,商業(yè)營銷問題,科學技術(shù)問題,還有一個可預見的趨勢是以人為本的大數(shù)據(jù)方針。人才是地球的主宰,大部分的數(shù)據(jù)都與人類有關,要通過大數(shù)據(jù)解決人的問題。