漫話(huà):如何給女朋友解釋什么是"大案牘術(shù)"?
作者:漫話(huà)編程
微信公眾號(hào)id:mhcoding
聽(tīng)說(shuō)最近《長(zhǎng)安十二時(shí)辰》比較火,于是趁著一個(gè)周末趕緊補(bǔ)一補(bǔ)劇。相信很多人都對(duì)其中的"大案牘術(shù)"比較感興趣,靖安司說(shuō)"大案牘術(shù)"選中了張小敬。
看到這里,我以為女朋友會(huì)問(wèn)我:什么是大案牘術(shù)?
萬(wàn)萬(wàn)沒(méi)想到,女朋友并沒(méi)有這么問(wèn),而是說(shuō)了一句:四字弟弟好帥啊~!
大案牘術(shù)
大案牘術(shù),并不是歷史上真實(shí)存在的,而是《長(zhǎng)安十二時(shí)辰》的作者馬伯庸自創(chuàng)的。
大案牘術(shù)的發(fā)明者是徐賓,只是靖安司一個(gè)八品主事,因?yàn)槠涑錾挠洃浟Γ约皩?duì)術(shù)數(shù)的刻苦鉆研,研究出了一套以檔案數(shù)據(jù)為基礎(chǔ)的處理事務(wù)的方法,即為“大案牘術(shù)”,無(wú)論是破案調(diào)查找人,甚至預(yù)言未來(lái),都可以做到。
《長(zhǎng)安十二時(shí)辰》原著中有兩處關(guān)于大案牘術(shù)的描述:
他做不良帥那么多年,破案無(wú)數(shù),深知很多事情并不需要搜考秘聞,真相就藏在人人可見(jiàn)的文卷之中,就看你能不能找出來(lái)——此所謂’大案牘’之術(shù)。李泌特意在靖安司集中一批精干官吏,專(zhuān)事檢校查閱,正適合應(yīng)付眼下這局面,可見(jiàn)此人卓識(shí)。
憑借大案牘之術(shù)和祆教的戶(hù)籍配合,他迅速地找出一個(gè)可疑之人。此人叫作龍波,來(lái)自龜茲,開(kāi)元二十年來(lái)京落為市籍,同年拜入祆教,就住在懷遠(yuǎn)坊內(nèi),一直單身。供奉記錄顯示他最近半年來(lái),給祆祠的供奉陡增,為此還特受褒獎(jiǎng)。天寶二載底市籍有過(guò)一次清冊(cè)重造,但龍波的戶(hù)口仍是開(kāi)元二十年。有一位戶(hù)部老吏敏銳地注意到這個(gè)小紕漏。戶(hù)籍上要寫(xiě)清相貌,若是舊冊(cè)不造,則有可能冒名頂替。
其實(shí),所謂"大案牘術(shù)",就是我們今天所說(shuō)的大數(shù)據(jù)。
大數(shù)據(jù)
大數(shù)據(jù),Big Data,是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有4個(gè)基本特征:
- 數(shù)據(jù)體量巨大。百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。有資料證實(shí),到目前為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB。
- 數(shù)據(jù)類(lèi)型多樣。現(xiàn)在的數(shù)據(jù)類(lèi)型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類(lèi)型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。
- 處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類(lèi)型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
- 價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
現(xiàn)如今,大數(shù)據(jù)是一個(gè)很火的詞匯,但是所有的理解也都不盡相同,對(duì)于不同的人,大數(shù)據(jù)有著不同的意思。
對(duì)于廣大用戶(hù)來(lái)說(shuō),大數(shù)據(jù)就是被采集到的各種信息。簡(jiǎn)單來(lái)說(shuō),指的就是用戶(hù)的一些個(gè)人信息,如姓名、手機(jī)號(hào)、職業(yè)等。再深層次一些可能是用戶(hù)的人際關(guān)系、交易記錄、用戶(hù)的行為記錄等。
對(duì)于一些從事大數(shù)據(jù)相關(guān)的技術(shù)人員來(lái)說(shuō),大數(shù)據(jù)就是數(shù)據(jù)采集、數(shù)據(jù)存取、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等。而做這些的目的主要是通過(guò)大量數(shù)據(jù),進(jìn)行預(yù)測(cè)分析,來(lái)實(shí)現(xiàn)商業(yè)價(jià)值。
就像"大案牘術(shù)"一樣,徐賓可以通過(guò)一些案牘中的記錄,進(jìn)行破案找人、預(yù)測(cè)未來(lái),如今的大數(shù)據(jù)更是有著廣泛的應(yīng)用。
無(wú)論是各行各業(yè),一旦有了大量數(shù)據(jù),通過(guò)對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。大數(shù)據(jù)利用已經(jīng)逐漸成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素,各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”。在大數(shù)據(jù)時(shí)代,可通過(guò)實(shí)時(shí)監(jiān)測(cè)、跟蹤研究對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對(duì)策。
比如:
銀行有了大數(shù)據(jù),可以提前識(shí)別風(fēng)險(xiǎn),降低經(jīng)濟(jì)損失。
電商網(wǎng)站有了大數(shù)據(jù),可以分析用戶(hù)行為,推薦適合商品。
醫(yī)院有了大數(shù)據(jù),可以對(duì)各種疑難病癥進(jìn)行分析并治愈。
制造業(yè)有了大數(shù)據(jù),可以提前預(yù)知銷(xiāo)量,動(dòng)態(tài)調(diào)整生產(chǎn)力。
公安系統(tǒng)有了大數(shù)據(jù),可以更好的維護(hù)社會(huì)穩(wěn)定。
大數(shù)據(jù)的處理
我們通過(guò)《長(zhǎng)安十二時(shí)辰》的影視劇以及原著我們知道,大案牘術(shù)之所以可以進(jìn)行斷案和預(yù)知未來(lái)主要是有幾個(gè)基本前提:
1、需要有很多錄入吏將各地發(fā)生的事件詳盡的記錄下來(lái)。
2、錄入吏將自己記錄的信息進(jìn)行整理成案牘,提交給靖安司。
3、靖安司將這些案牘分門(mén)別類(lèi)的保存在案牘庫(kù)中。
4、需要查詢(xún)某個(gè)事件或人物時(shí),需要各個(gè)文官們一起翻閱案牘,進(jìn)行信息檢索
5、最后根據(jù)這些數(shù)據(jù)進(jìn)行整理、分析得出結(jié)果。
以上環(huán)節(jié),其實(shí)也是當(dāng)今的大數(shù)據(jù)處理的主要流程:包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)展示/數(shù)據(jù)可視化、數(shù)據(jù)應(yīng)用等環(huán)節(jié)。
整個(gè)處理流程也可以精簡(jiǎn)概括為四步,分別是數(shù)據(jù)采集存儲(chǔ)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)分析,最后是數(shù)據(jù)挖掘。
在《長(zhǎng)安十二時(shí)辰》中,徐賓說(shuō):案牘上的數(shù)字,是百姓的生計(jì)、生涯,更是大唐的未來(lái)。
這案牘上的數(shù)字,其實(shí)指的就是大數(shù)據(jù)中很重要的數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量貫穿于整個(gè)大數(shù)據(jù)流程,每一個(gè)數(shù)據(jù)處理環(huán)節(jié)都會(huì)對(duì)大數(shù)據(jù)質(zhì)量產(chǎn)生影響作用。
這里針對(duì)上面提到的大數(shù)據(jù)處理流程,簡(jiǎn)單介紹下其中比較重要的幾個(gè)流程。
數(shù)據(jù)采集存儲(chǔ)
數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端的數(shù)據(jù),并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
數(shù)據(jù)預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。
數(shù)據(jù)統(tǒng)計(jì)分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數(shù)常見(jiàn)的分析需求。
數(shù)據(jù)挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。
大數(shù)據(jù)處理相關(guān)技術(shù)
大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的技術(shù)層面
文件存儲(chǔ):Hadoop HDFS、Tachyon、KFS
離線計(jì)算:Hadoop MapReduce、Spark
流式、實(shí)時(shí)計(jì)算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL數(shù)據(jù)庫(kù):HBase、Redis、MongoDB
資源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢(xún)分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協(xié)調(diào)服務(wù):Zookeeper
集群管理與監(jiān)控:Ambari、Ganglia、Nagios、Cloudera Manager
數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí):Mahout、Spark MLLib
數(shù)據(jù)同步:Sqoop任務(wù)調(diào)度:Oozie
以上這些工具,是和大數(shù)據(jù)有關(guān)的一些框架技術(shù),可以看到每一個(gè)類(lèi)型中都有多種技術(shù)可以實(shí)現(xiàn),所以在做技術(shù)選型的時(shí)候,需要根據(jù)自己的業(yè)務(wù)實(shí)際情況選擇最適合自己的框架。