自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

反映數(shù)據(jù)質(zhì)量的八個指標

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)的質(zhì)量可以從八個指標進行衡量,每個指標都從一個側(cè)面反映了數(shù)據(jù)的品相。這八個指標分別是:準確性、及時性、即時性、真實性、精確性、完整性、全面性和關(guān)聯(lián)性。

數(shù)據(jù)的質(zhì)量直接影響著數(shù)據(jù)的價值,并且還影響著數(shù)據(jù)分析的結(jié)果以及我們依此做出的決策的質(zhì)量。質(zhì)量不高的數(shù)據(jù)不僅僅是數(shù)據(jù)本身的問題,還會影響企業(yè)的經(jīng)營管理決策;數(shù)據(jù)錯誤還不如沒有數(shù)據(jù),因為沒有數(shù)據(jù)時,我們會基于經(jīng)驗和常識做出不見得是錯誤的決策,而錯誤的數(shù)據(jù)會引導我們做出錯誤的決策。因此數(shù)據(jù)質(zhì)量是治理企業(yè)經(jīng)營管理數(shù)據(jù)的關(guān)鍵所在。

數(shù)據(jù)的質(zhì)量可以從八個指標進行衡量,每個指標都從一個側(cè)面反映了數(shù)據(jù)的品相。這八個指標分別是:準確性、及時性、即時性、真實性、精確性、完整性、全面性和關(guān)聯(lián)性。

我們在比較兩個數(shù)據(jù)集的品相的時候,往往采用如下圖所示的這種圖形表示。

例如常規(guī)來講,內(nèi)部數(shù)據(jù)集的準確性、真實性、完整性高,而全面性、及時性、即時性、精確性和關(guān)聯(lián)性方面取決于企業(yè)內(nèi)部對數(shù)據(jù)的重視程度以及采集數(shù)據(jù)的技術(shù)手段;而外部數(shù)據(jù)集,如微博數(shù)據(jù)、互聯(lián)網(wǎng)媒體數(shù)據(jù)等,其全面性、及時性和即時性都可以通過技術(shù)手段如網(wǎng)絡(luò)爬蟲等得到提高,但在準確性、真實性、精確性上難以保證,也難以控制,而關(guān)聯(lián)性取決于數(shù)據(jù)采集和挖掘的相關(guān)技術(shù)。

我們也可以用這個模型來衡量公司內(nèi)部各個職能部門數(shù)據(jù)的品相。如下圖所示,通過評價數(shù)據(jù)質(zhì)量的8個指標,可以有針對性地采取相應的措施提高企業(yè)的數(shù)據(jù)質(zhì)量。

1. 數(shù)據(jù)的準確性

數(shù)據(jù)的準確性(Accuracy)是指數(shù)據(jù)的采集值或者觀測值與真實值之間的接近程度,也叫誤差值,誤差值越大,數(shù)據(jù)的準確度越低。數(shù)據(jù)的準確性由數(shù)據(jù)的采集方法決定的。

2. 數(shù)據(jù)的精確性

數(shù)據(jù)的精確性(Precision)是指對同一對象在重復測量時所得到的不同觀測數(shù)據(jù)之間的接近程度。精確性,也叫精準性。精確性與數(shù)據(jù)采集的精度有關(guān)系。精度越高,要求數(shù)據(jù)采集的粒度越細,誤差的容忍程度也越低。

例如在測量人的身高時,可以精確到厘米,多次測量的誤差只會在厘米級別;在測量北京到上海的距離時,可以精確到千米,多次測量結(jié)果之間的誤差會在千米級別;用游標卡尺測量一個零件的厚度時,可以精確到1/50毫米,多次測量結(jié)果之間的誤差也只會在1/50毫米級別。因此可以說采用的測量方法和手段直接影響著數(shù)據(jù)的精確性。

3. 數(shù)據(jù)的真實性

數(shù)據(jù)的真實性,也叫數(shù)據(jù)的正確性(Rightness)。數(shù)據(jù)的正確性取決于數(shù)據(jù)采集過程的可控程度。數(shù)據(jù)采集過程可控程度高,可追溯情況好,數(shù)據(jù)的真實性就容易得到保障,而可控程度低或者無法追溯,則數(shù)據(jù)的真實性難以保證。

為了提高數(shù)據(jù)的真實性,采用無人進行過程干涉的智能終端直接采集數(shù)據(jù),能夠更好地保證所采集的數(shù)據(jù)的真實性,減少人為干預,減少數(shù)據(jù)造假,從而讓數(shù)據(jù)更加正確地反映客觀事物。

4. 數(shù)據(jù)的及時性

數(shù)據(jù)的及時性(In-time)是指數(shù)據(jù)能否在需要的時候得到保證。例如公司在月初會對上個月的經(jīng)營和管理數(shù)據(jù)進行統(tǒng)計和匯總,此時的數(shù)據(jù)及時性是指這些數(shù)據(jù)能否及時處理完成,財務(wù)能否在月度關(guān)賬后及時核算。數(shù)據(jù)的及時性是數(shù)據(jù)分析和挖掘及時性的保障。如果公司的財務(wù)核算復雜,核算速度緩慢,上個月的數(shù)據(jù)在月中才能統(tǒng)計匯總完成,等需要調(diào)整財務(wù)策略的時候,已經(jīng)到月底了,一個月已經(jīng)快過完了,特別是當公司做大了之后,業(yè)務(wù)覆蓋多個市場、多個國家,數(shù)據(jù)不能及時匯總,則會影響到高層決策的及時程度。

數(shù)據(jù)的及時性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關(guān)系,為了提高數(shù)據(jù)的及時性,越來越多的公司采用管理信息系統(tǒng),并在管理信息系統(tǒng)中附加各種自動數(shù)據(jù)處理功能,在數(shù)據(jù)上傳到系統(tǒng)中之后自動完成絕大部分報表,從而提高了數(shù)據(jù)處理的效率。計算機自動處理中間層數(shù)據(jù)是提高企業(yè)數(shù)據(jù)處理效率的有效手段。

企業(yè)除要保證數(shù)據(jù)采集的及時性和數(shù)據(jù)處理的效率外,還需要從制度和流程上保證數(shù)據(jù)傳輸?shù)募皶r性。數(shù)據(jù)報表制作完成后,要及時或者在要求的時間范圍內(nèi)發(fā)送到指定的部門,或者上傳到指定的存儲空間中。

5. 數(shù)據(jù)的即時性

數(shù)據(jù)的即時性是指數(shù)據(jù)采集時間節(jié)點和數(shù)據(jù)傳輸?shù)臅r間節(jié)點,一個數(shù)據(jù)在數(shù)據(jù)源頭采集后立即存儲并立即加工呈現(xiàn),就是即時數(shù)據(jù),而經(jīng)過一段時間之后再傳輸?shù)叫畔⑾到y(tǒng)中,則數(shù)據(jù)的即時性就稍差。

例如一個生產(chǎn)設(shè)備的儀表即時反映著設(shè)備的溫度、電壓、電流、氣壓等數(shù)據(jù),這些數(shù)據(jù)生成數(shù)據(jù)流,隨時監(jiān)控設(shè)備的運行狀況,這個數(shù)據(jù)可以看作是即時數(shù)據(jù)。而當將設(shè)備的即時運行數(shù)據(jù)存儲下來,用來分析設(shè)備的運行狀況與設(shè)備壽命的關(guān)系時,這些數(shù)據(jù)就成了歷史數(shù)據(jù)。

6. 數(shù)據(jù)的完整性

數(shù)據(jù)的完整性是指數(shù)據(jù)采集的程度,即應采集的數(shù)據(jù)和實際采集到的數(shù)據(jù)之間的比例。例如在采集員工信息數(shù)據(jù)時,要求填寫姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學歷、最高學歷專業(yè)、最高學歷畢業(yè)院校、最高學歷畢業(yè)時間共12項信息,而某個員工僅僅填寫了部分信息,如只填寫了其中的5項,則該員工所填寫數(shù)據(jù)的完整性只有一半。

一家企業(yè)中的數(shù)據(jù)的完整性體現(xiàn)著這家企業(yè)對數(shù)據(jù)的重視程度。要求采集的數(shù)據(jù)而實際上并未完整采集,這就是不完整的數(shù)據(jù),這往往是企業(yè)對數(shù)據(jù)采集質(zhì)量要求不到位導致的。

另外,對于動態(tài)數(shù)據(jù),可以從時間軸去衡量數(shù)據(jù)的完整性。比如,企業(yè)要求每小時采集一次數(shù)據(jù),每天應該形成24個數(shù)據(jù)點,記錄為24條數(shù)據(jù),但是如果只記錄了20次,那么這個數(shù)據(jù)也是不完整的。

7. 數(shù)據(jù)的全面性

數(shù)據(jù)的全面性和完整性不同,完整性衡量的是應采集的數(shù)據(jù)和實際采集到的數(shù)據(jù)的差異。而數(shù)據(jù)全面性指的是數(shù)據(jù)采集點的遺漏情況。例如,我們要采集員工行為數(shù)據(jù),而只采集了員工上班打卡和下班打卡的數(shù)據(jù),上班時間員工的行為數(shù)據(jù)并未采集,或者沒有找到合適的方法來采集,那么這個數(shù)據(jù)集就是不全面的。

再例如,我們記錄一個客戶的交易數(shù)據(jù),如果只采集了客戶訂單中的產(chǎn)品、訂單中產(chǎn)品的價格和數(shù)量,而沒有采集客戶的收貨地址、采購時間,則這個數(shù)據(jù)采集就是不全面的。

騰訊QQ和微信的用戶數(shù)據(jù)記錄了客戶的交流溝通數(shù)據(jù);阿里巴巴和京東的用戶數(shù)據(jù)記錄了用戶的購買交易數(shù)據(jù);百度地圖記錄了用戶的出行數(shù)據(jù);大眾點評和美團記錄了客戶的餐飲娛樂數(shù)據(jù)。對全面描述一個人的生活來說,這些公司的數(shù)據(jù)都是不全面的,而如果把他們的數(shù)據(jù)整合起來,則會形成更加全面的數(shù)據(jù)。所以說,數(shù)據(jù)的全面性是一個相對的概念。過度追求數(shù)據(jù)的全面性是不現(xiàn)實的。

8. 數(shù)據(jù)的關(guān)聯(lián)性

數(shù)據(jù)的關(guān)聯(lián)性是指各個數(shù)據(jù)集之間的關(guān)聯(lián)關(guān)系。例如員工工資數(shù)據(jù)和員工績效 考核數(shù)據(jù)是通過員工關(guān)聯(lián)在一起來的,而且績效數(shù)據(jù)直接關(guān)系到工資的多少。采購訂單數(shù)據(jù)與生產(chǎn)訂單數(shù)據(jù)之間通過物料的追溯機制進行關(guān)聯(lián),而生產(chǎn)訂單又是由員工完成的,即通過員工作業(yè)數(shù)據(jù)與員工信息數(shù)據(jù)關(guān)聯(lián)起來。

企業(yè)大數(shù)據(jù)中,每個數(shù)據(jù)集都是相互關(guān)聯(lián)的,有的是直接關(guān)聯(lián)的,如員工工資數(shù)據(jù)和員工績效數(shù)據(jù),有的是間接關(guān)聯(lián)的,如物料采購訂單數(shù)據(jù)與員工工資數(shù)據(jù)。這些數(shù)據(jù)的關(guān)聯(lián)關(guān)系是由公司的資源,包括人、財、物和信息等連接起來的。如果有任何的數(shù)據(jù)集不能連接到其他的數(shù)據(jù)集,就會存在數(shù)據(jù)割裂或者數(shù)據(jù)孤島。數(shù)據(jù)割裂和數(shù)據(jù)孤島是企業(yè)數(shù)據(jù)關(guān)聯(lián)性不足導致的。而數(shù)據(jù)的關(guān)聯(lián)性直接影響到企業(yè)數(shù)據(jù)集的價值。

責任編輯:趙寧寧 來源: ITPUB
相關(guān)推薦

2022-02-11 09:00:00

技術(shù)債務(wù)數(shù)據(jù)工具

2021-10-14 10:54:30

云計算

2022-02-10 10:23:48

軟件開發(fā)商技術(shù)債務(wù)記錄數(shù)據(jù)

2021-06-29 10:03:45

數(shù)據(jù)科學機器學習算法

2013-11-01 11:06:33

數(shù)據(jù)

2022-12-01 16:53:27

NPM技巧

2017-04-20 12:51:28

2017-01-05 09:59:45

2012-10-29 11:01:17

2024-01-25 11:28:18

CIO數(shù)據(jù)戰(zhàn)略IT領(lǐng)導者

2024-01-26 06:33:06

數(shù)據(jù)策略決策

2013-03-29 09:39:04

2015-12-28 10:12:58

數(shù)據(jù)中心新興趨勢

2021-09-27 15:04:08

數(shù)字化轉(zhuǎn)型CIOIT

2025-04-27 08:35:00

Python數(shù)據(jù)分析編程

2018-03-13 13:00:19

虛擬化數(shù)據(jù)中心云計算

2015-06-26 10:21:15

數(shù)據(jù)中心數(shù)據(jù)中心設(shè)計

2023-09-12 14:03:44

2015-09-02 13:15:31

Python

2022-08-26 14:41:47

Python數(shù)據(jù)科學開源
點贊
收藏

51CTO技術(shù)棧公眾號