數(shù)據(jù)太多、太亂、太雜?你需要這樣一套數(shù)據(jù)治理流程
數(shù)據(jù)作為機(jī)器學(xué)習(xí)的基礎(chǔ),從 GB、TB 到 PB 已經(jīng)增長(zhǎng)了無數(shù)倍,現(xiàn)在大一點(diǎn)的業(yè)務(wù)場(chǎng)景,沒有 TB 級(jí)數(shù)據(jù)都提供不了高效的體驗(yàn)。那么數(shù)據(jù)怎么治理才好,怎樣與模型、算力結(jié)合才算妙?在本文中,我們將看看什么是 HAO 數(shù)據(jù)治理模型,看看公安數(shù)據(jù)到底是如何規(guī)范處理的。
最近,明略科技與合肥工業(yè)大學(xué)的研究者在中文核心期刊《軟件學(xué)報(bào)》上發(fā)表了一篇關(guān)于數(shù)據(jù)治理的論文。它介紹了數(shù)據(jù)治理的概念,并對(duì)數(shù)據(jù)清洗、交換和集成等進(jìn)行具體分析,從而提出了一種新型大數(shù)據(jù)治理框架「HAO 治理」模型。
論文地址:http://www.jos.org.cn/1000-9825/5854.htm
數(shù)據(jù)治理真的很重要?
智能是基于數(shù)據(jù)的,而數(shù)據(jù)又是基于大量人工與工程努力的,所以人工智能還有相當(dāng)一部分「人工」。數(shù)據(jù)收集需要人工確定數(shù)據(jù)源,或者手動(dòng)寫爬蟲;數(shù)據(jù)處理則需要觀察數(shù)據(jù),并手動(dòng)寫整個(gè)清洗過程;數(shù)據(jù)標(biāo)注則要根據(jù)具體業(yè)務(wù),看看怎樣給數(shù)據(jù)打標(biāo)簽才好。
這些過程都會(huì)耗費(fèi)大量精力,有時(shí)候如果處理路徑不明確,甚至?xí)?dǎo)致重復(fù)或冗余的人力工作。因此事先確定一個(gè)具體的處理流程,明確數(shù)據(jù)該怎樣治理、算力該怎樣分配、模型又該如何部署,那么整個(gè)開發(fā)過程能減少很多人力成本與工程負(fù)擔(dān)。
作為論文一作,明略科技集團(tuán)首席科學(xué)家、明略科學(xué)院院長(zhǎng)吳信東教授表示:「數(shù)據(jù)治理的本質(zhì)是對(duì)一個(gè)機(jī)構(gòu)(企業(yè)或政府部門)的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評(píng)估、指導(dǎo)和監(jiān)督的過程,通過提供數(shù)據(jù)服務(wù)創(chuàng)造價(jià)值。數(shù)據(jù)治理可對(duì)數(shù)據(jù)戰(zhàn)略資產(chǎn)進(jìn)行管理,通過從收集匯聚到處理應(yīng)用的一套治理機(jī)制,提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)共享和價(jià)值最大化?!?/p>
既然那么重要,就需要一套框架,就像 DL 模型最開始都是手動(dòng)寫,但成為主流后就需要 TensforFlow 這樣的框架。吳信東等研究者詳細(xì)分析了數(shù)據(jù)治理中的各種模塊,并表示數(shù)據(jù)治理從來都不是一次性的程序,每個(gè)組織必須采取許多小的、可實(shí)現(xiàn)的、可衡量的步驟來實(shí)現(xiàn)長(zhǎng)期目標(biāo)。
因此,如果我們想降低數(shù)據(jù)治理的成本,最優(yōu)地調(diào)配數(shù)據(jù)、模型及算力,那么就需要一個(gè)成熟的框架。如下我們重點(diǎn)介紹「HAO 治理」模型的概念與過程,并從公安數(shù)據(jù)治理的角度看看該框架在實(shí)際應(yīng)用中是什么樣的。
什么是 HAO 治理模型
前面介紹過數(shù)據(jù)治理是從數(shù)據(jù)收集到應(yīng)用處理的管理機(jī)制,而框架則規(guī)定了有關(guān)數(shù)據(jù)的流程、原則或定義。比如說我們現(xiàn)在有一堆圖像數(shù)據(jù)集,那么從圖像源、圖像采集到圖像儲(chǔ)存,我們先要確定數(shù)據(jù)的接入方式是什么。
隨后,因?yàn)檫@些圖像不止用于一個(gè)任務(wù),所以需要確定標(biāo)準(zhǔn)化的形式,并做一些清洗與預(yù)處理;當(dāng)然,標(biāo)注還是根據(jù)任務(wù)來確定的。最后,這些圖像數(shù)據(jù)還應(yīng)該統(tǒng)一地提供給不同的模型與任務(wù),從而構(gòu)建不同的服務(wù),這一部分也是該統(tǒng)一管理的。
而明略科技設(shè)計(jì)的「HAO 治理」模型會(huì)從大數(shù)據(jù)開始,為「HI」(人類智能)、「AI」(人工智能)和「OI」(組織智能)三者協(xié)同的智能提供數(shù)據(jù)治理支持。下面舉個(gè) HAO 的例子:
其中 HAO 智能的輸入不僅有各種傳感器,還有人類的主觀感受。后面的霧計(jì)算會(huì)分析所有信息,并將機(jī)器運(yùn)算/推理結(jié)果與人的分析相匹配,形成概率化與規(guī)則化有機(jī)協(xié)調(diào)的優(yōu)化判斷。人類、機(jī)器和組織三者結(jié)合,它們的數(shù)據(jù)與判斷相互協(xié)助,這樣才能最大化地利用數(shù)據(jù)的能力。
整個(gè)人機(jī)協(xié)同系統(tǒng)是非常復(fù)雜的,那么這就要求有一套成熟的治理框架來規(guī)范數(shù)據(jù)與算力的分配。
這樣的系統(tǒng)應(yīng)該需要滿足很多要求,例如全面的數(shù)據(jù)接入機(jī)制、標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程、多元集成的數(shù)據(jù)組織模式和多種數(shù)據(jù)服務(wù)模式。其中數(shù)據(jù)服務(wù)模式可以向使用者提供查詢檢索和比對(duì)排序等基礎(chǔ)數(shù)據(jù)服務(wù),也可以面向?qū)I(yè)人員提供挖掘分析和專家建模等智能數(shù)據(jù)服務(wù)。
如下展示了 HAO 智能的藍(lán)圖設(shè)計(jì),它主要包括感知、認(rèn)知和行動(dòng)三部分。
總體而言,整個(gè)過程會(huì)從大數(shù)據(jù)環(huán)境開始,并根據(jù)大數(shù)據(jù)、人類專家系統(tǒng)、人工智能和組織智能生成對(duì)應(yīng)的知識(shí)圖譜,從而將大知識(shí)應(yīng)用到人機(jī)協(xié)同中。此外,「HAO 治理」是一種實(shí)用系統(tǒng),因此也就要求模塊化數(shù)據(jù)源和治理功能,它需要更快速與靈活地搭建新特性。
「HAO 治理」模型是什么樣的
「HAO 治理」模型主要包含三部分,即數(shù)據(jù)接入模塊、數(shù)據(jù)治理模塊和數(shù)據(jù)服務(wù)模塊。其中數(shù)據(jù)接入需要采集、匯聚等操作,從而構(gòu)建異質(zhì)的大數(shù)據(jù)。其次數(shù)據(jù)治理模塊主要對(duì)數(shù)據(jù)進(jìn)行一系列預(yù)處理過程,從而構(gòu)建更加容易建模的數(shù)據(jù)。最后的數(shù)據(jù)服務(wù)模塊則通過分析與加工,為外部提供各種新的能力。
1. 數(shù)據(jù)接入
一般而言,現(xiàn)實(shí)世界的數(shù)據(jù)主要分為結(jié)構(gòu)化或非結(jié)構(gòu)化,而這些圖像、文本等各種數(shù)據(jù)都應(yīng)該進(jìn)行統(tǒng)一的接入與管理。對(duì)于數(shù)據(jù)源之上的接入模塊,它主要完成不同類型的抽取匯聚任務(wù)配置,包括異構(gòu)數(shù)據(jù)庫(kù)之間數(shù)據(jù)傳輸匯聚,不同類型的文件數(shù)據(jù)和服務(wù)接口間相互傳輸。
2. 數(shù)據(jù)治理
接入后的數(shù)據(jù)都是比較雜亂的,它本身帶了一些冗余或缺失的信息。因此,數(shù)據(jù)治理模塊主要包括對(duì)匯聚庫(kù)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范,必要時(shí)進(jìn)行主題劃分和數(shù)據(jù)關(guān)聯(lián),然后進(jìn)行數(shù)據(jù)集成。治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中,并用于后續(xù)的建模。
其中我們比較熟悉的就是數(shù)據(jù)清洗,它會(huì)對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn),從而過濾不合規(guī)數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)、完成格式轉(zhuǎn)換。
3. 數(shù)據(jù)服務(wù)
數(shù)據(jù)治理的目標(biāo)是提供一個(gè)可直接使用且方便管理的數(shù)據(jù)庫(kù),它最終還是要為各種模型提供學(xué)習(xí)基礎(chǔ)。而模型,最終也是要提供各種智能服務(wù),因此這一部分也應(yīng)該得到規(guī)范的管理。
基于數(shù)據(jù)治理模塊,數(shù)據(jù)服務(wù)模塊最開始會(huì)根據(jù)數(shù)據(jù)共享中心構(gòu)建知識(shí)圖譜,它不僅向使用者提供模型管理、模型探索、數(shù)據(jù)探索等數(shù)據(jù)服務(wù),同時(shí)還向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù)。
其中核心的知識(shí)圖譜是由節(jié)點(diǎn)和邊組成的巨型知識(shí)網(wǎng)絡(luò),節(jié)點(diǎn)代表實(shí)體、邊代表實(shí)體之間的關(guān)系,每個(gè)實(shí)體 還通過鍵值對(duì)來描述實(shí)體的內(nèi)在特性。領(lǐng)域?qū)<覀兛梢愿鶕?jù)知識(shí)圖譜中的實(shí)體和關(guān)系等核心數(shù)據(jù)進(jìn)行建模,并進(jìn)行高層次的數(shù)據(jù)挖掘分析和加工。
統(tǒng)一數(shù)據(jù)接入、治理和服務(wù)模塊,就能構(gòu)造出「HAO 治理」模型,它規(guī)定了最一般的處理流程。吳信東教授說:「只有通過多維感知,利用數(shù)據(jù)治理技術(shù),將高質(zhì)量的數(shù)據(jù)連接起來,才能進(jìn)行知識(shí)的智能抽取,基于知識(shí)圖譜、暴力挖掘?qū)χR(shí)進(jìn)行多維度分析推理,構(gòu)建決策模型,完成從數(shù)字化、網(wǎng)絡(luò)化到智能化的躍遷?!?/p>
公安的數(shù)據(jù)治理應(yīng)該是什么樣的
上面介紹了「HAO 治理」模型的主要概念,那么它應(yīng)用到現(xiàn)實(shí)世界中又是怎么樣的,它能進(jìn)一步降低人工成本嗎?在論文的最后一部分,研究者以公安數(shù)據(jù)治理為例,介紹了整體流程與框架到底是什么樣的。
先來看張圖,如下圖 13 描述的是公安數(shù)據(jù)治理框架,平臺(tái)架構(gòu)主要包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用四部分。它將不同的數(shù)據(jù)按照應(yīng)用分到了不同的主題或?qū)n}庫(kù),例如常住人口專題庫(kù)或企業(yè)信息專題庫(kù)等等。與此同時(shí),不同的數(shù)據(jù)也能最終組成知識(shí)圖譜,相當(dāng)于構(gòu)建了一種龐大的背景知識(shí)。
看上去這張圖非常復(fù)雜,但其實(shí)也就分為儲(chǔ)存、計(jì)算、管理和應(yīng)用四部分。
- 數(shù)據(jù)存儲(chǔ):基于分布式的大數(shù)據(jù)存儲(chǔ)平臺(tái);
- 數(shù)據(jù)計(jì)算:這是數(shù)據(jù)治理的最主要部分,包括數(shù)據(jù)的探查、提取、清洗、轉(zhuǎn)換、集成等;
- 數(shù)據(jù)管理:對(duì)集成后的數(shù)據(jù)統(tǒng)一維護(hù)與管理;
- 數(shù)據(jù)應(yīng)用:這是數(shù)據(jù)價(jià)值最直接的體現(xiàn),我們可以通過自然語(yǔ)言處理等技術(shù),對(duì)數(shù)據(jù)進(jìn)行深度分析。
從上圖我們可以看到整個(gè)工作流大概從預(yù)處理到分析挖掘分為 7 個(gè)部分,其中不同的部分會(huì)調(diào)用不同的數(shù)據(jù)知識(shí)庫(kù),最后的分析挖掘則是我們希望獲得的結(jié)果。
在整個(gè)流程中,我們除了對(duì)數(shù)據(jù)進(jìn)行各種操作與處理外,還要?jiǎng)?chuàng)建新的知識(shí)表示方式。例如將數(shù)據(jù)按照一定主題進(jìn)行關(guān)聯(lián)來構(gòu)造一個(gè)模型,公安數(shù)據(jù)治理分別以人、物、時(shí)空、組織、虛擬標(biāo)識(shí)、 案件等作為主題來建立模型。
除此之外,知識(shí)圖譜按照目標(biāo)數(shù)據(jù)可以分為實(shí)體、事件、關(guān)系三種類型,從而建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。如下在公安場(chǎng)景中,我們能以人為中心實(shí)體構(gòu)建的一個(gè)簡(jiǎn)單的知識(shí)圖譜。其中我們需要建立人與電話號(hào)碼所屬關(guān)系、人與護(hù)照所屬關(guān)系及人與人的關(guān)系等等。
以上就是公安數(shù)據(jù)治理的簡(jiǎn)要結(jié)構(gòu)了,吳信東教授說:「明略科技提出這樣的數(shù)據(jù)治理框架,希望通過數(shù)據(jù)在線、分析洞察、閉環(huán)智能「三步走」戰(zhàn)略,構(gòu)建從感知到認(rèn)知再到行動(dòng)的反饋閉環(huán),將人類、機(jī)器、組織的智能三位一體,為企業(yè)和組織提供具有分析決策能力的高階人工智能應(yīng)用?!?nbsp;