自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從本體論開(kāi)始說(shuō)起——運(yùn)營(yíng)商關(guān)系圖譜的構(gòu)建及應(yīng)用

大數(shù)據(jù)
本期課堂,聯(lián)通大數(shù)據(jù)技術(shù)專家閆龍將從“本體論”說(shuō)起,為大家介紹聯(lián)通大數(shù)據(jù)關(guān)系圖譜的構(gòu)建與應(yīng)用。

人類學(xué)家羅賓·鄧巴認(rèn)為:一個(gè)人維持緊密人際關(guān)系的人數(shù)最多為150人。

網(wǎng)絡(luò)社交平臺(tái)出現(xiàn)后,很多人認(rèn)為虛擬世界將突破鄧巴這一理論,但實(shí)際情況卻是:如果要和更多人互動(dòng),那么勢(shì)必需要削弱在其它人身上花的精力。

但是,人際關(guān)系將隨著時(shí)間而產(chǎn)生親疏遠(yuǎn)近等不同的變化,如果能夠識(shí)別出人與人的關(guān)系定義,則能為諸多行業(yè)領(lǐng)域帶來(lái)更多方向的探索,如:詐騙團(tuán)伙識(shí)別,通過(guò)詐騙分子的通話關(guān)系網(wǎng)去識(shí)別可能存在的團(tuán)伙關(guān)系,將壞人一網(wǎng)打盡。

本期課堂,聯(lián)通大數(shù)據(jù)技術(shù)專家閆龍將從“本體論”說(shuō)起,為大家介紹聯(lián)通大數(shù)據(jù)關(guān)系圖譜的構(gòu)建與應(yīng)用。

[[265190]]

一、本體論

萬(wàn)維網(wǎng)之父Tim Berners-Lee教授在1998年將語(yǔ)義網(wǎng)絡(luò)(Semantic web)帶入人類的視線。目的是賦予網(wǎng)絡(luò)理解詞語(yǔ)、概念以及它們之間邏輯關(guān)系的能力,使人機(jī)交互變得更有效率。本體論(Ontology)做為語(yǔ)義網(wǎng)的核心,是研究實(shí)體存在及其本質(zhì)的通用理論。1993年Thomas Gruber教授提出了本體論最廣為認(rèn)同的定義:共享概念模型的明確的形式化規(guī)范說(shuō)明。這里面實(shí)際說(shuō)了四個(gè)概念,即:“概念模型”(Conceptualization)指通過(guò)客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型;“明確”(Explicit)指所使用的概念及其約束都有明確的定義;“形式化”(Formal)指Ontology是計(jì)算機(jī)可讀的;“共享(Share)”指本體論中體現(xiàn)的是共同認(rèn)可的知識(shí),反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集。

本體論最初是形而上學(xué)的一個(gè)分支。對(duì)于形而上學(xué)的理解這里給出一個(gè)例子(如:圖1)

(圖1)

圖中中文的“貓”與“貓咪”,英文的“cat”,“貓的圖片”都可以用來(lái)描述“貓”這個(gè)實(shí)物。那么在哲學(xué)層面,“貓”這樣一個(gè)實(shí)物就是亞里士多德口中的“實(shí)體”,巴門尼德口中的“存在”,以及本體論中所說(shuō)的“本體”。而上圖這些描述均指的是“貓”這個(gè)“本體”的符號(hào)。

從這里,我們能看出“本體”這個(gè)概念在哲學(xué)層面上是形而上的,是只可意會(huì)不可言傳的。因此,對(duì)于一個(gè)實(shí)體,所有的描述都是這個(gè)“本體”的外在符號(hào),我們感受到的,聽(tīng)到的,看到的,都成為符號(hào)到本體的某種映射。

解釋完本體哲學(xué)層面的意思,我們是否對(duì)語(yǔ)義層面的本體有更好的理解呢?其實(shí),其主要目的就是要建立這樣一種映射,例如:{“貓”,“貓咪”,“喵咪”,“cat”}這個(gè)符號(hào)集都映射到“貓”這個(gè)“本體”上來(lái)。當(dāng)我們建立了本體的集合,本體間的邏輯關(guān)系就是存在的(如:IF A⊆B and B⊆C,THEN A⊆C)。本體的邏輯層提供了公理和推理規(guī)則,進(jìn)而實(shí)現(xiàn)相應(yīng)的邏輯推理,有可能是“屬性-本體”的關(guān)系,有可能是“子類-本體”的關(guān)系,也有可能是“本體-本體”的對(duì)立或者是近似關(guān)系。本體論最終的目的是去實(shí)現(xiàn)知識(shí)表達(dá),構(gòu)建知識(shí)庫(kù),實(shí)現(xiàn)知識(shí)推理,即借由本體論中的基本元素:實(shí)體與實(shí)體間的關(guān)聯(lián),作為描述真實(shí)世界的知識(shí)模型。

二、知識(shí)圖譜

這種知識(shí)模型究竟有什么用呢?Google在2012年提出Knowledge Graph,就是為了將傳統(tǒng)的keyword-based搜索向基于語(yǔ)義的搜索升級(jí)。知識(shí)圖譜可以用來(lái)更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語(yǔ)義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。這里借用本體的概念給出我個(gè)人對(duì)知識(shí)圖譜的理解:知識(shí)圖譜就是用來(lái)描述真實(shí)世界中存在的各種實(shí)體,以及他們之間的關(guān)系,而實(shí)體本身會(huì)有多樣實(shí)例,屬性。就像之前“貓的例子”(如下圖2),當(dāng)我們查詢“喵喵喵喵喵”時(shí),返回的不會(huì)是抖音上很紅的《學(xué)貓叫》,而是“貓”這個(gè)實(shí)體。同時(shí),在其他知識(shí)的補(bǔ)充下我們可以知道“貓”有一個(gè)實(shí)例是“茄子”,而“茄子”的主人是我,我和小胡都就職于聯(lián)通大數(shù)據(jù),并且通話關(guān)系很密切。當(dāng)我們知識(shí)庫(kù)中的實(shí)體、關(guān)系、屬性、實(shí)例等的量級(jí)非常大時(shí)就能繪制成一個(gè)巨型的網(wǎng)絡(luò)關(guān)系拓?fù)鋱D。有了這樣的知識(shí)庫(kù),搜索引擎就能洞察用戶查詢背后的語(yǔ)義信息,返回更為精準(zhǔn)的信息。換言之,知識(shí)圖譜引入了更多的含義,對(duì)事物進(jìn)行搜索,像人類一樣去思考、聯(lián)想、關(guān)聯(lián)。這也印證了Google knowledge graph的初衷:“The world is not made of strings , but is made of things.”

(圖2)

另外,如果我們把各種語(yǔ)言的“貓”都映射到“貓”這個(gè)本體上,再基于與名詞主體、動(dòng)詞主體構(gòu)建的邏輯關(guān)系或動(dòng)賓短語(yǔ)等,通過(guò)反映射就可以實(shí)現(xiàn)簡(jiǎn)易的機(jī)器翻譯。

三、圖數(shù)據(jù)庫(kù)

2018年9月,我們有一篇題為《專家課堂|NoSQL還是SQL》的公眾號(hào)提到圖數(shù)據(jù)庫(kù),文中給出了NoSQL or SQL, Why NoSQL之類的話題。其中的基于場(chǎng)景選擇也有相應(yīng)的介紹,這里就不做贅述了。從上一節(jié)的圖中,我們可以清晰地看出,通話記錄就能以實(shí)體及關(guān)系的方式存儲(chǔ)。這是運(yùn)營(yíng)商數(shù)據(jù)的固有優(yōu)勢(shì),在我們的場(chǎng)景里不用花太多時(shí)間去做基于nlp技術(shù)的實(shí)體抽取、關(guān)系抽取。我們關(guān)注的重點(diǎn)則是通話關(guān)系網(wǎng)絡(luò)中,如何保證海量的動(dòng)態(tài)更新的通話節(jié)點(diǎn)及關(guān)系載入圖中、哪些人有哪些通話行為特征、這些圖中挖掘出的特征如何貢獻(xiàn)在現(xiàn)有的場(chǎng)景模型中等等。比如在風(fēng)控領(lǐng)域,我們正在應(yīng)用圖發(fā)現(xiàn)相關(guān)方法探索樣本號(hào)碼或ID是否在一個(gè)詐騙社區(qū),是否有穩(wěn)定的通話社交圈,與黑產(chǎn)號(hào)碼存在幾度的關(guān)聯(lián),關(guān)聯(lián)系數(shù)是怎樣的,是否有多個(gè)電話組內(nèi)關(guān)聯(lián)等。這些都將是風(fēng)控、反欺詐類模型的新特征。

測(cè)試數(shù)據(jù)集選用三個(gè)月全網(wǎng)用戶的通話記錄,節(jié)點(diǎn)屬性包括是否聯(lián)通號(hào)、手機(jī)號(hào)碼對(duì)應(yīng)職住經(jīng)緯度等;邊屬性包括號(hào)碼間三個(gè)月的主被叫通話次數(shù)、主被叫次數(shù),天數(shù),時(shí)長(zhǎng)等。數(shù)據(jù)集大小約為750G,載入圖數(shù)據(jù)庫(kù)結(jié)果如圖3。

(圖3)

載入后根據(jù)每臺(tái)機(jī)器VertexCount和EdgeCount可以看到圖數(shù)據(jù)庫(kù)共加載了約17億節(jié)點(diǎn)(號(hào)碼),340億邊(通話關(guān)系)。其中NumOfSkippedVertices表達(dá)了一個(gè)去重的過(guò)程,即:每個(gè)節(jié)點(diǎn)只加載一遍。因此,partition size的總和只有590G左右,實(shí)際上是對(duì)數(shù)據(jù)進(jìn)行了壓縮。

做一個(gè)簡(jiǎn)單的號(hào)碼關(guān)系查詢(如圖4),在百億級(jí)邊的圖數(shù)據(jù)庫(kù)里可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)。值得注意的有兩點(diǎn):1. 查詢返回為json格式;2. 查詢語(yǔ)言為類sql語(yǔ)言。

(圖4)

我們可以將查詢語(yǔ)言以文件形式存儲(chǔ),通過(guò)install/run query進(jìn)行查詢。同時(shí),在后臺(tái)install一個(gè)查詢還會(huì)生成一個(gè)REST端點(diǎn),這樣就可以通過(guò)http來(lái)調(diào)用參數(shù)化查詢。如圖5,通過(guò)查詢語(yǔ)言進(jìn)行圖遍歷,尋找兩個(gè)號(hào)碼間的最短距離。這樣就能實(shí)現(xiàn)我們熟悉的六度空間理論(小世界理論),即:世界上任何兩個(gè)人最多只需通過(guò)6個(gè)關(guān)系就能找到對(duì)方。

(圖5)

如果我們定義號(hào)碼與號(hào)碼間的通話頻次為關(guān)系權(quán)重,每個(gè)人的通話人數(shù)為通話活躍度。試想,一個(gè)人和你沒(méi)有通話記錄,但是和你的好朋友通話比較頻繁,你是不是也有可能認(rèn)識(shí)這個(gè)人呢?這個(gè)查詢就是從圖中挖掘你可能認(rèn)識(shí)的人。查詢輸入是待查號(hào)碼與最可能認(rèn)識(shí)的k個(gè)手機(jī)號(hào),返回是查詢號(hào)碼和輸入號(hào)碼的距離(如圖6)。

(圖6)

***,給出一個(gè)真實(shí)的場(chǎng)景案例,是否能夠通過(guò)企業(yè)少數(shù)員工號(hào)碼、imei或其他ID,尋找企業(yè)員工群體,并對(duì)該群體進(jìn)行分析,來(lái)反應(yīng)企業(yè)實(shí)際經(jīng)營(yíng)地址、活躍度等情況呢?這里給出【2步鄰居子圖】的概念(以手機(jī)號(hào)做節(jié)點(diǎn)為例),即:輸入號(hào)碼聯(lián)系人及聯(lián)系人的聯(lián)系人(如圖7,這里使用可視化交互界面展示通話關(guān)系)。

(圖7)

在模型搭建過(guò)程中,我們對(duì)通話時(shí)間段、時(shí)長(zhǎng)、頻次進(jìn)行分析,評(píng)估可能存在的同事關(guān)系,并基于現(xiàn)有職住模型以及柵格技術(shù)挖掘企業(yè)真實(shí)經(jīng)營(yíng)地址。以我自己手機(jī)號(hào)為例(如圖8),可以看到返回企業(yè)員工主要聚集的工作地(數(shù)字表示工作地在相應(yīng)柵格內(nèi)的人數(shù)),即:聯(lián)通大數(shù)據(jù)公司兩個(gè)辦公區(qū)(職住數(shù)據(jù)取自2018年12月)、聯(lián)通集團(tuán)。

(圖8)

基于對(duì)人群行為的洞察,該模型能夠幫助工商部門動(dòng)態(tài)的、客觀的對(duì)企業(yè)真實(shí)位置、企業(yè)活躍情況進(jìn)行評(píng)估與判斷,為相關(guān)監(jiān)察監(jiān)管提供數(shù)據(jù)支撐。

值得一提的是,基于聯(lián)通大數(shù)據(jù)關(guān)系圖譜,在十億級(jí)節(jié)點(diǎn)、百億級(jí)邊的大型網(wǎng)絡(luò)結(jié)構(gòu)中,查詢6步鄰居子圖也只需要不到1秒(如圖9)??梢暬换ソ缑嫒鐖D10(中間白色點(diǎn)為我的手機(jī)號(hào))。

(圖9)

(圖10)

為了更細(xì)節(jié)的洞察網(wǎng)絡(luò)中的關(guān)系,將展示閾值縮小(如圖11)。經(jīng)查驗(yàn),中間環(huán)形結(jié)構(gòu)上的每個(gè)點(diǎn)相互間都是同事關(guān)系。社交網(wǎng)絡(luò)中環(huán)形結(jié)構(gòu)上的點(diǎn)往往存在某種隱含關(guān)聯(lián),同事關(guān)系、親疏關(guān)系、團(tuán)伙關(guān)系、資金流向等等?;诓煌瑯颖?、不同場(chǎng)景的應(yīng)用,相較于傳統(tǒng)數(shù)據(jù)庫(kù)類型,圖數(shù)據(jù)庫(kù)可以***程度挖掘樣本間的關(guān)聯(lián)關(guān)系。

(圖11)

另外,大量經(jīng)典的圖挖掘算法,如:社區(qū)發(fā)現(xiàn),Pagerank,LPA等也已ready,為傳統(tǒng)機(jī)器學(xué)習(xí)模型入模特征增加更多的圖特征。

總之,本體、知識(shí)圖譜、圖數(shù)據(jù)庫(kù)都是用節(jié)點(diǎn)和關(guān)系為真實(shí)世界的各個(gè)場(chǎng)景直觀地建模,運(yùn)用“圖”這種基礎(chǔ)性、通用性的“語(yǔ)言”,“高保真”地表達(dá)這個(gè)多姿多彩世界的各種關(guān)系,并且非常直觀、自然、直接和高效。聯(lián)通數(shù)據(jù)擁有得天獨(dú)厚的“節(jié)點(diǎn)”、“關(guān)系”優(yōu)勢(shì),我們正堅(jiān)定不移的走在圖發(fā)現(xiàn)的道路上!

【本文是51CTO專欄機(jī)構(gòu)中國(guó)聯(lián)通大數(shù)據(jù)的原創(chuàng)文章,微信公眾號(hào)“中國(guó)聯(lián)通大數(shù)據(jù)( id: unibigdata)”】 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2019-03-01 17:04:14

運(yùn)營(yíng)商關(guān)系圖譜

2018-03-02 16:27:33

IOT語(yǔ)義互操作性本體論

2011-08-30 09:29:45

云計(jì)算移動(dòng)醫(yī)療

2021-04-07 11:02:42

運(yùn)營(yíng)商公有云通信行業(yè)

2016-09-22 13:53:17

IBM

2017-07-03 09:32:57

運(yùn)營(yíng)商NaaS獲益

2010-03-26 10:18:27

云計(jì)算

2017-07-11 04:56:01

NaaS網(wǎng)絡(luò)基礎(chǔ)設(shè)施網(wǎng)絡(luò)服務(wù)

2018-10-08 13:41:01

運(yùn)營(yíng)商通信網(wǎng)絡(luò)攜號(hào)轉(zhuǎn)網(wǎng)

2012-05-24 10:46:18

大數(shù)據(jù)升級(jí)硬件運(yùn)營(yíng)商

2010-08-16 13:26:26

云計(jì)算運(yùn)營(yíng)商

2013-12-25 09:10:16

WiFi預(yù)測(cè)企業(yè)

2019-04-02 14:43:16

運(yùn)營(yíng)商大數(shù)據(jù)云計(jì)算

2012-12-25 10:37:09

2018-07-03 14:32:00

2013-11-28 16:46:46

虛擬運(yùn)營(yíng)商

2011-08-04 10:12:00

2012-04-05 13:42:02

2017-06-29 14:29:46

互聯(lián)網(wǎng)

2011-09-29 15:32:30

智能化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)