人人都在談的圖數(shù)據(jù)庫到底是個啥?
近些年來,在大數(shù)據(jù)處理過程中有一種被廣泛提及和使用的數(shù)據(jù)庫,那就是圖數(shù)據(jù)庫。那么圖數(shù)據(jù)庫究竟是什么呢?
圖數(shù)據(jù)庫,如果是剛接觸的人,可能會被其字面意思所誤導。其實,圖數(shù)據(jù)庫并不是指存儲圖片、圖像的數(shù)據(jù)庫,而是指存儲圖這種數(shù)據(jù)結構的數(shù)據(jù)庫。那么圖又是什么呢?
什么是圖
我們通過下面的例子來認識一下。
東漢末年,孫權、劉備聯(lián)軍曾在赤壁一帶以火攻敵船之計大破曹軍。
如果我們把各陣營之間的關系抽象一下,以陣營作為點,陣營之間的關系作為邊,這樣我們就可以用如下的圖來形象地表示上述關系:
以上就是這里所謂的圖(的可視化展示)。
我們把這種存儲實體和實體之間關系的數(shù)據(jù)結構,稱為圖,Graph,圖由點和邊組成,一個點就是一個實體,比如上述實例中的陣營,兩個實體之間的關系則用有方向或無方向的邊來表示,比如劉備和孫權之間的聯(lián)盟關系等。這種通用的結構可以對現(xiàn)實中的各種場景進行建模,從交通運輸系統(tǒng)到組織架構管理,從工藝流程設計到社交網(wǎng)絡。
什么是圖數(shù)據(jù)庫
知道了圖的概念,你就可以理解什么是圖數(shù)據(jù)庫了。簡單來說,圖數(shù)據(jù)庫就是用來處理圖這種數(shù)據(jù)結構的工具。
不同于傳統(tǒng)的使用二維表格存儲數(shù)據(jù)的關系型數(shù)據(jù)庫,圖數(shù)據(jù)庫在傳統(tǒng)意義上被歸類為NoSQL(Not Only SQL)數(shù)據(jù)庫的一種,也就是說圖數(shù)據(jù)庫屬于非關系型數(shù)據(jù)庫。
一般的圖數(shù)據(jù)庫至少包含圖存儲、圖查詢、圖分析這三種功能。
為什么要用圖數(shù)據(jù)庫
那我們?yōu)槭裁匆脠D數(shù)據(jù)庫呢?我們還是用東漢末年的例子來講解一下圖數(shù)據(jù)庫相對于關系型數(shù)據(jù)庫的優(yōu)勢。
假設某關系型數(shù)據(jù)庫中有三張表,分別是東漢末年人物表、東漢末年戰(zhàn)役表和東漢末年人物參戰(zhàn)表。
當我們想知道“樊城之戰(zhàn)的守方是誰”,查詢一般會比較快,從表2可以直接得到,但當我們想知道“劉備集團發(fā)動了哪些戰(zhàn)爭”的時候,盡管我們也可以從表2查到答案,但是我們可能需要遍歷整個表2,查詢效率會瞬間降低。而當我們要查詢諸如“關羽出戰(zhàn)過劉備集團發(fā)動的哪些戰(zhàn)爭”的時候,我們來看一下執(zhí)行這條查詢時關系型數(shù)據(jù)庫是怎么做的:
A. 首先通過東漢末年人物表找到關羽對應的人物ID
B. 再使用東漢末年人物參戰(zhàn)表找到其參戰(zhàn)的戰(zhàn)役
C. 最后通過東漢末年戰(zhàn)役表找到其參戰(zhàn)的哪些戰(zhàn)役的攻方是劉備集團
我們會發(fā)現(xiàn),這個查詢實在是太繁瑣了。
而如果我們將以上表格轉化為如下的一張關系圖譜,那么誰和誰是什么關系就一目了然了。
這么說也許你還沒有真正領略到圖數(shù)據(jù)庫的巨大威力,我們再來看一個最經(jīng)典的社交網(wǎng)絡中查詢性能對比的數(shù)據(jù)。
在《Neo4j in Action》這本書中,作者做了一個測試:在一個包含100萬人,每個人約有50個朋友的社交網(wǎng)絡中找最大深度為5的朋友的朋友,得到的實驗結果如下:
測試結果表明,深度為2時兩種數(shù)據(jù)庫的性能差別不大,都很迅速;當深度為3時,關系型數(shù)據(jù)庫需要半分鐘完成查詢,圖數(shù)據(jù)庫依舊在1秒內(nèi)搞定;當深度為4時,關系型數(shù)據(jù)庫耗費了接近半小時返回結果,圖數(shù)據(jù)庫不到2秒;而當深度達到5以后,關系型數(shù)據(jù)庫就遲遲無法響應了,圖數(shù)據(jù)庫卻依舊可以「秒殺」,表現(xiàn)出了非常良好的性能。
據(jù)此,我們可以從以下幾個方面理解為什么要用圖數(shù)據(jù)庫:
- 關系型數(shù)據(jù)庫不擅長處理數(shù)據(jù)之間的關系,而圖數(shù)據(jù)庫在處理數(shù)據(jù)之間關系方面靈活且高性能
我們不可否認關系型數(shù)據(jù)庫自上世紀80年代以來一直都是數(shù)據(jù)庫領域發(fā)展的主力,當前,隨著社交、物聯(lián)網(wǎng)、金融、電商等領域的快速發(fā)展,由此產(chǎn)生的數(shù)據(jù)呈現(xiàn)指數(shù)級的增長,而傳統(tǒng)的關系型數(shù)據(jù)庫在處理復雜關系的數(shù)據(jù)上表現(xiàn)很差,這是因為關系型數(shù)據(jù)庫是通過外鍵的約束來實現(xiàn)多表之間的關系引用的。查詢實體之間的關系需要JOIN操作,而JOIN操作通常非常耗時。
而圖數(shù)據(jù)庫的原始設計動機就是更好地描述實體之間的關系。圖數(shù)據(jù)庫與關系型數(shù)據(jù)庫最大的不同就是免索引鄰接。圖數(shù)據(jù)模型中的每個節(jié)點都會維護與它相鄰的節(jié)點關系,這就意味著查詢時間與圖的整體規(guī)模無關,只與每個節(jié)點的鄰點數(shù)量有關,這使得圖數(shù)據(jù)庫在處理大量復雜關系時也能保持良好的性能。
另外,圖的結構決定了其易于擴展的特性。我們不必在模型設計之初就把所有的細節(jié)都考慮到,因為在后續(xù)增加新的節(jié)點、新的關系、新的屬性甚至新的標簽都很容易,也不會破壞已有的查詢和應用功能。
- 數(shù)據(jù)之間的關系越來越重要
當我們在問圖數(shù)據(jù)庫為什么如此重要時,其實就是在問,數(shù)據(jù)之間的關系為何如此重要?正如大家都知道人際關系的價值,其實數(shù)據(jù)的價值也在于它們之間的關聯(lián)關系上。
舉個例子。最近直播帶貨非?;穑偃缒硞€主播在微博上有幾百萬的粉絲,這個數(shù)據(jù)如果不利用起來,價值并不大,但如果他直播帶貨,把關注他的粉絲和可能來他直播間購物的顧客聯(lián)系起來時,這些數(shù)據(jù)立馬展現(xiàn)出巨大的商業(yè)價值。
- 使用圖的方式表達現(xiàn)實世界中的很多事物更直接,更直觀,也更易于理解
自然界中有各種各樣的關系,而關系型數(shù)據(jù)庫只能把這些拍扁成表格形態(tài)的行列數(shù)據(jù),而圖數(shù)據(jù)基于圖模型以一種直觀的方式去模擬這些關系,因而更形象。
另外,現(xiàn)在大部分的圖數(shù)據(jù)庫都提供了可視化的圖展示,使得查詢和分析變得很直觀。
- 專業(yè)的圖分析算法為實際場景提供解決方案
圖數(shù)據(jù)庫起源于圖理論,借助于專業(yè)的圖分析算法,能夠為實際場景提供合適的解決方案。
圖數(shù)據(jù)庫如何存儲、查詢、分析
-
圖存儲
圖數(shù)據(jù)庫如何存儲圖,對查詢和分析效率至關重要。圖數(shù)據(jù)庫使用圖模型來操作圖數(shù)據(jù)。所謂的圖模型是指圖數(shù)據(jù)庫描述和組織圖數(shù)據(jù)的方式。
目前主流的圖數(shù)據(jù)庫選擇的圖模型是屬性圖。屬性圖由點、邊、標簽和屬性組成,我們結合一個具體的屬性圖實例來看一下。
以上屬性圖可以幫助我們理解一些相關概念:
1) 可以為點設置標簽,比如 person, war等,擁有相同標簽的點我們認為它們屬于一個分組,是一個集合,這樣劉備和曹操屬于一個分組;
2) 同樣可以為邊設置標簽,標簽可以為 relation等;
3) 節(jié)點可以擁有很多屬性,比如 style name、year等,這些屬性值以鍵值對的形式表示,例如:劉備的style name是玄德;
4) 邊也可以擁有屬性,比如army等;
5) 邊允許有方向,例如劉備和漢中之戰(zhàn)之間的邊的方向是由劉備指向漢中之戰(zhàn)的;
6) 元數(shù)據(jù)是用來描述點和邊的屬性信息的,元數(shù)據(jù)由若干標簽組成,每個標簽由若干屬性組成。
-
圖查詢
如果我們想知道劉備的籍貫在哪,劉備和曹操是什么關系,漢中之戰(zhàn)的發(fā)動方是誰等等,這些都屬于圖查詢的范疇。
我們知道,SQL是關系型數(shù)據(jù)庫的查詢語言,但是圖數(shù)據(jù)庫的查詢語言并沒有復用SQL。這是因為本質(zhì)上圖數(shù)據(jù)庫處理的是高維數(shù)據(jù),而SQL所適用的是二維的數(shù)據(jù)結構,其并不擅長關系的查詢和操作。使用專門的圖查詢語言比SQL更加高效。
目前主流的圖查詢語言包括Gremlin和Cypher等。
-
圖分析
圖分析是指通過各種圖算法來挖掘圖信息的一門技術。
核心的圖算法可以分成三類:路徑搜索類、中心性分析類和社區(qū)發(fā)現(xiàn)類。
路徑搜索是探索圖中節(jié)點通過邊建立的直接或間接的聯(lián)系。例如在下圖中,通過路徑搜索,我們發(fā)現(xiàn)了這樣一條路徑:孫策-[夫妻]-大喬-[姐妹]-小喬-[夫妻]-周瑜,據(jù)此得知孫策和周瑜是連襟的關系。路徑搜索類算法廣泛用于物流配送、社交關系分析等場景。
中心性分析是指分析特定節(jié)點在圖中的重要程度及其影響力。例如在上圖中,直觀來看,孫權是一個重要的人物,因為與他直接相連的邊的數(shù)量最多。中心性分析類算法一般用于網(wǎng)頁排序、意見領袖挖掘、流感傳播等場景。
社區(qū)發(fā)現(xiàn)意在發(fā)現(xiàn)圖中聯(lián)系更緊密的群體結構。如果把更多的三國人物和關系加到上圖中,利用Louvain等社團挖掘類算法,我們很容易發(fā)現(xiàn)這些人物分屬三個陣營,如下圖所示。
社區(qū)發(fā)現(xiàn)類算法可用于犯罪團伙挖掘等場景。
圖數(shù)據(jù)庫有什么用
介紹完圖數(shù)據(jù)庫的主要功能,我們再來看看圖數(shù)據(jù)庫都有哪些應用場景。圖數(shù)據(jù)庫擅長的應用領域包括:
- 社交領域: Facebook, Twitter用它來進行社交關系管理、好友推薦
我們熟悉的好友推薦。就可以采用推薦好友的好友的方法。
徐庶和司馬徽向劉備推薦諸葛亮可以通過下圖形象地展示
- 電商領域: 華為商城用它來實現(xiàn)商品實時推薦
通過分析目標用戶和其他用戶的喜好商品,找到相似的其他用戶,把這些用戶購買過的商品推薦給目標用戶。
- 金融領域: 中國工商銀行、摩根大通用它來做風控管理
目前來看,金融領域?qū)D數(shù)據(jù)庫的需求很迫切,以貸款為例,在整個貸款周期中,圖數(shù)據(jù)庫都能發(fā)揮巨大的作用。
- 安平領域: 公安用它來進行嫌疑關系審查、犯罪團伙挖掘
東漢末年,曹操刺殺董卓,貂蟬挑撥董卓父子關系,呂布斬殺董卓,但是董卓卻不知道,這些事件幕后主兇之一都有王允,如下圖所示?,F(xiàn)實中也可能是這樣,幕后真兇可能與目標案件沒有直接關系,只有間接的關系。
什么樣的場景適合用圖數(shù)據(jù)庫
你可以根據(jù)以下幾點來判斷你的問題是否需要圖數(shù)據(jù)庫:
如果你的問題中頻繁出現(xiàn)多對多的關系,建議首選圖數(shù)據(jù)庫;
如果你的問題中數(shù)據(jù)之間的關系非常重要,建議首選圖數(shù)據(jù)庫;
如果你需要處理大規(guī)模數(shù)據(jù)集之間的關系,建議首選圖數(shù)據(jù)庫。