圖形分析將讓大數(shù)據(jù)變得更大
社交網(wǎng)絡(luò)已經(jīng)將互聯(lián)網(wǎng)變成了一張復(fù)雜的人際關(guān)系網(wǎng)。社交圖形分析為人們提供了一種解讀這些人際關(guān)系的方法。
由于能夠幫助人們識別個人在群體、人際關(guān)系和影響等環(huán)境中可能做出的行為,社交圖形模型已經(jīng)成為人類行為精確預(yù)測模型的強(qiáng)大推動因素。通過聚集人類行為和互動活動,這些模型使得我們能夠近距離地仔細(xì)評估客戶體驗。
如果你僅對一些人感興趣,僅對將他們彼此相連的某一類關(guān)系展開研究,或是僅對他們相關(guān)行為數(shù)據(jù)的某個靜態(tài)池(static pool)進(jìn)行數(shù)據(jù)挖掘,那么社交圖形分析將會讓這些任務(wù)變得簡單起來。另一方面,如果你正嘗試評估地球上每個人、每個地方和每件事情之間每個潛在關(guān)系的轉(zhuǎn)變模式,以及他們彼此之間可能說的話,并且想動態(tài)地、實時地精準(zhǔn)預(yù)測他們在未來每個節(jié)點上可能要做的事情,那么你無疑正生活在一個科幻世界里。
如今人們已經(jīng)開始逐漸意識到社交圖形分析所具備的潛力將擴(kuò)展一些應(yīng)用在公共、私人和研究領(lǐng)域內(nèi)的應(yīng)用范圍。目前,社交圖形分析正迅速發(fā)展為大數(shù)據(jù)市場中一個最具前景的新領(lǐng)域,成為了諸多商業(yè)和開源圖形數(shù)據(jù)庫的核心應(yīng)用。在許多行業(yè)中,社交圖形分析已經(jīng)讓反欺詐、影響力分析、情緒監(jiān)控、市場細(xì)分、互動程度優(yōu)化、用戶體驗優(yōu)化等功能,以及需要快速識別復(fù)雜行為模式的應(yīng)用變得更加強(qiáng)大。
為了獲得這些潛在優(yōu)勢,社交圖形分析需要使用大量的大數(shù)據(jù)資源。最起碼,你要能夠像繪制節(jié)點和鏈接網(wǎng)絡(luò)那樣繪制出實體與人際關(guān)系的社交圖形模型,或是繪制出個人與相關(guān)聯(lián)系的社交圖形模型。此外,圖形分析人員還會使用“頂點”和“邊”等概念。目前我們已經(jīng)聽說了一些大規(guī)模并行公共圖形分析基礎(chǔ)設(shè)施,這些基礎(chǔ)設(shè)施能夠處理由4.4萬億個節(jié)點(記錄)和70萬億條邊(這些記錄之間的關(guān)系)組成的圖形。目前Facebook自有的社交圖形分析基礎(chǔ)設(shè)施能夠處理數(shù)十億個節(jié)點和近萬億條邊。
仔細(xì)想一下:網(wǎng)絡(luò)級圖形分析創(chuàng)新方案已經(jīng)投入大規(guī)模使用,例如存儲處理、內(nèi)存、互聯(lián)、數(shù)據(jù)中心建設(shè)、能耗等,它幾乎能夠讓任何一個你能說出名字的大數(shù)據(jù)部署相形見絀。隨著圖形模型大小的迅速膨脹,數(shù)據(jù)來源范圍的不斷擴(kuò)展,所處理的工作負(fù)載在數(shù)量、類型和并發(fā)次數(shù)上的不斷增長,對實時低延遲速度的需求提升至了一個新高度,擴(kuò)展性需求無疑也在迅速增長。
圖形分析將推動大數(shù)據(jù)向更大規(guī)模和更復(fù)雜的程度發(fā)展。Hadoop只是這一發(fā)展過程中的一個分支,它們未必就是核心。隨著專門用于發(fā)現(xiàn)、關(guān)聯(lián)和預(yù)處理來自各種可能源的行為數(shù)據(jù)的NoSQL數(shù)據(jù)庫應(yīng)用范圍日益廣泛,內(nèi)存大規(guī)模并行圖形數(shù)據(jù)庫架構(gòu)將會嶄露頭角。
如果你十分關(guān)注圖形分析,那么你需要提升應(yīng)對大數(shù)據(jù)的三個V(即大量化、快速化和多樣化)的能力,以更為高效地處理它們。隨著組件成本的下降和量子計算架構(gòu)取得進(jìn)展,大量機(jī)構(gòu)運行艾字節(jié)級(Exabyte)、零延遲、全內(nèi)存全球圖形分析云將有可能成為現(xiàn)實。