自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

大數(shù)據(jù)
大數(shù)據(jù)時代,我們把這樣的網(wǎng)絡叫關系網(wǎng)絡,那么,如何從關系網(wǎng)絡中挖掘出有價值的信息?以下為你一一道來。

六人定律,相信大家一定都不會陌生。簡單的說,你只需要通過6個人,就可以認識到世界上所有的人。足以說明,世界就像一張網(wǎng),任何事物之間都能找到關系。

大數(shù)據(jù)時代,我們把這樣的網(wǎng)絡叫關系網(wǎng)絡,那么,如何從關系網(wǎng)絡中挖掘出有價值的信息?以下為你一一道來。

什么是關系網(wǎng)絡 

[[287327]]

關系網(wǎng)絡有時也叫社會網(wǎng)絡,是指社會參與者及其間的關系的集合。也可以說,一個關系網(wǎng)絡是由多個點(社會參與者)和各點之間的連線(參與者之間的關系)組成的集合。

這里的參與者不但指具體的個人,還可指一個群體、公司或其他集體性的社會單位或?qū)嶓w。每個參與者在網(wǎng)絡中的位置被稱為"節(jié)點(node)"或“頂點(Vertex)”,參與者之間的關系稱為“邊(Edge)”。

常見的關系網(wǎng)絡可能由以下關系構(gòu)成:

  • 親屬關系:父母、子女、夫妻關系等。
  • 社會關系:社會角色也是關系性的,如老板/職員、教師/學生、醫(yī)生/病人關系等。
  • 個人之間的評價關系:贊成、喜歡、信任、尊重等。
  • 行為上的互動關系:參與者之間的自然交往,如談話、參加會議、拜訪、提建議等。
  • 隸屬關系:如參加一項協(xié)會、屬于某些俱樂部等。
  • 物質(zhì)或資本的傳遞:商業(yè)往來、物資交流。
  • 非物質(zhì)資源的轉(zhuǎn)換關系:參與者之間的交往、信息的交換等。
  • 空間關系:城市之間的關系,遷入和遷出。

職位的升遷,地位的變動。

關系網(wǎng)絡分析方法

要分析關系網(wǎng)絡,從了解一些基本概念開始。

1、“圖”的概念

為方便計算機處理關系網(wǎng)絡,在計算機理論中,把關系網(wǎng)絡抽象為“圖”的概念。這里的“圖”不是圖形,也不是照片,而是一種數(shù)據(jù)結(jié)構(gòu)。“圖”由下面三種關鍵元素構(gòu)成:

  • 節(jié)點(Node):即頂點(Vertex)
  • 邊(Edge):表示節(jié)點之間的關系
  • 屬性(Property):節(jié)點和邊都可以有自己的屬性

“圖”中的屬性用于描述節(jié)點或邊的特征。例如,對于某學校關系網(wǎng)絡,點的屬性可能有姓名、角色等,邊的屬性可能有同學、師生、同事等。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

2、有向圖和無向圖

圖也分為有向圖和無向圖,分別用有箭頭的連線和無箭頭的連線表示。有向圖中的關系是有方向的,如借貸關系、權力關系等。無向圖中的關系是無方向的,例如參會、交談等。所有的關系網(wǎng)絡都可以抽象為“圖”的形式來表述。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

3、最短路徑

有個很著名的理論,世界上任意兩個人之間最多經(jīng)過6個人就能建立聯(lián)系。也就是說,你只需要通過6個人,就可以和美國總統(tǒng)特朗普說上話。但是,如何找到這6個人呢?最短路徑算法就用于這樣的場景,用于找到源節(jié)點到目標節(jié)點的最短路徑。它的主要特點是以起始點為中心向外層層擴展,直到擴展到終點為止。Dijkstra(迪杰斯特拉)算法是典型的單源最短路徑算法,是很有代表性的最短路徑算法。

如下圖所示,通過最短路徑計算,我們很容易在一個復雜的網(wǎng)絡中找到任意兩個節(jié)點(我和特朗普)之間的最短路徑。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

4、度和權重

點的“度”數(shù),是指與該點相連的邊的條數(shù)。對于有向圖,“度”也可以細分為出度和入度。與節(jié)點相連的邊越多,說明該點越重要,所以節(jié)點的“度”數(shù)反映了一個點的重要程度。

再說說點的權重,權重是表示點的重要程度的另一種方式。權重有很多種評價方式,可以用點的某項屬性度量值為權重,例如:注冊資本等。也可以用某種算法求出點的權重,例如:PageRank。

可以用度數(shù)或權重在”圖”中直觀表示節(jié)點的重要程度。下圖是《悲慘世界》人物關系,用PageRank為直徑表示不同人物的重要性,可以看到,Valjean是其中的核心人物(主角)。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

5、中介中心性

中介中心性在我們WonderDM中又稱節(jié)點影響度。中介中心性指的是一個結(jié)點擔任其它兩個結(jié)點之間最短路徑的橋梁的次數(shù)。一個結(jié)點充當“中介”的次數(shù)越高,它的中介中心度就越大。中介中心性是研究一個參與者在多大程度上居于其他兩個參與者之間,因而是一種"控制能力"指數(shù)。

下圖是《悲慘世界》人物關系,用中介中心性為直徑表示人物節(jié)點??梢钥吹?,F(xiàn)antine是其中的關鍵人物。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

6、模塊化

模塊化(Modularity)是關系網(wǎng)絡分析中用于分析網(wǎng)絡結(jié)構(gòu)的一種方法。根據(jù)一個群組內(nèi)部比群組外部具有更高密度的聯(lián)結(jié)的原則,它將網(wǎng)絡分成不同的群組,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用來偵測網(wǎng)絡的社群結(jié)構(gòu)。通俗的說,找出網(wǎng)絡由哪些小圈子組成。

以微博轉(zhuǎn)發(fā)數(shù)據(jù)形成的關系網(wǎng)絡為例,將此網(wǎng)絡模塊化之后按模塊進行分組配色,可以很鮮明的看到整個網(wǎng)絡形成了若干個不同的圈子,可以對圈子內(nèi)的個體詳細了解后,定位該圈子的群組特征。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

7、K-Core

一個圖的k-Core是指反復去除“度”小于k的節(jié)點后,所余下的子圖,所有的節(jié)點度數(shù)都為k。K-Core算法是簡化復雜網(wǎng)絡并得到核心子網(wǎng)絡的算法之一,其簡單有效可以運用到很多領域。K-Core可以幫助我們從復雜的關系網(wǎng)絡中提取高度相關的子結(jié)構(gòu)(如社區(qū)、團體、關聯(lián)企業(yè)等)。例如可以在采購欺詐模型中,幫助我們分析買家或賣家之間行為異常的團伙或找出整個交易網(wǎng)絡中處在核心位置的供應商或采購商。

如下圖所示,使用K-Core算法,我們在一個復雜的關系網(wǎng)絡中,找到若干關聯(lián)度比較高的客戶群體。 

數(shù)據(jù)挖掘的方法很多,實用易懂的就這一種

小結(jié)

現(xiàn)在是萬物互聯(lián)的時代,可謂萬物皆有關系,關系網(wǎng)絡分析可以應用到幾乎所有社會活動當中。利用關系網(wǎng)絡分析手段,結(jié)合時空數(shù)據(jù)、地理關系等建立可視化表征,可以揭示對象間的關聯(lián)和對象時空相關的模式及規(guī)律,億信華辰的數(shù)據(jù)挖掘產(chǎn)品WonderDM提供了涵蓋分類、回歸、聚類、關聯(lián)規(guī)則以及時間序列等五大類、十余個小類的核心數(shù)據(jù)挖掘算法,同時支持擴展數(shù)據(jù)挖掘算法,讓用戶能夠快速找到與業(yè)務更為貼合的數(shù)據(jù)挖掘模型??梢詮V泛應用于金融、銀行、保險、物流、交通、安防、互聯(lián)網(wǎng)等各行各業(yè)。

 

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2021-10-08 23:07:02

工具AST編譯

2021-06-11 00:11:23

GPS數(shù)據(jù)協(xié)議

2009-11-27 09:25:50

Cisco路由器備份

2018-12-14 14:30:12

安全檢測布式系測試

2017-10-10 16:32:13

MBR分析數(shù)據(jù)挖掘

2017-10-13 10:18:56

數(shù)據(jù)挖掘方法

2018-02-08 08:11:41

2010-03-26 13:34:47

CentOS安裝

2011-04-06 10:09:56

MySQL數(shù)據(jù)庫安裝

2022-04-20 08:00:00

深度學習數(shù)據(jù)集Hub

2020-05-19 17:07:09

Spark測試數(shù)據(jù)計算

2014-05-13 09:56:24

數(shù)據(jù)挖掘

2024-08-30 11:27:55

父文檔檢索RAG技術人工智能

2011-02-23 09:35:25

Eclipse遠程調(diào)試

2017-12-11 10:40:14

2009-07-01 18:39:17

JSP表單

2023-07-12 10:01:00

doris數(shù)據(jù)單節(jié)點

2022-06-09 09:38:39

Cloudlets云存儲

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼
點贊
收藏

51CTO技術棧公眾號