基于運營商數(shù)據(jù)的疫情流向感知分析
Labs 導讀
2020年初一場又新型冠狀病毒引發(fā)的疫情席卷全中國。各大運營商積極響應國家工信部號召,將利用自身大數(shù)據(jù)優(yōu)勢,以手機信令為主,通過位置軌跡、用戶漫游識別、交往圈、返鄉(xiāng)用戶識別等模型構(gòu)建一個疫情流向分析輔助決策系統(tǒng),輔助相關(guān)部門疫情決策的大數(shù)據(jù)分析應用,并實現(xiàn)特定人群通知警示類公益短信發(fā)送。幫助國家打贏這場戰(zhàn)“疫”。
1、背景
2020年初,一場突如其來的由新型冠狀病毒引發(fā)的肺炎疫情席卷中國大陸,為有效遏制病毒的傳播1月23日武漢封城,但即使這樣依舊有大批潛在疫情人口在城市里流動。那些來自疫情重災區(qū)湖北武漢、浙江溫州、廣東深圳等城市,暫時無任何肺炎癥狀也沒有發(fā)熱的人,他們作為首批潛在疫情人口,踏上了春運,一場數(shù)以千萬計人參與的大遷徙。
如何找到那些潛在的疫情人口,如何把瘟疫的傳播從源頭上控制住,每個省受到傳播感染的情況未來到底有多嚴重?是這場2019新冠病毒給我們帶來的課題。
運營商數(shù)據(jù),在一個人人使用智能手機的時代,有覆蓋廣、規(guī)模大、數(shù)據(jù)連續(xù)且時效性高的特點。針對此次疫情傳播率高,且恰逢寒假和春節(jié),有大量學生回家、務工人員返鄉(xiāng)的春運,通過運營商手機信令數(shù)據(jù)與用戶數(shù)據(jù)及基站數(shù)據(jù)的計算,建立不同人員模型,感知整個春運期間不同人員,尤其是疫情重點地區(qū)人員的流向分布情況。為當?shù)卣嚓P(guān)部門應對疫情發(fā)展、蔓延防控決策提供數(shù)據(jù)上的決策支撐。
2、研究過程
2.1 數(shù)據(jù)來源
做整體數(shù)據(jù)分析時,我們采集數(shù)據(jù)源為:
- d口位置數(shù)據(jù):交換機位置切換數(shù)據(jù)/漫游位置數(shù)據(jù),特點是數(shù)據(jù)范圍大,不精確,只能到地市級別和國家級別;優(yōu)點是可以捕獲用戶出省以及出國的位置情況。
- mc口:本地網(wǎng)2G位置數(shù)據(jù),小區(qū)級別數(shù)據(jù);
- s1-mme口:本地網(wǎng)4G位置數(shù)據(jù)、小區(qū)級別數(shù)據(jù);
- 數(shù)據(jù)結(jié)構(gòu)流量/語音話單:省內(nèi)小區(qū)級、省外地市級。
采集的數(shù)據(jù)進行歸納整理后的形成基礎數(shù)據(jù)表:
- 位置軌跡表:由 B域的vpmn語音話單,GPRS漫入話單,GPRS省內(nèi)話單,語音漫入話單,語音省內(nèi)話單和O域的cs信令數(shù)據(jù),愛立信4G信令數(shù)據(jù)一共7種信令通過MR程序的模型算法得出,時間緯度為小時;
- 基站工參信息表:通過網(wǎng)優(yōu)部門采集的覆蓋全省10個地市,92個區(qū)縣的30余萬個基站工參信息。
- 用戶資料表:全省3000余萬用戶的B域基礎數(shù)據(jù)。
2.2 數(shù)據(jù)特點
以本次分析的重點貴州省為例,截止到2018年末貴州省的通訊用戶有3940.4萬戶,覆蓋全省10個地市直轄區(qū)下的92個區(qū)縣,共計30余萬個基站小區(qū)平均每天產(chǎn)生的數(shù)據(jù)量高達19.5TB。只要手機開著,無論是否打電話、刷流量,手機都會全天24小時不間斷與基站發(fā)生交互,產(chǎn)生各種狀態(tài)的信令消息。
這些數(shù)據(jù)從基站小區(qū)的交換機采集,傳輸?shù)綑C房,在進行數(shù)據(jù)的合并,清洗,加工,最后模型計算、分析與上層應用數(shù)據(jù)呈現(xiàn),整套流程的時間延遲最大不超過24小時。對于應對這種大型災難性疫情的防控研判起到至關(guān)緊要的作用。
但是運營商數(shù)據(jù)從采集信令的時候,到事件合成和XDR合成過程中,均會出現(xiàn)問題導致信令漏采,號碼回填失敗等。
在信令采集時基站(eNB)和核心網(wǎng)之間采用S1接口,S1有兩種接口:
- S1-MME 連接eNB和MME,接口專門傳送信令;
- S1-U 連接eNB和SGW接口傳輸業(yè)務數(shù)據(jù);
多個eNB之間采用X2口連接,X2接口上能同時傳輸業(yè)務&信令,eNB和UE之間采用Uu接口,Uu接口上也是能同時傳輸業(yè)務&信令。
在上述接口對接的過程中數(shù)據(jù)的傳輸會存在不穩(wěn)定、丟包的情況。這樣會從源端導致一部分用戶數(shù)據(jù)的丟失。
當源端數(shù)據(jù)采集過來后將進行事件融合和XDR融合的信令數(shù)據(jù)處理,處理的過程中還有號碼丟失的情況,遇到這種情況不同的數(shù)據(jù)處理廠商會提供基于他們自身算法的號碼回填機制,但回填的號碼存在無效號碼或空號。這種情況也將導致數(shù)據(jù)不可用。
2.3 數(shù)據(jù)模型
對于運營商數(shù)據(jù)上存在的不全、缺損的問題,有一部分我們沒有辦法通過算法補全,但是對于大數(shù)據(jù)決策來說,只要總體數(shù)據(jù)展現(xiàn)出來的發(fā)展趨勢符合現(xiàn)實發(fā)生的狀況,那數(shù)據(jù)就是可用的,有價值的;而對于另一些數(shù)據(jù)而言,我們將采用4個核心模型作為研判的基礎模型,通過大量數(shù)據(jù)計算和合理的公式處理以得出最終可用輔助政府部門決策的結(jié)論。
1)軌跡模型
由于特定的某一類人的位置信息有很強的關(guān)聯(lián)性和相關(guān)性,對用戶位置軌跡建模就是基于集體行為模式的方法,來優(yōu)化用戶的位置軌跡,同時,根據(jù)集體行為模式也可以用來預測用戶未來一段時間的軌跡,根據(jù)用戶歷史的位置軌跡及預測的位置軌跡。
模型主要根據(jù)現(xiàn)有的基站數(shù)據(jù),提取用戶的基站數(shù)據(jù)初步模擬用戶的位置軌跡,同時對所有用戶的位置軌跡進行相似度分析,使用軌跡層次聚類算法將所有用戶軌跡進行聚類,最后根據(jù)聚類結(jié)果校對優(yōu)化用戶原先的位置軌跡,提升用戶位置軌跡的準確率,同時,可以將最終的位置軌跡映射到地圖上,結(jié)合地圖周邊信息進行針對性的疫情分析。
- 根據(jù)基站數(shù)據(jù)模擬用戶位置軌跡
- 用戶位置軌跡相似度分析
- 軌跡層次聚類算法
- 優(yōu)化用戶位置軌跡
圖2:軌跡算法模型
具體的思路和規(guī)則:
- 提取用戶一天之內(nèi)的基站信息;
- 將用戶的基站經(jīng)緯度映射到地圖上,按時間先后進行連接畫線;
- 對用戶與其他用戶之間的軌跡曲線進行相似度計算;
- 用軌跡聚類算法,尋找出與此用戶位置軌跡在同一群體里的用戶;
- 根據(jù)同一群體內(nèi)的用戶位置軌跡,剔除此用戶中異常的基站。
在此基礎上,優(yōu)化用戶的位置軌跡,同時,可以根據(jù)用戶所經(jīng)過的基站的經(jīng)緯度計算出基站之間的距離,結(jié)合每個基站的駐留時長,計算出用戶兩兩基站之間的速度,判斷用戶的交通工具,根據(jù)交通工具匹配地圖上的軌跡路線,進一步優(yōu)化用戶的位置軌跡。
2)漫游模型
通過對運營商用戶漫游過程的監(jiān)測和分析,找到漫游進入用戶和漫游離開用戶。
針對漫游離開用戶,基于用戶話單表、用戶表等基礎表單信息,凡漫游到其他省份的用戶在產(chǎn)生流量、通話、短信等通信消費行為后,會產(chǎn)生話單信息。根據(jù)話單表中記錄的用戶所產(chǎn)生消費行為對應的省份、地市信息,確定用戶漫游到訪的省份地市。
針對漫游進入用戶,基于常駐表、工參表、基站信息表等基礎表單,根據(jù)用戶進入省內(nèi)基站的時間,基站位置信息,確定用戶漫入省內(nèi)的開始時間、結(jié)束時間、基站ECI、基站名稱等。
3)交往圈模型
- 取目標用戶有效交往圈清單;
- 取待識別號碼有效交往清單;
- 取目標用戶和待識別用戶有效交往圈交集;
分別計算和目標用戶有效交往圈存在交集的待識別號碼的符合率:
- 符合率=交往圈交集大小/目標用戶有效交往圈大小
- 分目標號碼將符合率有高到低進行排序;
- 取目標號碼的網(wǎng)絡位置小區(qū)和待識別號碼的網(wǎng)絡位置小區(qū);
- 計算每個目標號碼和待識別號碼網(wǎng)絡位置小區(qū)重合數(shù);
- 判斷目標號碼和待識別號碼是否相同;
- 如果符合率大于,將、小區(qū)重合數(shù)、符合率從高到低綜合排序,取排名第一位;
- 如果符合率小于等于,必須相同,然后將小區(qū)重合數(shù)、符合率從高到低綜合排序,取排名第一位;
- 最終識別結(jié)果必須滿足符合率大于或者小于且相同;
- 指紋匹配相似度=符合率+(0.5×有效交往圈近似性+0.5×全集交往圈近似性)
交往圈近似性是通過目標用戶與待識別用戶交往圈大小來描述其近似性的。包括全集交往圈近似性和有效交往圈近似性。
全集交往圈描述的是待識別用戶與目標用戶全集交往圈的近似性程度,公式如下:
- 全集交往圈近似性=1-目標用戶與待識別用戶的全集交往圈大小之差的絕對值/目標用戶與待識別用戶的全集交往圈大小之和
有效交往圈近似性:描述的是待識別用戶與目標用戶的有效交往圈的近似程度,其公式如下:
- 有效交往圈近似性=-目標用戶與待識別用戶的有效交往圈大小之差的絕對值目標用戶與待識別用戶的有效交往圈大小之和。
最終得到用戶的匹配號碼,以此獲得用戶特征信息。
4)返鄉(xiāng)模型
基站駐留軌跡、通話行為、用戶基礎屬性作為模型的基本數(shù)據(jù);
通過對目標用戶的業(yè)務規(guī)則和數(shù)據(jù)剖析,初步篩選出36個用戶特征緯度,進一步采用統(tǒng)計學算法的因子、聚類、主成分分析,最終選取相關(guān)度較高(r>0.6)、獨立性較好(p<0.05)、累計貢獻率超過80%以上的前11個綜合特征指標;
為消除各個用戶特征數(shù)量級不同對模型預測效果產(chǎn)生的影響,采用Z-score方法對相應指標進行標準化處理;
結(jié)合業(yè)務經(jīng)驗評估及對比各維度的重要性,采用專家打分法,計算權(quán)重系數(shù),并對模型輸入的緯度數(shù)據(jù)進行加權(quán)處理;
數(shù)據(jù)挖掘的過程中,先采用Logistic回歸算法訓練模型,確定識別規(guī)則,預測返鄉(xiāng)用戶分值,再采用二八定律制定分數(shù)閾值;
邏輯(斯蒂)回歸(Logistic Regression),是一種廣義的線性回歸分析模型,是數(shù)據(jù)挖掘中比較常用的模型算法,用于估計某種事物的可能性。邏輯回歸最終輸出一個0-1之間的概率值,通常以0.5為分界點,越接近1表示可能性傾向性越大,反之越近0表示可能性越低。
假設我們有n個獨立的樣本{(x1, y1) ,(x2, y2),…, (xn, yn)},y={0, 1},那每一個觀察到的樣本(xi, yi)出現(xiàn)的概率是:
1. 寫出似然函數(shù),對整個樣本來說明,n個獨立樣本出現(xiàn)的似然函數(shù)為(最大似然法就是求模型中使得似然函數(shù)最大的系數(shù)取值θ*,對應為代價函數(shù)):
2. 對似然函數(shù)取對數(shù),并整理:
3.
這次建模將通過python的scikit-learn中的LogisticRegression實現(xiàn)邏輯回歸算;。
得出返鄉(xiāng)目標用戶。
5)位置定位算法
采用PNPoly 算法對將用戶所在位置進行優(yōu)化。根據(jù) W. Randolph Franklin 提出的 PNPoly 算法,如果一個點在多邊形的內(nèi)部,那么從這個點引一條射線,那么與多邊形的邊的交點是奇數(shù)個,那么就在多邊形的內(nèi)部,如果是偶數(shù)個,那么該點在多邊形的外面??紤]到運營商網(wǎng)絡的特點,還需要計算基站與住宅小區(qū)輪廓線各點的距離,通過設置閾值,來判斷拉遠站以及周邊站。從而計算出住宅小區(qū)的網(wǎng)絡覆蓋,進一步計算潛在疫情人口分布。
2.4計算環(huán)境
- HADOOP基本的數(shù)據(jù)清洗,運用到700個節(jié)點;
- SPARK模型數(shù)據(jù)計算,運用到100個節(jié)點;
- MPP用于存放結(jié)果數(shù)據(jù)的數(shù)據(jù)倉庫,運用到71個節(jié)點。
2.5數(shù)據(jù)應用
A.可視化數(shù)據(jù)大屏
將通過模型計算的數(shù)據(jù)按照系統(tǒng)規(guī)定好的數(shù)據(jù)格式放入數(shù)據(jù)庫中,系統(tǒng)頁面通過折線圖可以感知到從疫情重點區(qū)域到訪的每日人數(shù)變化趨勢,柱狀圖可以了解到重點省份的重點地市下的一個人員數(shù)量及占比,熱力圖更好的可以看出不同時段下、不同人數(shù)區(qū)間、不同地區(qū)人員聚集的情況。
從可視化大屏可以直觀的感受到潛在疫情人口的分布、流向,對相關(guān)政府部門進行疫情防控決策起重要的輔助作用。
B.公益性通知短信
利用運營商平臺優(yōu)勢,實現(xiàn)公益類短信發(fā)送。通過文字類短信、圖片類短信和視頻類短信多種形式,可定向給潛在感染人群發(fā)送警示類短信,及衛(wèi)生防疫知識。
掌握確診人群的信息的前提下,還可以通過數(shù)據(jù)模型分析,識別出與確診人群接觸過的一般接觸者,對一般接觸者發(fā)送有特點內(nèi)容的警示告知類短信。短信發(fā)送均不出運營商內(nèi)網(wǎng),保證每一個用戶的隱私和安全。
3、結(jié)論
3.1 算法驗證
以2020年2月2日貴陽市軍閱酒店為例,作為第一批向公眾開放的湖北籍旅客指定接待酒店。該酒店位于貴陽市觀山湖區(qū)西二環(huán)84號北大資源夢想城軍創(chuàng)大廈內(nèi),1月26日起作為湖北籍旅客指定接待酒店開放,截止到1月30日已接待旅客108人。
從貴州疫情流向分析數(shù)據(jù)中查詢到2020年1月30日軍閱酒店內(nèi)室分基站下湖北籍用戶人數(shù)有71人。按照運營商用戶數(shù)占比,以及兒童無手機等其他干擾情況數(shù)據(jù)分析后得出,軍閱酒店內(nèi)湖北籍旅客在100人左右,和實際情況出入不大??梢詫④婇喚频昙{入重點疫情監(jiān)控區(qū)域。
當截止到2020年2月13日,軍閱酒店內(nèi)已有三例新型冠狀病毒肺炎的確診病例。
3.2未來展望
通過此次新型冠狀病毒肺炎疫情的考驗,我們發(fā)現(xiàn)運營商的大數(shù)據(jù)發(fā)展雖然有了不錯的模型建設能力及展示能力,但是在基礎數(shù)據(jù)采集和回填上仍存在漏洞。僅依靠以基站為準的位置定位范圍較廣,只能進行宏觀層面的決策輔助,并不能實現(xiàn)細節(jié)方面的精確定位。隨著模型算法的不斷成熟,基于OTT和MR的精確位置定位,和5G應用的廣泛推廣,基于運營商的應用一定可以在各行各業(yè)中起到關(guān)鍵性的作用。
而通訊運營商作為國有企業(yè),有責任和義務享受著大數(shù)據(jù)時代帶來便捷同時保護每個用戶的隱私不被泄露的同時,在國家重大突發(fā)事件中積極響應工業(yè)和信息化部的號召,按照要求在疫情初期完成省級平臺高危人群的定位、位置軌跡的風險、區(qū)域內(nèi)非正常人群聚集的監(jiān)控,為國家的抗“疫”之戰(zhàn)添磚加瓦。
OTT和MR的精確位置定位,和5G應用的廣泛推廣,基于運營商的應用一定可以在各行各業(yè)中起到關(guān)鍵性的作用。
而通訊運營商作為國有企業(yè),有責任和義務享受著大數(shù)據(jù)時代帶來便捷同時保護每個用戶的隱私不被泄露的同時,在國家重大突發(fā)事件中積極響應工業(yè)和信息化部的號召,按照要求在疫情初期完成省級平臺高危人群的定位、位置軌跡的風險、區(qū)域內(nèi)非正常人群聚集的監(jiān)控,為國家的抗“疫”之戰(zhàn)添磚加瓦。
【本文為51CTO專欄作者“移動Labs”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】