個推-構(gòu)建基于LBS的大數(shù)據(jù)應(yīng)用
移動互聯(lián)網(wǎng)時代,“大數(shù)據(jù)”是關(guān)鍵詞之一。作為推送技術(shù)服務(wù)行業(yè)的領(lǐng)跑者,個推不斷進(jìn)行技術(shù)革新***推送革命。在2015年4月底,個推正式對外發(fā)布其劃時代意義的推送3.0產(chǎn)品-“應(yīng)景推送”,深挖用戶使用場景,結(jié)合地理位置信息精確***不同用戶的各類需求。在不斷服務(wù)擁有億級用戶的大客戶的過程中個推通過自身平臺積累的海量數(shù)據(jù)發(fā)展了大數(shù)據(jù)技術(shù),專注于移動推送技術(shù)的個推,同時具有利用大數(shù)據(jù)實時監(jiān)控和分析海量用戶位置信息的能力。
個推產(chǎn)品目前經(jīng)歷了三個階段的進(jìn)階:
個推1.0 實時推送 — 技術(shù)指標(biāo)領(lǐng)先于競品,***程度覆蓋用戶
個推2.0 智能推送 — 合適的內(nèi)容推給合適人,有效降低用戶打擾
個推3.0 應(yīng)景推送 — 合適地點合適時間觸發(fā),精準(zhǔn)捕捉用戶場景
個推3.0產(chǎn) 品最重要的技術(shù)——電子圍欄技術(shù):電子圍欄是精確捕捉用戶場景,實時給用戶推送有價值消息的手機(jī)推送解決方案??蛻舾鶕?jù)業(yè)務(wù)需求,在地圖上設(shè)置電子圍欄區(qū) 域和目標(biāo)用戶屬性,通過冷數(shù)據(jù)畫像(結(jié)合大數(shù)據(jù)分析,篩選目標(biāo)用戶)以及熱數(shù)據(jù)投放(當(dāng)目標(biāo)用戶進(jìn)入電子圍欄實時觸發(fā)),做到在合適的時間、合適的地點、 合適的場景、把合適的內(nèi)容、推送給合適的人。
構(gòu)建基于LBS的大數(shù)據(jù)應(yīng)用,一般的實現(xiàn)流程為:通過信息收集后進(jìn)行基礎(chǔ)數(shù)據(jù)的整理,數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí),服務(wù)搭建以及數(shù)據(jù)可視化等。
數(shù)據(jù)挖掘的基本流程
基礎(chǔ)數(shù)據(jù)的處理主要包括:數(shù)據(jù)集成和一些部分?jǐn)?shù)據(jù)處理。
數(shù)據(jù)集成,數(shù)據(jù)挖掘或統(tǒng)計分析可能用到來自不同數(shù)據(jù)源的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。但如果只有一個數(shù)據(jù)源,這一步可以省略。
基礎(chǔ)數(shù)據(jù)處理,有些數(shù)據(jù)是缺失的(數(shù)據(jù)屬性的值是空值),有些數(shù)據(jù)是含噪聲的(屬性的值 是錯誤的,或有孤立點數(shù)據(jù)),有時同樣的信息采用了多種不同的表示方式(在編碼或命名上存在不一致),基于種種問題要對數(shù)據(jù)進(jìn)行基礎(chǔ)的處理。通過基礎(chǔ)數(shù)據(jù) 處理,可以確保村人數(shù)據(jù)倉庫中的信息是完整、正確和格式一致的。
數(shù)據(jù)轉(zhuǎn)換主要是利用現(xiàn)有的字段進(jìn)行運算來得到新的字段,通常說到數(shù)據(jù)變換主要包括四種:數(shù)據(jù)離散化(采用分箱等方式)、產(chǎn)生衍生變量、使變量分布更接近正態(tài)分布、數(shù)據(jù)標(biāo)準(zhǔn)化。如果對連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。這樣就不需要符合正態(tài)分布了。
數(shù)據(jù)挖掘時只根據(jù)數(shù)據(jù)庫中的數(shù)據(jù),用合適的數(shù)據(jù)挖掘算法進(jìn)行分析,得出有用的信息。其中,模型算法質(zhì)量的評價是很重要的一步。且數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程。
基于LBS的大數(shù)據(jù)應(yīng)用需要解決很多問題:基礎(chǔ)數(shù)據(jù)問題比如海量數(shù)據(jù)流(>20W 條/s)、數(shù)據(jù)處理性能復(fù)雜計算(定位和統(tǒng)計)、準(zhǔn)確率、秒級實時性要求、以及數(shù)據(jù)的實時性等。對此,個推的解決方案是:分布式流式計算框架、Spark Streaming、發(fā)布/訂閱模型、Apache Kafka、Events等。
***,基于大數(shù)據(jù)的LBS應(yīng)用,可以使用分布式流式計算框架,構(gòu)建數(shù)據(jù)閉環(huán),從而實現(xiàn)持續(xù)優(yōu)化基礎(chǔ)數(shù)據(jù)。
2015年,個推曾作為杭州白馬湖動漫節(jié)的安全保鏢保障動漫節(jié)圓滿落幕。本次動漫節(jié)依托 個推的大數(shù)據(jù)平臺和移動互聯(lián)網(wǎng)技術(shù),通過海量的樣本數(shù)據(jù)采集和分析,以實時人流熱力分析圖為主要服務(wù)接口,監(jiān)控動漫節(jié)期間杭州濱江區(qū)白馬湖動漫廣場附近的 人流去向和擁擠程度。這一項部署建立了白馬湖區(qū)塊的實時監(jiān)控和人流預(yù)警系統(tǒng),在人流量超過一定數(shù)量的時候?qū)崟r發(fā)布預(yù)警,從而及時提醒相關(guān)人員注意對應(yīng)區(qū)域 的高峰人流量疏散和引導(dǎo),從源頭上防范踩踏事件及避免安全隱患的發(fā)生。
個推還把電子圍欄技術(shù)和大數(shù)據(jù)的運用深度拓展到與國家地震網(wǎng)和旅游局等的合作,如通過將 大數(shù)據(jù)分析和推送相結(jié)合,在發(fā)生地震時實時警報,并通過大數(shù)據(jù)對人群熱力圖的分析,為震后救援工作定制合理方案及提供有效幫助。又比如個推與旅游局合作, 將旅游分析熱點圖與實時推送相結(jié)合,用于疏散和引導(dǎo)景區(qū)高峰人流量,避免危險事件發(fā)生。
個推作為為開發(fā)者提供推送技術(shù)服務(wù)的“送水工”,在拓展新技術(shù)的同時也正在為服務(wù)公益項目做出越來越多的貢獻(xiàn)。