CTO訓(xùn)練營胡偉:百度大數(shù)據(jù)布局旅游、金融、醫(yī)療領(lǐng)域
原創(chuàng)百度研究院大數(shù)據(jù)實驗室數(shù)據(jù)科學(xué)家胡偉在由51CTO高招主辦的“CTO訓(xùn)練營第四課百度技術(shù)專場”做了主題為“百度大數(shù)據(jù)在旅游、金融及醫(yī)療領(lǐng)域的應(yīng)用”的分享。從技術(shù)角度深入地剖析了百度大數(shù)據(jù)在當(dāng)今三大熱門領(lǐng)域:旅游、金融、醫(yī)療的應(yīng)用。
【講師簡介】
胡偉 百度研究院大數(shù)據(jù)實驗室數(shù)據(jù)科學(xué)家
百度研究院大數(shù)據(jù)實驗室數(shù)據(jù)科學(xué)家,分別于2005年和2011年獲西安交通大學(xué)學(xué)士及博士學(xué)位,2009年至2011年在麻省理工學(xué)院認知科學(xué)實驗室任訪問學(xué)生。加入百度前,曾在微軟亞洲互聯(lián)網(wǎng)工程院從事搜索廣告和機器翻譯相關(guān)研發(fā),擁有多年大規(guī)模機器學(xué)習(xí)和數(shù)據(jù)分析經(jīng)驗,研究興趣包括自然語言處理,計算廣告學(xué),深度學(xué)習(xí)等。
百度作為全球***的中文搜索引擎,沉淀了其他傳統(tǒng)數(shù)據(jù)平臺無可比擬的海量數(shù)據(jù)?;诖髷?shù)據(jù)分析技術(shù),百度開放了大數(shù)據(jù)引擎,與政府、醫(yī)療、金融等傳統(tǒng)機構(gòu)率先展開合作,并逐漸向各個行業(yè)滲透、擴展。胡偉老師本次的演講涵蓋了百度大數(shù)據(jù)技術(shù)在旅游、金融及醫(yī)療領(lǐng)域的探索,以及深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)分析中的應(yīng)用。
百度大數(shù)據(jù)在旅游領(lǐng)域的應(yīng)用
應(yīng)用實例
2014年9月份某旅游景點出現(xiàn)游客爆滿滯留,帶來了很大的安全隱患,旅游人流量預(yù)測問題再一次引起了全民的關(guān)注。
旅游人流量預(yù)測一向是旅游行業(yè)的重大課題,尤其是對旅游管理機構(gòu)以及目的地企業(yè)而言,對未來做到“心中有數(shù)”,無論對旅游行業(yè)宏觀把握和調(diào)控,還是對目的地營銷活動的引導(dǎo),以及對旅游人流流向和流量的調(diào)整,都具有很大的現(xiàn)實意義。百度大數(shù)據(jù)對此問題有專業(yè)的工具來解決。
通過百度關(guān)鍵詞搜索日志可以發(fā)現(xiàn),事發(fā)前一個周末,這個景區(qū)有非常高的搜索量,并且搜索的用戶都是周圍的居民,這說明,這些用戶去的可能性極大,進而可以預(yù)測到未來的一兩個周末,這個景區(qū)的人流量會很大。這就是基于時間和空間的一個簡單預(yù)測。
技術(shù)要點
百度大數(shù)據(jù)來源主要有兩個方面:一是網(wǎng)民的廣義搜索行為;二是百度的LBS數(shù)據(jù),這些數(shù)據(jù)基本涵蓋了游客旅游活動中和外界的信息交互行為,同時旅游業(yè)的信息密集、產(chǎn)品固定、移動消費等特點,無疑很大程度上契合了百度大數(shù)據(jù)的特點。
圖1:時間序列預(yù)測的基本方法
除了季節(jié)性,天氣、是否節(jié)假日等因素也影響著人流量,所有這些特征融合在一起就可以做出一個比較準(zhǔn)確的預(yù)測。如下圖所示。
圖2:景區(qū)客流量預(yù)測
藍線代表搜索日志量,包含用戶搜門票、路線等信息,紅線代表實際旅游人數(shù)。這是一個傳統(tǒng)的模型,即用***個時間點預(yù)測第二個時間點,依此類推。
基本模型如ARMA,ETS等過于簡化,使用范圍有限,并且,由于時間序列的特殊性質(zhì),標(biāo)準(zhǔn)的機器學(xué)習(xí)模型難以直接應(yīng)用。這就要求有更先進的模型來進行更精準(zhǔn)的預(yù)測。即:動態(tài)空間模型State Space Model (SSM)。
圖3:狀態(tài)空間模型
簡單地說,y是觀測的人數(shù),當(dāng)我們要預(yù)測y時,影響y的有很多因素,即內(nèi)部狀態(tài),如天氣因素、搜索因素、GPS定位的人數(shù)等,此模型可以把這些因素都隱含進去,然后通過動態(tài)的方式來預(yù)測每個時間點上的人數(shù)。這里的時間序列,是一個動態(tài)的模型。
目前,百度已經(jīng)有了成熟的產(chǎn)品上線:trends.baidu.com
圖4:旅游預(yù)測與狀態(tài)空間模型
百度大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用
首先,胡偉老師明確了一點:我們做的不是風(fēng)控方面,而是投資方面。百度大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用主要基于兩種形式:用戶數(shù)據(jù)分析和高斯圖模型關(guān)聯(lián)挖掘。
用戶數(shù)據(jù)分析
用戶關(guān)注某個事物或者心里想什么,會在互聯(lián)網(wǎng)上留下一些信息,比如搜索某個公司、新聞信息,或者直接搜索某支股票,這些都可以或多或少的反映出他的投資傾向。
圖5:用戶數(shù)據(jù)分析
這張圖顯示了一個很有意思的現(xiàn)象:哪個公司的搜索率高,往往這只股票就會跌。這是什么原因呢?用戶其實不會平白無故的搜索一只股票,或者說每個公司的搜索量應(yīng)該差不多,但是當(dāng)出現(xiàn)一些負面新聞時,比如破產(chǎn)或者法人出現(xiàn)什么問題,就會有很多人搜索。這一搜索,其實已經(jīng)相當(dāng)于一個預(yù)警,這個公司的股價有可能會受到負面消息的影響。
金融工程中的數(shù)據(jù)分析多基于小數(shù)據(jù)(高頻交易除外),模型評價主要以回測模擬實現(xiàn),無法直接應(yīng)用機器學(xué)習(xí)算法。百度金融大數(shù)據(jù)基于Query的等權(quán)重指數(shù),可以很清晰地顯示出這些變化特征。
高斯圖模型關(guān)聯(lián)挖掘
圖6:高斯圖模型關(guān)聯(lián)挖掘
高斯圖模型(Gaussian Graphical Model)
其中,S為樣本協(xié)方差矩陣,X為所求的偏相關(guān)系數(shù)?;诟咚箞D模型挖掘出的股票聯(lián)動圖如圖6所示。
具體來說,各個股票之間會有一種內(nèi)在關(guān)聯(lián)信息,比如說行業(yè)中上下游的關(guān)系,鋼材、石油、化工這些都會有一定的關(guān)聯(lián)。這種關(guān)系有的比較直觀,有一些比較滯后,百度通過數(shù)據(jù)挖掘的方式找出了這種規(guī)律,進而對整個金融市場做了一個全新的版圖。
百度大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用
現(xiàn)狀
艾瑞咨詢2015的調(diào)查結(jié)果顯示:有89%的用戶生病***反應(yīng)是進行互聯(lián)網(wǎng)咨詢,百度疾病、癥狀類的檢索量是平均每天4億。
醫(yī)療資源比較匱乏,掛號排隊等是當(dāng)今醫(yī)療行業(yè)的現(xiàn)狀,百度內(nèi)部很早就開始關(guān)注如何用新的技術(shù)手段改進這一現(xiàn)狀,百度采用的方法是機器學(xué)習(xí)。
深度機器學(xué)習(xí)
傳統(tǒng)的數(shù)據(jù)挖掘時一般用文本分類,即情感分析:當(dāng)客戶用一段話描述一個癥狀時,會被打上標(biāo)簽,根據(jù)這些標(biāo)簽,建議用戶去哪些醫(yī)院或者科室檢查。這種傳統(tǒng)方法的缺點主要有兩個:一是BoW丟失了詞序等重要信息,二是無法對復(fù)雜的非線性關(guān)系建模。Word Embedding的缺點是運算量大,embedding過程損失原始文本信息。
百度采用的是基于稀疏特征的CNN,具體來說,就是讓機器自己找出數(shù)據(jù)內(nèi)在規(guī)律,不對其做人工設(shè)置。并且,采用GPU加速,比CPU快了10倍以上。
圖7:基于稀疏特征的CNN
通過搜索流量來獲得用戶疾病數(shù)據(jù),通過人工智能有效地挖掘相關(guān)數(shù)據(jù),百度的疾病診斷和科室診斷都達到了很高的準(zhǔn)確率。
***,胡偉老師例舉了一些上線產(chǎn)品:百度健康PC端、百度健康移動端、百度醫(yī)療助手DuNurse。
結(jié)語:
百度大數(shù)據(jù)建立在搜索的基礎(chǔ)上,擁有龐大的用戶群和很強的用戶黏性,使用人工智能挖掘技術(shù)對數(shù)據(jù)深入剖析,把智能硬件資源整合,這些優(yōu)勢都驅(qū)動著百度一步步向各個行業(yè)滲透。