Twitter數(shù)據(jù)流可用于預(yù)測流感爆發(fā)
Google 早在 2008 年推出了“流感趨勢”網(wǎng)站。它建立的假設(shè)基礎(chǔ)是:人們在遭受疾病困擾時,會比在身體健康時,花更多的時間搜索疾病相關(guān)內(nèi)容。因此,通過分析一個國家,在特定時期的流感相關(guān)搜索量,便可以推算出病毒的傳播情況。
這個預(yù)測非??孔V,通常與美國疾病控制和預(yù)防中心(CDC)的數(shù)據(jù)相差無幾。事實(shí)上,有幾次傳染病初期的預(yù)測,甚至比 CDC 早了一周之久。眾所周知,疾病初期預(yù)測將為政府及時采取部署,提供了有利的時機(jī)。
那么其他的在線服務(wù),尤其是社交網(wǎng)絡(luò),能否做到相同甚至更好的預(yù)測呢?如今,問題有了答案。卡耐基梅隆大學(xué)的 Jiwei Li 和康乃爾大學(xué)的 Claire Cardie,成功利用 Twitter 預(yù)測了早期流感爆發(fā)。
他們的方式與 Google 十分類似。首先,他們從 Twitter 數(shù)據(jù)流中過濾包含與“流感”相關(guān),并帶有位置標(biāo)簽的 tweet;然后,在地圖上標(biāo)注這些 tweet 的位置分布,以及隨時間產(chǎn)生的變化。同時,他們還制作了流感的動態(tài)變化模型。新模型中,流感包括 4 個階段:無傳染階段、爆發(fā)階段、穩(wěn)定階段以及衰退階段。
此外,他們采用了全新的算法,試圖盡可能快得發(fā)現(xiàn)不同時期的轉(zhuǎn)換節(jié)點(diǎn)。實(shí)際上,Li 和 Cardie 在 2008 年 6 月至 2010 年 6 月間,已經(jīng)利用 100 萬美國人的 360 萬條 tweet ,驗(yàn)證了該方法的有效性。 為了檢驗(yàn)他們的預(yù)測是否成真,Li 和 Cardie 將他們的分析與 CDC 進(jìn)行對比。他們說,“我們確信,流感相關(guān) tweet 與 CDC 提供的流感疾病案例數(shù)目,呈顯著相關(guān)。 ”
這看上去是向流感疾病宣戰(zhàn)強(qiáng)有力的武器。它不僅為疾病早期預(yù)測提供了新方式,同時,挑戰(zhàn)了 CDC,以及 Google 的流感趨勢網(wǎng)站。每年,全球約 10-15% 的人感染流感,引發(fā) 5000 萬流感病例,造成近 50 萬人死亡。這是一個不容忽視的龐大數(shù)字。如今,政府和醫(yī)療機(jī)構(gòu)可以借用 Twitter,更早、更實(shí)惠、更便捷得預(yù)測疫情,挽救更多的生命。
譯文鏈接:http://www.36kr.com/p/206868.html
英文原文:http://www.technologyreview.com/view/520116/twitter-datastream-used-to-predict-flu-outbreaks/