流感防治和大數(shù)據(jù)
德國柏林,一位醫(yī)學(xué)研究所的研究員在進(jìn)行流感病毒分析。
大數(shù)據(jù)中的流感
近些年來,病毒性流感一波又一波襲擾人類,這不但引起學(xué)術(shù)界的密切關(guān)注,而且還經(jīng)常成為公共領(lǐng)域熱議的話題。從 2009 年傳播力驚人,造成全球 20 萬人死亡的 H1N1 甲型流感,到今年年初,導(dǎo)致整個(gè)中國坐立不安的H7N9禽流感,流感病毒不斷改頭換面浮現(xiàn)世間,令藥物和疫苗要么準(zhǔn)備不及,不敷使用,要么無法預(yù)防,中看不中用。彼時(shí),如果能提早發(fā)現(xiàn)流感的發(fā)病趨勢(shì),不僅能為抗病毒藥物的準(zhǔn)備爭取寶貴的時(shí)間,而且還有助于疫苗研發(fā)機(jī)構(gòu)能盡早“對(duì)癥”采取措施。
現(xiàn)有的流感檢測主要基于世界衛(wèi)生組織在 1952 年建立的全球流感監(jiān)測網(wǎng)絡(luò)。這一網(wǎng)絡(luò)由來自 99 個(gè)國家的 128 個(gè)國家流感中心以及流感參比和研究合作中心組成。
就目前的情況,這一網(wǎng)絡(luò)運(yùn)行態(tài)勢(shì)平穩(wěn),對(duì)流感的監(jiān)測和防控起到了巨大的作用,但這是因?yàn)樽罱鼣?shù)十年,流感多是地區(qū)性流行。按照大流感的流行周期,威脅全球的大流感出現(xiàn)的幾率越來越高。
這也對(duì)流感監(jiān)測提出了更高的要求:如何更早更準(zhǔn)確地發(fā)現(xiàn)流感流行的苗頭?
有一群谷歌工程師也有同樣的想法。作為全球最大的搜索引擎,每時(shí)每刻都有上百萬用戶在使用谷歌提供的搜索服務(wù),其中搜索健康信息的人亦不在少數(shù)。這些用戶行為提供了海量的有寶貴價(jià)值的分析數(shù)據(jù)。
可以想見,流感流行季,搜索流感癥狀的人會(huì)飆升,而在流感高發(fā)地帶,這一比例會(huì)相應(yīng)提高。這意味著流感相關(guān)關(guān)鍵詞的搜索趨勢(shì)與流感的流行趨勢(shì)及嚴(yán)重程度存在某種程度的相關(guān)性。盡管并不是每個(gè)搜索這類關(guān)鍵詞的人都有流感癥狀或患有流感,但把這些搜索結(jié)果匯總到一起時(shí),或許可以從中建立起一個(gè)準(zhǔn)確可靠的模型,實(shí)時(shí)監(jiān)控時(shí)下的流感疫情,并對(duì)未來疫情狀況進(jìn)行估測。
工程師們首先面臨的任務(wù)是選擇流感相關(guān)的關(guān)鍵詞。這一步看似簡單,但卻非常棘手。雖然可以肯定包含“流感”字樣的關(guān)鍵詞一定會(huì)入選,但語言的組織形式多種多樣,具體應(yīng)納入哪些關(guān)鍵詞,依然難以確定。
工程師索性將關(guān)鍵詞的選擇權(quán)“粗暴”地交給了機(jī)器。他們挑出谷歌搜索量最大 5000 萬個(gè)關(guān)鍵詞,分別代入到事先建好的一個(gè)模型中,而后將這一模型產(chǎn)生的曲線與美國疾病預(yù)防與控制中心(以下簡稱美國 CDC)的流感流行曲線進(jìn)行擬合,進(jìn)而篩選到擬合度最高 100 個(gè)關(guān)鍵詞。
事已至此,羅馬的一半已經(jīng)建成。接下來就要去蕪存菁,從這 100 個(gè)預(yù)測性最好的關(guān)鍵詞中,優(yōu)選出與流感有關(guān)的部分,并將其綜合起來完成預(yù)測模型的建立。最終有 45 個(gè)關(guān)鍵詞落入工程師的法眼。
實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),預(yù)測模型好壞的最佳評(píng)價(jià)標(biāo)準(zhǔn)一定是在實(shí)戰(zhàn)中觀察其能否通過考驗(yàn)。在回溯驗(yàn)證中,谷歌工程師將美國紐約市 2003 年至 2007 年的季節(jié)性流感數(shù)據(jù)與模型計(jì)算出的數(shù)據(jù)進(jìn)行了比較,發(fā)現(xiàn)相關(guān)系數(shù)達(dá) 0.90。對(duì)于這一模型,更有用的是“未來”驗(yàn)證的結(jié)果。在回溯結(jié)果的鼓勵(lì)之下,谷歌工程師從 2008 年初開始,將模型導(dǎo)出的結(jié)果與兩周后美國 CDC 公布的數(shù)據(jù)進(jìn)行對(duì)照。結(jié)果依然令人振奮,相關(guān)性同樣達(dá)到了 0.90。最終,工程師們還將這一模型的建立過程撰寫成論文發(fā)表在《自然》雜志上。
顯微鏡下的 H1N1 病毒圖。
結(jié)果仍有缺憾
很快,谷歌根據(jù)這一結(jié)果推出了名為“流感指數(shù)(Google Flu Trends)”的產(chǎn)品,據(jù)稱能夠提前兩周提供精確度不低于疾控中心的結(jié)果。目前這一指數(shù)已推廣到全球 29 個(gè)國家,并由檢測流感拓展到另一種感染性疾病登革熱。谷歌工程師對(duì)這一產(chǎn)品如此自豪,以至于在產(chǎn)品推介視頻中,CDC 的結(jié)果完全淪為陪襯,但事實(shí)果真如此么?
由于“流感指數(shù)”的高低在很大程度上取決于用戶的搜索行為,有觀察家認(rèn)為,如果一些事件會(huì)影響到用戶的搜索,那么指數(shù)就有可能出現(xiàn)假陽性或假陰性。果不其然,在谷歌流感指數(shù)運(yùn)行期間,人們逐漸觀察到原有模型的缺陷。
早在 2009 年,谷歌流感指數(shù)就暴露出了算法可能存在問題。那年在主要國家流行的流感病毒株是 H1N1 型。該毒株傳播力驚人,不過毒力較弱。也就是說,相當(dāng)一部分人感染了H1N1后多表現(xiàn)輕微的典型流感癥狀,并不會(huì)引發(fā)更嚴(yán)重的并發(fā)癥。也許是這一原因?qū)е鹿雀栌脩舨⑽催^多關(guān)注當(dāng)時(shí)流感的流行狀況,致使流感指數(shù)的估值嚴(yán)重低于 CDC 的上報(bào)數(shù)量。這一假陰性錯(cuò)誤迫使谷歌工程師第一次大幅修改了算法。
時(shí)至 2013 年,流感再一次引起了世人的廣泛關(guān)注。在中國,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人傳人的跡象。而在美國,流感流行狀況也十分嚴(yán)峻。紐約州在 2013 年 1 月還特地發(fā)布“公共健康緊急狀態(tài)”的通告,以警示民眾。這些消息獲得大眾媒體的廣泛報(bào)道。然而,谷歌流感指數(shù)的表現(xiàn)再次讓人大跌眼鏡:指數(shù)估值出現(xiàn)了假陽性,即遠(yuǎn)高于 CDC 的統(tǒng)計(jì)數(shù)量。盡管谷歌方面對(duì)此并未置評(píng),但大部分關(guān)注這一指數(shù)的研究者認(rèn)為,流感疫情獲得媒體連篇累牘的報(bào)道,影響了谷歌用戶的搜索行為,導(dǎo)致指數(shù)估值出現(xiàn)偏差。
在谷歌流感指數(shù)啟發(fā)之下,很多研究者試圖利用其他渠道(比如社交網(wǎng)站)的數(shù)據(jù)來預(yù)測流感。紐約羅切斯特大學(xué)的一個(gè)數(shù)據(jù)挖掘團(tuán)隊(duì)就曾利用 Twitter 的數(shù)據(jù)進(jìn)行了嘗試。利用團(tuán)隊(duì)開發(fā)的文本分析工具,研究者在一個(gè)月內(nèi)收集了 60 余萬人的 440 萬條 Twitter 信息,挖掘其中的身體狀態(tài)信息。最終的分析結(jié)果表明,研究人員可以提前 8 天預(yù)報(bào)流感對(duì)個(gè)體的侵襲狀況,而且準(zhǔn)確率高達(dá) 90%。
不過研究者也承認(rèn),這一算法并非完美,比如 Twitter 的使用者大部分是年輕人,而季節(jié)性流感的襲擾對(duì)象多為抵抗力較弱的老年人和兒童。另外噪音信息的干擾也很難去除。比如研究者在監(jiān)測 Twitter 上關(guān)于流感的信息時(shí),突然發(fā)現(xiàn)一個(gè)峰值,而那時(shí)完全不是流感的流行季,進(jìn)一步分析顯示,原來是紐約湖人隊(duì)的籃球巨星科比·布萊恩特在那時(shí)罹患流感,但仍帶病上場,從而引起球迷在 Twitter 上熱議所致。
4 月 10 日,昆明市疾控中心國家流感網(wǎng)絡(luò)監(jiān)測中心實(shí)驗(yàn)室,技術(shù)人員正在進(jìn)行流感病毒的檢驗(yàn)檢測。
大數(shù)據(jù)視角下的甄別手段
利用搜索引擎的檢索詞以及推特的文本挖掘來提前感知流感的脈搏,的確是一種有效的手段,雖然目前仍處于“進(jìn)化”階段,但至少可以作為現(xiàn)有監(jiān)測網(wǎng)絡(luò)的補(bǔ)充。
上文提到,就大流感的流行周期來看,下一波流感的全球流行很快就會(huì)到來??茖W(xué)家估測,全球流感暴發(fā)的導(dǎo)火索很可能是肆虐于禽鳥間的高致病性禽流感具備了人際間傳播能力,而 H7N9 或許就是大流感來臨前的警鐘。
病毒感染人類,就像用鑰匙來開鎖,如果二者并不匹配,感染過程就無法發(fā)生。不過流感病毒是一種很特殊的病毒,它能夠通過突變相對(duì)迅速地改變“匙齒”,從而打開侵襲人體的大門。1918 年,造成全球數(shù)千萬人死亡的西班牙大流感就是血淋淋的例證。
相對(duì)于利用大數(shù)據(jù)獲取的流感流行趨勢(shì),科學(xué)家的視角更加深遠(yuǎn),他們希望發(fā)現(xiàn)哪種流感毒株是毒性最烈的大殺器,希望揭示原本在禽類或豬體內(nèi)傳播的流感病毒是如何發(fā)生驚人一躍,轉(zhuǎn)而在人際間流行的,由此為疫苗和藥物的研發(fā)贏得寶貴時(shí)間。
在以往,要回答這一問題,需要比較不同毒株的 DNA 或蛋白序列,這一過程就像在一片森林里挑出一棵樹冠漂亮的樹一樣冗長繁瑣甚至有些痛苦。如何對(duì)舊有方法做出改進(jìn),美國哥倫比亞大學(xué)研究者 Rabadan 開始了他的嘗試。
他的研究基礎(chǔ)依然建立在基于互聯(lián)網(wǎng)形成的大數(shù)據(jù)上。世界各地科學(xué)家在對(duì)手頭的病毒樣本進(jìn)行研究時(shí),會(huì)將其中的序列信息經(jīng)由互聯(lián)網(wǎng)提交公共數(shù)據(jù)庫中。經(jīng)年累月之后庫中積累了大量序列數(shù)據(jù)。
這些序列數(shù)據(jù)就像廣袤的森林,如何挑出其中樹冠最美的樹,Rabadan 利用一套復(fù)雜的機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)這個(gè)目的。
首先 Rabadan 使用已知種屬來源的流感病毒數(shù)據(jù)輸入到算法中,教會(huì)其如何“審美”,即具備識(shí)別哪些病毒來自人類,哪些來自禽類或豬。這一算法訓(xùn)練成熟之時(shí),同時(shí)也是其大顯身手之日。研究者讓其對(duì)數(shù)據(jù)庫中6萬個(gè)病毒基因組進(jìn)行了分析。大數(shù)據(jù)視角下的甄別手段果然不一般,Rabadan 已經(jīng)發(fā)現(xiàn)了一批候選突變,認(rèn)為導(dǎo)致病毒跨物種傳播助推器就隱藏在其中。
目前,世界各地多個(gè)研究小組正在使用這種方法從不同角度對(duì)流感病毒展開研究。美國 St.Jude 兒童醫(yī)院病毒學(xué)家 Richard Webby 認(rèn)為,在互聯(lián)網(wǎng)的幫助下,大數(shù)據(jù)理念與機(jī)器學(xué)習(xí)算法攜手,如同為流感研究插上了雙翼。這一手段不僅喚醒了沉睡的序列信息,而且還可成為科學(xué)家的第三只眼,尤其是在危險(xiǎn)的驚人一躍發(fā)生之時(shí)。