今年會(huì)不會(huì)感冒?大數(shù)據(jù)告訴你!
“叮叮”手機(jī)響了,你拿起來(lái)一看,屏幕上紅色的打字閃爍著“該地區(qū)已經(jīng)有35人患有流感,請(qǐng)謹(jǐn)慎前往,做好必要防護(hù)措施!”如此智能的預(yù)測(cè)可能不再是夢(mèng)。想知道今年冬天會(huì)不會(huì)感冒,什么時(shí)候得感冒嗎?TwitterHealth可以告訴你!
TwitterHealth是紐約羅徹斯特大學(xué)發(fā)起的一個(gè)研究項(xiàng)目,可以通過(guò)分析用戶的Twitter微博內(nèi)容來(lái)預(yù)測(cè)用戶會(huì)不會(huì)感冒。注意,他們僅僅分析微博內(nèi)容!
這一項(xiàng)目原來(lái)只是給研究人員用作數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)系統(tǒng)用的,后來(lái)開發(fā)出了這一功能。羅徹斯特大學(xué)計(jì)算機(jī)科學(xué)系主任Henry Kautz說(shuō):“TwitterHealth是一個(gè)專門研究分析不同地理位置信息的項(xiàng)目,比如智能手機(jī)的GPS信息。”
Kautz說(shuō):“我們發(fā)現(xiàn)越來(lái)越多的社交媒體開始加入地理位置定位這一功能,人們?cè)诎l(fā)Twitter微博的時(shí)候就會(huì)順帶上自己的地理位置信息。我們的研究小組就從網(wǎng)站上下載并研究此類信息。”
Kautz的學(xué)生建立起一個(gè)計(jì)算機(jī)網(wǎng)絡(luò),專門用來(lái)下載地理位置坐標(biāo)為大城市的Twitter微博。然后他們開始從海量的大數(shù)據(jù)資源中挑選可用數(shù)據(jù)。
“我們發(fā)現(xiàn),人們經(jīng)常在Twitter微博中提到自己的健康狀況。比如說(shuō)‘我流鼻子了’、‘我感冒了’、‘我感覺(jué)不舒服’等。我們就設(shè)想,是否可以根據(jù)這些詞句來(lái)跟蹤季節(jié)性流感?”
于是研究團(tuán)隊(duì)開始拙手寫機(jī)器學(xué)習(xí)算法,在幾百條實(shí)驗(yàn)微博中挑選“感冒微博”。
***團(tuán)隊(duì)的算法在挑選“感冒微博”時(shí)已經(jīng)可以達(dá)到99%的準(zhǔn)確率,幾乎與人腦分析文本一致,而且“感冒”分析速度要快于美國(guó)本土***的疾病控制中心。
“從大數(shù)據(jù)中,我們可以發(fā)現(xiàn)季節(jié)性流感的分布和傳播,我們測(cè)量和預(yù)測(cè)的精度完全不輸疾病控制中心。”Kautz說(shuō)道。
TwitterHealth的極大成功也促使不少學(xué)生開始從事大數(shù)據(jù)和數(shù)據(jù)挖掘方面的創(chuàng)業(yè)。除了疾病傳播趨勢(shì),他們想跟蹤更多趨勢(shì)。
Kautz說(shuō):“除了用于健康預(yù)測(cè),還可以做更多有關(guān)商業(yè)的應(yīng)用,比如說(shuō)追蹤最近的時(shí)尚潮流,追蹤最火的網(wǎng)絡(luò)歌手、網(wǎng)絡(luò)段子等。”
但是Kautz還是重點(diǎn)提到了大數(shù)據(jù)在醫(yī)療衛(wèi)生行業(yè)中的巨大潛力。“以往通過(guò)問(wèn)卷收集醫(yī)療衛(wèi)生數(shù)據(jù)又慢又貴。”他還提到了TwitterHealth對(duì)于抗擊抑郁和自殺有一定幫助,可以在有自殺事件發(fā)生之前就提前預(yù)警。
Kautz說(shuō)道:“通過(guò)分析大數(shù)據(jù)資源,我們可以發(fā)現(xiàn)用戶是否會(huì)經(jīng)過(guò)某一疾病多發(fā)街區(qū),是否在流感病人吃過(guò)飯的餐館就餐,因?yàn)樵谶@些地方都有可能會(huì)增加得流感的機(jī)會(huì)。”
Twitter 微博的內(nèi)容是做大數(shù)據(jù)分析的良好數(shù)據(jù)來(lái)源,但是Facebook等社交網(wǎng)站可以看到更多隱私內(nèi)容,但是也因?yàn)殡[私設(shè)置的問(wèn)題讓數(shù)據(jù)獲取成了問(wèn)題。如果可以說(shuō)服Facebook也使用TwitterHealth這樣的服務(wù),或者能夠獲得Facebook用戶的狀態(tài)、文章,這樣TwitterHealth就可以服務(wù)更多人,減少疾病的發(fā)生。
TECH2IPO:這種方法完全可以移植到中國(guó)來(lái)。許多中國(guó)人都喜歡把自己的故事發(fā)到網(wǎng)上,比如“我今天吃了3兩飯”、“我感冒了,好孤單”、“居然懷孕了”、“LV的包包不如Gucci的好”、“一師是個(gè)好學(xué)校”、“七顆石頭換心愿”之類的內(nèi)容,可以做飲食、健康、人口、消費(fèi)、教育、情感類的分析,潛力還是非常大。但是也要考慮到很多虛假內(nèi)容,比如說(shuō)一個(gè)女孩子在別人的車中發(fā)微博說(shuō)“還是凱迪拉克坐著舒服”這類的話,就會(huì)對(duì)數(shù)據(jù)分析造成很大的干擾。
文章來(lái)源:InformationWeek