使用大數(shù)據(jù)預(yù)測(cè)退伍士兵的自殺風(fēng)險(xiǎn)
概述
Patterns and Predictions(P&P)是一家預(yù)測(cè)分析公司,其核心技術(shù)提供非結(jié)構(gòu)化和語義驅(qū)動(dòng)的預(yù)測(cè)。正是該技術(shù)為Durkheim項(xiàng)目的“大數(shù)據(jù)”分析網(wǎng)絡(luò)提供了用于評(píng)估心理健康風(fēng)險(xiǎn)的技術(shù)支撐。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、達(dá)特茅斯的蓋瑟醫(yī)學(xué)院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客戶包括全球100強(qiáng)大型公司。該公司的主要合作伙伴Chris Poulin,是該公司核心Centiment®技術(shù)的共同發(fā)明者,Centiment®是一種提供非結(jié)構(gòu)化和語義驅(qū)動(dòng)預(yù)測(cè)的技術(shù)。
Durkheim 項(xiàng)目是為了紀(jì)念法國(guó)社會(huì)學(xué)家David Émile Durkheim在1897年出版的書籍《自殺論(Suicide)》而命名的,在該書中其最早定義了自殺風(fēng)險(xiǎn)的文本分析,并且提供了與社會(huì)脫節(jié)相關(guān)的重要理論解釋。該項(xiàng)目遵循其Durkheim的研究方向,即Durkheim所稱的自殺的“特性” – 指向自殺風(fēng)險(xiǎn)的具體模式和線索。而Durkheim 項(xiàng)目具有一個(gè)創(chuàng)始社會(huì)學(xué)家未曾擁有的有價(jià)值的工具,即技術(shù)。
面臨的挑戰(zhàn)
自殺多年來一直困擾著美國(guó)軍方。如今,這種無處不在的戰(zhàn)爭(zhēng)后遺癥對(duì)于美國(guó)社會(huì)來說,是一場(chǎng)長(zhǎng)期且無處不在的戰(zhàn)爭(zhēng),并且令人震驚的是傷亡率仍在持續(xù)增加。在很多文章中都提到了這一問題,其中美國(guó)《時(shí)代(Time)》雜志報(bào)道說,2012年全年美軍達(dá)到了創(chuàng)紀(jì)錄的349例士兵自殺事件,遠(yuǎn)遠(yuǎn)超過了美軍同期在阿富汗戰(zhàn)死的士兵數(shù)。士兵自殺的比例大約是美國(guó)一般民眾中成年人的兩倍。
在《2012年自殺數(shù)據(jù)報(bào)告》中,美國(guó)退伍士兵事務(wù)部(VA)指出,“關(guān)于退伍士兵自殺風(fēng)險(xiǎn)的特征和結(jié)果的信息對(duì)于改善自殺預(yù)防計(jì)劃的制定是至關(guān)重要的。”
Durkheim 項(xiàng)目旨在提供這一重要信息。憑借其強(qiáng)大的高級(jí)分析、實(shí)時(shí)預(yù)測(cè)建模和機(jī)器學(xué)習(xí)協(xié)同工作功能,該項(xiàng)目尋求確定退伍士兵的溝通和自殺風(fēng)險(xiǎn)之間的關(guān)鍵相關(guān)性,F(xiàn)ast Company 稱贊其為我們所見過的“對(duì)大數(shù)據(jù)最重要的使用”。
關(guān)鍵要點(diǎn)
行業(yè)
• 政府
• 醫(yī)療保健和生命科學(xué)行業(yè)
地理位置
• 美國(guó)新罕布什爾州普茨茅斯
支持的業(yè)務(wù)應(yīng)用
• 識(shí)別自殺風(fēng)險(xiǎn)因素的預(yù)測(cè)分析
影響
• 實(shí)時(shí)溝通和自殺風(fēng)險(xiǎn)之間的準(zhǔn)確的、語義驅(qū)動(dòng)的相關(guān)性
• 基礎(chǔ)架構(gòu)提供了更低的成本,更好的計(jì)算吞吐量,并降低了IT 支持的復(fù)雜性
使用的技術(shù)
• Hadoop 平臺(tái):CDH
• Hadoop 組件:Cloudera Impala和Cloudera Search
• 服務(wù)器:Cray grid、Amazon EC2
• 分析工具:Patterns and Predictions Centiment®;Attivio
大數(shù)據(jù)規(guī)模
• 每天實(shí)時(shí)處理超過1TB 的作業(yè)
• 實(shí)時(shí)支持高達(dá)100,000 名現(xiàn)役和退伍士兵
解決方案
第一階段
Durkheim 項(xiàng)目于2010年開始設(shè)立,該項(xiàng)研究最初由達(dá)特茅斯學(xué)院(Dartmouth College)發(fā)起,并且P&P 和Poulin 都參與了該項(xiàng)研究。Poulin 及其專家是該項(xiàng)目的多學(xué)科協(xié)作團(tuán)隊(duì)的關(guān)鍵成員,其中還包括人工智能領(lǐng)域的專家,以及來自私人公司、達(dá)特茅斯蓋瑟醫(yī)學(xué)院(Dartmouth’s Geisel School of Medicine)和VA 的醫(yī)療專業(yè)人員。
該項(xiàng)目的第一階段開始對(duì)三個(gè)實(shí)驗(yàn)組進(jìn)行研究,每個(gè)實(shí)驗(yàn)組包含100 名受試者,分別代表“非精神失調(diào)”、“精神失調(diào)”和“自殺陽性”狀態(tài)。研究人員開發(fā)了語義驅(qū)動(dòng)的預(yù)測(cè)模型,從非結(jié)構(gòu)化臨床診治記錄數(shù)據(jù)中預(yù)估可能的自殺風(fēng)險(xiǎn)。
2011 年,P&P 開始引入該技術(shù),并建立了綜合性的基礎(chǔ)架構(gòu)和預(yù)測(cè)模型,在經(jīng)過系統(tǒng)擴(kuò)展之后可以支持該項(xiàng)目海量的數(shù)據(jù)收集和分析工作。此外,Apache
Hadoop 等分布式技術(shù)為高效和高度可擴(kuò)展的大數(shù)據(jù)平臺(tái)提供了適宜的解決方案;但是該項(xiàng)目需要一個(gè)輕量級(jí)的機(jī)器學(xué)習(xí)框架,該框架可以在Hadoop 上運(yùn)行并能檢測(cè)大規(guī)模的實(shí)時(shí)風(fēng)險(xiǎn)。
Poulin 解釋說:“大多數(shù)大數(shù)據(jù)機(jī)器學(xué)習(xí)解決方案的精確度都很低,或者在實(shí)施以及與我們現(xiàn)有環(huán)境的集成方面非常復(fù)雜。”
Cloudera 公司在Hadoop 和大數(shù)據(jù)領(lǐng)域的領(lǐng)導(dǎo)地位和豐富的專業(yè)知識(shí)使Poulin 能夠充分利用Cloudera 專業(yè)服務(wù)共同開發(fā)貝葉斯計(jì)數(shù)器(Bayesian counters),這是一個(gè)基于Apache HBase 和市場(chǎng)主流的100%開源CDH(Cloudera’s Distribution Including Apache Hadoop)基礎(chǔ)上,能夠大規(guī)模檢測(cè)風(fēng)險(xiǎn)的輕量級(jí)統(tǒng)計(jì)模型?;贑loudera 的框架體系是Durkheim 項(xiàng)目的技術(shù)基石。
通過引入獨(dú)立的統(tǒng)計(jì)指標(biāo)(包括關(guān)鍵字組合、模式和其他語義線索),仔細(xì)分析來自各種退伍士兵數(shù)據(jù)庫源的先前數(shù)據(jù),對(duì)該緊密集成的系統(tǒng)進(jìn)行“訓(xùn)練”。在訓(xùn)練后,機(jī)器學(xué)習(xí)功能可以識(shí)別出實(shí)際數(shù)據(jù)中的有用線索,并建立風(fēng)險(xiǎn)“得分”。
因?yàn)樽詺⑹且环N個(gè)體行為,而且傾向于自殺的個(gè)人往往在體態(tài)方面都保持良好,Poulin 解釋說:“風(fēng)險(xiǎn)信號(hào)比較弱。當(dāng)大規(guī)模部署該系統(tǒng)時(shí),機(jī)器學(xué)習(xí)功能必須對(duì)大數(shù)據(jù)非常敏感。”
第一階段的構(gòu)建和測(cè)試工作于2013 年初完成。結(jié)果驗(yàn)證了該項(xiàng)目的機(jī)器學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)是可行的,并且證實(shí)了其預(yù)測(cè)能力在預(yù)測(cè)退伍士兵控制組自殺風(fēng)險(xiǎn)中有65%的準(zhǔn)確率。
“ 憑借Cloudera Search 和Impala,Hadoop 在數(shù)據(jù)擷取方面可以非常有效地降低成本,提高計(jì)算吞吐量以及降低IT 支持的復(fù)雜性。”
Chris Poulin,Patterns and Predictions 公司首席合作伙伴
第二階段
Durkheim 項(xiàng)目的第二階段于2013 年07 月啟動(dòng),在Cloudera 公司的支持下,其重點(diǎn)關(guān)注的是針對(duì)不同類型的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的“大規(guī)模自主性預(yù)測(cè)”的最終目標(biāo)。同時(shí),F(xiàn)acebook 在這一階段加入了DARPA,通過推廣自愿參與者的內(nèi)容以支持項(xiàng)目的監(jiān)控目的。
因?yàn)閰⑴c者目標(biāo)數(shù)量為100,000 名退伍士兵,因此該數(shù)據(jù)肯定會(huì)非常“大”。選擇參與該項(xiàng)目的退伍士兵會(huì)收到一個(gè)獨(dú)特的Facebook 應(yīng)用程序以及一個(gè)移動(dòng)應(yīng)用程序(iOS 或Android 系統(tǒng)),這些應(yīng)用程序都旨在收集用戶帖子、Tweets、手機(jī)上傳數(shù)據(jù),甚至是位置信息。這些應(yīng)用程序還收集一些其它特性數(shù)據(jù),包括醫(yī)師信息和臨床診斷記錄。為了確保遵守各種隱私和HIPAA 法規(guī)要求,所有采集的數(shù)據(jù)都存儲(chǔ)在達(dá)特茅斯蓋瑟醫(yī)學(xué)院裝有醫(yī)療防火墻的安全環(huán)境中。
隨著眾多參與者的不斷加入,該系統(tǒng)建立起了個(gè)人資料信息,并且蓋瑟醫(yī)學(xué)院的研究人員和臨床醫(yī)生都可以通過儀表板訪問這些信息。該系統(tǒng)根據(jù)共性信息和針對(duì)每一位參與者特定的關(guān)鍵字為每一種特性都指定了總體風(fēng)險(xiǎn)評(píng)分。
對(duì)連續(xù)導(dǎo)入的大數(shù)據(jù)池使用文本分析可以提供指數(shù)級(jí)數(shù)量的變量,然后可以對(duì)其進(jìn)行比較和分析,從而實(shí)現(xiàn)對(duì)參與者的心理健康的實(shí)時(shí)評(píng)估。Poulin 說到:“分析這些數(shù)據(jù)的計(jì)算處理需要建立一個(gè)大數(shù)據(jù)結(jié)構(gòu),但其帶來的好處是可以獲取更多的信息量。”
該項(xiàng)目的技術(shù)目標(biāo)是“以最低成本實(shí)現(xiàn)最大速度”,這就促使了Cloudera Search 和Cloudera Impala 的采用。“該項(xiàng)目的工作流非常復(fù)雜,”Poulin 解釋說,“我們所有的機(jī)器學(xué)習(xí)都建立了索引,我們實(shí)際上通過搜索接口訪問了所有的機(jī)器學(xué)習(xí),因此代價(jià)是非常昂貴的。憑借Cloudera Search 和Impala,Hadoop 在數(shù)據(jù)擷取方面可以非常有效地降低成本,提高計(jì)算吞吐量以及降低IT 支持的復(fù)雜性。”
Durkheim 項(xiàng)目第一階段的實(shí)驗(yàn)結(jié)果預(yù)測(cè)了退伍士兵對(duì)照組中的自殺風(fēng)險(xiǎn)的精確度達(dá)到了65%,表現(xiàn)出顯著的統(tǒng)計(jì)學(xué)意義。
影響力
由于自殺議題的復(fù)雜性和敏感性,加上美國(guó)軍方面臨的嚴(yán)峻形勢(shì),使Durkheim 項(xiàng)目受到各方的密切關(guān)注。因此,就此而言,“該項(xiàng)目的技術(shù)層面與社會(huì)工程相比來說要容易得多,”Poulin 說到,“如果一個(gè)人真的一心想自殺結(jié)束自己的生命,那么必須要具備足夠的信息同時(shí)足夠耐心溫柔,幫助他/ 她找到更好的解決方法。”
盡管如此,Durkheim 項(xiàng)目仍然處于初始階段,僅被美國(guó)軍方授權(quán)用于監(jiān)測(cè)和分析數(shù)據(jù)。雖然該項(xiàng)目已經(jīng)提供了統(tǒng)計(jì)學(xué)上有效的結(jié)果,準(zhǔn)確地預(yù)測(cè)退伍士兵控制組中的自殺風(fēng)險(xiǎn),但是其關(guān)鍵研究結(jié)果(至少暫時(shí))仍然受到非干預(yù)性協(xié)議的限制。通過使用Cloudera,Poulin 希望,該項(xiàng)目不斷進(jìn)步的風(fēng)險(xiǎn)分類器將有助于該項(xiàng)目建立實(shí)時(shí)評(píng)估風(fēng)險(xiǎn)的能力,以便他們能夠應(yīng)用于干預(yù)性研究。
Poulin 指出:“在這種情況下,大數(shù)據(jù)的目標(biāo)承諾之一是可以縮短需要幫助的人和可以幫助他們的系統(tǒng)之間的距離。這就是我們奮斗的目標(biāo),并且我們希望繼續(xù)與Cloudera 公司一起竭誠(chéng)合作,矢志不移地向著成功前進(jìn)。”






