自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

醫(yī)療健康大數(shù)據(jù):應(yīng)用實(shí)例與系統(tǒng)分析

大數(shù)據(jù)
從大數(shù)據(jù)和醫(yī)療健康大數(shù)據(jù)的介紹出發(fā),首先闡述了醫(yī)療健康行業(yè)所面臨的挑戰(zhàn)和大數(shù)據(jù)對(duì)醫(yī)療健康行業(yè)的促進(jìn)作用;然后介紹了大數(shù)據(jù)和醫(yī)療健康行業(yè)的背景知識(shí);之后舉例說明了大數(shù)據(jù)在醫(yī)療健康行業(yè)的應(yīng)用以及醫(yī)療健康大數(shù)據(jù)系統(tǒng)和關(guān)鍵技術(shù)。

1 概述

隨著信息技術(shù)和物聯(lián)網(wǎng)技術(shù)的發(fā)展、個(gè)人電腦和智能手機(jī)的普及以及社交網(wǎng)絡(luò)的興起,人類活動(dòng)產(chǎn)生的數(shù)據(jù)正以驚人的速度增長(zhǎng)。根據(jù)國際數(shù)據(jù)公司(International DataCorporation,IDC)的報(bào)告,僅2011年,全世界產(chǎn)生的數(shù)據(jù)就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增長(zhǎng)9倍[1]。大數(shù)據(jù)一詞由此而生。

大數(shù)據(jù)是指難以被傳統(tǒng)數(shù)據(jù)管理系統(tǒng)有效且經(jīng)濟(jì)地存儲(chǔ)、管理、處理的復(fù)雜數(shù)據(jù)集。大數(shù)據(jù)一般以PB為單位計(jì)量,并包含結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)給數(shù)據(jù)的采集、運(yùn)輸、加密、存儲(chǔ)、分析和可視化帶來了嚴(yán)峻的挑戰(zhàn)[2]。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)包含5個(gè)V特性:Volume(數(shù)據(jù)規(guī)模巨大)、Variety(數(shù)據(jù)類型繁多)、Velocity(數(shù)據(jù)產(chǎn)生的數(shù)據(jù)非常快)、Veracity(分析結(jié)果取決于數(shù)據(jù)準(zhǔn)確性)、Value(大數(shù)據(jù)一般包含非常重要的價(jià)值)[3]。大數(shù)據(jù)帶來了存儲(chǔ)、管理、處理數(shù)據(jù)的挑戰(zhàn),也帶來了發(fā)掘數(shù)據(jù)中新的價(jià)值的機(jī)遇。多個(gè)行業(yè)已經(jīng)利用大數(shù)據(jù)改善業(yè)務(wù),例如金融業(yè)、零售業(yè)、生命科學(xué)、環(huán)境研究。大數(shù)據(jù)市場(chǎng)估計(jì)每年會(huì)增長(zhǎng)50億美元的價(jià)值,到2020年將達(dá)到600億美元的價(jià)值[4]

醫(yī)療健康行業(yè)目前面臨著巨大的挑戰(zhàn),其中,最主要的挑戰(zhàn)包括:急劇升高的醫(yī)療支出、人口老齡化帶來的慢性疾病問題、醫(yī)療人員短缺、醫(yī)療欺詐[5]等。國家統(tǒng)計(jì)局的數(shù)據(jù)顯示,我國2013年醫(yī)療衛(wèi)生總支出為31 668億元,較2012年上升12.6%,并且已經(jīng)連續(xù)8年每年增長(zhǎng)超過10%。醫(yī)療支出已經(jīng)占據(jù)了社會(huì)總支出很大的比例,在可以預(yù)見的將來,醫(yī)療支出將會(huì)持續(xù)增長(zhǎng)。然而,根據(jù)美國醫(yī)學(xué)研究院(Institute of Medicine,IOM)的一篇報(bào)告,如今醫(yī)療健康支出的1/3被浪費(fèi)而沒有用于改善醫(yī)療。這些浪費(fèi)包括不必要的服務(wù)、行政浪費(fèi)、昂貴的醫(yī)療費(fèi)用、醫(yī)療欺詐和錯(cuò)失預(yù)防的機(jī)會(huì)[6]。為了保持競(jìng)爭(zhēng)力,醫(yī)療機(jī)構(gòu)必須把數(shù)據(jù)作為一種戰(zhàn)略資產(chǎn),分析數(shù)據(jù)以達(dá)到提高診斷準(zhǔn)確度、提高療效、降低費(fèi)用、減少浪費(fèi)的目的。

醫(yī)療健康機(jī)構(gòu)采用大數(shù)據(jù)可以有效地幫助醫(yī)生進(jìn)行更準(zhǔn)確的臨床診斷;更精確地預(yù)測(cè)治療方案的成本與療效;整合病人基因信息進(jìn)行個(gè)性化治療;分析人口健康數(shù)據(jù)預(yù)測(cè)疾病爆發(fā)等。利用大數(shù)據(jù)技術(shù)還能有效減少醫(yī)療成本,麥肯錫全球研究院預(yù)計(jì)使用大數(shù)據(jù)分析技術(shù)將每年為美國節(jié)省3 000億美元開支。其中,最有節(jié)省開支潛力的兩個(gè)方面包括臨床操作和研發(fā)[7]。利用大數(shù)據(jù)技術(shù)幫助醫(yī)療企業(yè)實(shí)現(xiàn)其業(yè)務(wù)的例子正在快速增多。比如,ActiveHealthManagement收集用戶健康方面的數(shù)據(jù)以幫助用戶實(shí)現(xiàn)健康管理;CancerIQ整合臨床數(shù)據(jù)和基因數(shù)據(jù)幫助實(shí)現(xiàn)癌癥的風(fēng)險(xiǎn)評(píng)估、預(yù)防和治療;CliniCast利用大數(shù)據(jù)預(yù)測(cè)治療效果以及降低花費(fèi)。

本文首先介紹醫(yī)療健康行業(yè)的大數(shù)據(jù)特點(diǎn)以及大數(shù)據(jù)技術(shù)背景,然后舉例說明目前大數(shù)據(jù)在醫(yī)療健康行業(yè)的應(yīng)用,最后分析目前的醫(yī)療健康大數(shù)據(jù)系統(tǒng)及其相關(guān)技術(shù)。

大數(shù)據(jù)

2 背景知識(shí)

2.1 大數(shù)據(jù)處理方法

根據(jù)麥肯錫全球研究院2011年的報(bào)告,適合大數(shù)據(jù)的處理技術(shù)包括:關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語言處理、回歸、信號(hào)處理、仿真、可視化[8]等。其中,關(guān)聯(lián)規(guī)則學(xué)習(xí)是挖掘各個(gè)變量間有趣的關(guān)系,比如在零售中發(fā)現(xiàn)經(jīng)常被一起買的商品,便于促銷;分類是通過訓(xùn)練已有的數(shù)據(jù)集來有效識(shí)別新的數(shù)據(jù),比如預(yù)測(cè)用戶的購買行為;聚類分析是按數(shù)據(jù)相似程度將整個(gè)數(shù)據(jù)集分為多個(gè)小規(guī)模的數(shù)據(jù)集;數(shù)據(jù)融合是將多個(gè)數(shù)據(jù)源的信息整合分析以產(chǎn)生新的更加精確、連續(xù)、有價(jià)值的信息;機(jī)器學(xué)習(xí)是一類算法的總稱,關(guān)注設(shè)計(jì)算法自動(dòng)識(shí)別數(shù)據(jù)中的復(fù)雜模式;自然語言處理關(guān)注計(jì)算機(jī)與自然語言的聯(lián)系,幫助計(jì)算機(jī)識(shí)別人類語言;回歸是一組統(tǒng)計(jì)算法,用來判斷因變量與自變量的關(guān)系,以幫助預(yù)測(cè)。信號(hào)處理是一組用來識(shí)別、分析、處理信號(hào)的技術(shù);仿真是模擬一個(gè)復(fù)雜系統(tǒng)行為的技術(shù),經(jīng)常被用來預(yù)測(cè);可視化是將數(shù)據(jù)處理為圖像、圖標(biāo)、動(dòng)畫,以幫助人類直觀了解數(shù)據(jù)。

2.2 大數(shù)據(jù)處理平臺(tái)

大數(shù)據(jù)的特點(diǎn)決定了傳統(tǒng)的數(shù)據(jù)庫軟件和數(shù)據(jù)處理軟件無法應(yīng)對(duì)存儲(chǔ)、處理、分析大數(shù)據(jù)的任務(wù)。大數(shù)據(jù)處理任務(wù)由運(yùn)行在數(shù)十臺(tái),甚至數(shù)百臺(tái)服務(wù)器的大規(guī)模并行軟件完成[8]。常見的大數(shù)據(jù)處理平臺(tái)和工具有:MapReduce,其提供了一種分布式編程的抽象方法;Hadoop,其包含了多個(gè)系統(tǒng)和工具以幫助完成大數(shù)據(jù)任務(wù); HDFS,其用來可靠地分布式存儲(chǔ)數(shù)據(jù); Hive,其提供了Hado op上的SQL支持; HBase,它是基于HDFS的一種非關(guān)系型數(shù)據(jù)庫;Zookeeper,其提供了集群節(jié)點(diǎn)的一個(gè)管理方法。

2.3 醫(yī)療健康數(shù)據(jù)來源

醫(yī)院信息系統(tǒng)(hospital information system,HIS)是醫(yī)療數(shù)據(jù)的重要來源。醫(yī)院信息系統(tǒng)包括:電子病例系統(tǒng)(electronic medicalrecord system,EMRS)、實(shí)驗(yàn)室信息系統(tǒng)(laboratory information system,LIS)、醫(yī)學(xué)影像存檔與通信系統(tǒng)(picture archiving &communicationsystem,PACS)、放射信息管理系統(tǒng)(radiology information system,RIS)、臨床決策支持系統(tǒng)(clinical decision support system,CDSS)等。根據(jù)中國醫(yī)院信息化狀況調(diào)查報(bào)告中對(duì)于醫(yī)院信息系統(tǒng)的總體實(shí)施現(xiàn)狀報(bào)告,截至2006年,電子病例系統(tǒng)、實(shí)驗(yàn)室信息系統(tǒng)、醫(yī)學(xué)影像存檔與通信系統(tǒng)、臨床決策支持系統(tǒng)的已有或在建率分別為27.46%、37.70%、25.20%、12.30%[9]。

除此之外,各種健康設(shè)備可以幫助收集用戶的生命體征信息,比如心電數(shù)據(jù)、血氧濃度、呼吸、血壓、體溫、脈搏、運(yùn)動(dòng)量。社交網(wǎng)絡(luò)和搜索引擎也包含了潛在的人口健康信息。

2.4 醫(yī)療健康大數(shù)據(jù)特點(diǎn)

醫(yī)療大數(shù)據(jù)除了包含了大數(shù)據(jù)5 個(gè)V 的特點(diǎn)之外,還有多態(tài)性、時(shí)效性、不完整性、冗余性、隱私性等特點(diǎn)[10]。多態(tài)性指醫(yī)師對(duì)病人的描述具有主觀性而難以達(dá)到標(biāo)準(zhǔn)化;時(shí)效性指數(shù)據(jù)僅在一段時(shí)間內(nèi)有用;不完整性指醫(yī)療分析對(duì)病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復(fù)或無關(guān)的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會(huì)造成嚴(yán)重后果。

3 醫(yī)療健康大數(shù)據(jù)應(yīng)用舉例

信息化的醫(yī)療數(shù)據(jù)、醫(yī)療研究數(shù)據(jù)、病人特征數(shù)據(jù)以及移動(dòng)設(shè)備、社交網(wǎng)絡(luò)和傳感器產(chǎn)生的醫(yī)療健康相關(guān)的數(shù)據(jù)為醫(yī)療健康從業(yè)人員提供了新的思路,利用大數(shù)據(jù)技術(shù)可以從中發(fā)現(xiàn)潛在的關(guān)系、模式,從而幫助醫(yī)師提高診斷精度、預(yù)測(cè)治療效果、降低醫(yī)療成本,幫助醫(yī)藥公司發(fā)現(xiàn)潛在的藥物不良反應(yīng)、幫助公共衛(wèi)生部門及時(shí)發(fā)現(xiàn)潛在的流行病。下面將從公共衛(wèi)生、藥物副作用評(píng)估、治療預(yù)測(cè)與降低醫(yī)療成本、輔助診斷與個(gè)性化治療等幾個(gè)方面介紹大數(shù)據(jù)的用處。

3.1 助力公共衛(wèi)生檢測(cè)

2009年,Google比美國疾病控制與預(yù)防中心提前1~ 2周預(yù)測(cè)到了甲型H1N1流感爆發(fā),此事件震驚了醫(yī)學(xué)界和計(jì)算機(jī)領(lǐng)域的科學(xué)家,Google的研究報(bào)告發(fā)表在Nature雜志上[11]。Google正是借助大數(shù)據(jù)技術(shù)從用戶的相關(guān)搜索中預(yù)測(cè)到流感爆發(fā)。隨后百度公司也上線了“百度疾病預(yù)測(cè)”借助用戶搜索預(yù)測(cè)疾病爆發(fā)。借助大數(shù)據(jù)預(yù)測(cè)流感爆發(fā)分為主動(dòng)收集和被動(dòng)收集,被動(dòng)收集利用用戶周期提交的數(shù)據(jù)分析流感的當(dāng)前狀況和趨勢(shì),而主動(dòng)收集則是利用用戶在微博的推文、搜索引擎的記錄進(jìn)行分析預(yù)測(cè)。

FluNear You[12]借助用戶周期提交的自我流感檢測(cè)來預(yù)測(cè)流感的爆發(fā)。首先,用戶在Flu Near You的網(wǎng)站上注冊(cè),隨后每個(gè)星期用戶將收到一封電子郵件,指引用戶登錄Flu Near You網(wǎng)站。在網(wǎng)站上,用戶填寫一份關(guān)于自己是否有流感癥狀的調(diào)查。最終Flu Near You收集信息并利用大數(shù)據(jù)技術(shù)生成目前流感疾病和未來流感疾病預(yù)測(cè)的可視化圖表。

流感爆發(fā)初期,通常伴隨著用戶在搜索引擎搜索相關(guān)內(nèi)容或在社交網(wǎng)絡(luò)上發(fā)布相關(guān)內(nèi)容,這些信息可以作為流行病爆發(fā)的初期預(yù)警[13,14]。參考文獻(xiàn)[15]以用戶在Twitter上的推文以及英國健康保健局發(fā)布的城市流感樣病例率(influenza like illnessrate)為數(shù)據(jù)源,通過LASSO算法進(jìn)行特征選擇,選擇推文關(guān)鍵字,建立未來數(shù)天流感樣病例率的預(yù)測(cè)模型,取得了比較精確的結(jié)果。在疾病傳播中,長(zhǎng)時(shí)間與病原體接觸會(huì)增加感染的幾率,因此追蹤人口接觸信息以及人口位置信息將有助于了解流行病的行為[16,17]。參考文獻(xiàn)[18]設(shè)計(jì)了一套使用智能手機(jī)自動(dòng)收集人口位置信息與接觸信息的應(yīng)用。參考文獻(xiàn)[19]將流行病數(shù)據(jù)源分為媒體(包括官方媒體)、移動(dòng)設(shè)備、社交網(wǎng)絡(luò)、Pro-Med郵件列表、實(shí)驗(yàn)室和醫(yī)院數(shù)據(jù),并根據(jù)不同數(shù)據(jù)來源設(shè)計(jì)了一套收集數(shù)據(jù)、分析數(shù)據(jù)、驗(yàn)證數(shù)據(jù)、數(shù)據(jù)可視化的系統(tǒng),用以直觀表現(xiàn)流行病的情況。

3.2 幫助發(fā)現(xiàn)藥物副作用

藥品上市后的不良反應(yīng)檢測(cè)一般依賴被動(dòng)檢測(cè)和主動(dòng)檢測(cè)。被動(dòng)檢測(cè)依賴于醫(yī)生、患者、制藥公司提供的不良反應(yīng)報(bào)告。被動(dòng)檢測(cè)最大的問題是漏報(bào),參考文獻(xiàn)[20]認(rèn)為94%的不良反應(yīng)沒有被報(bào)告。主動(dòng)檢測(cè)則是利用文本挖掘、數(shù)據(jù)挖掘技術(shù)從EHR、EMR、社交網(wǎng)絡(luò)、搜索引擎中發(fā)現(xiàn)潛在藥品導(dǎo)致不良反應(yīng)事件[20]。參考文獻(xiàn)[21]利用藥品不良反應(yīng)存在時(shí)間先后順序,挖掘電子病例中可能存在的藥物不良反應(yīng)。參考文獻(xiàn)[22]將引起不良反應(yīng)的條件分為使用一種藥品、兩種藥品、一種藥品和病人的一種特點(diǎn)、一種藥品和一種藥品過敏事件,根據(jù)決策樹、聚類等數(shù)據(jù)挖掘方法發(fā)現(xiàn)條件和不良反應(yīng)結(jié)果的關(guān)系。當(dāng)藥物使用與不良反應(yīng)存在低頻率的因果關(guān)系時(shí),一般的數(shù)據(jù)挖掘算法將難以分辨因果關(guān)系和偶然事件[23],參考文獻(xiàn)[23]基于預(yù)認(rèn)知決策模型(RPD model)設(shè)計(jì)了多種算法用以發(fā)現(xiàn)藥品不良反應(yīng)中的低頻因果關(guān)系[23~25]。

3.3 助力治療預(yù)測(cè)與降低醫(yī)療成本

目前,醫(yī)療健康行業(yè)成本高昂的部分原因來自醫(yī)療失誤和醫(yī)療浪費(fèi)。根據(jù)1998年美國醫(yī)療協(xié)會(huì)的報(bào)告,僅僅在美國,可以避免的醫(yī)療失誤每年造成了98 000起死亡案例[26]。美國花在醫(yī)療健康上的費(fèi)用超過1 700億美元,而中國每年花費(fèi)在醫(yī)療健康上的費(fèi)用超過30 000億元。在此背景下,多國通過改革醫(yī)療系統(tǒng)以減少醫(yī)療失誤及醫(yī)療浪費(fèi),最終削減醫(yī)療開支。美國于2011年通過的關(guān)于醫(yī)療健康信息技術(shù)的HITECH法案宣布:決定投入500億美元在5年內(nèi)使用信息技術(shù)解決醫(yī)療行業(yè)存在的問題[27]。而中國在2009年宣布了花費(fèi)1 200億元的10年醫(yī)療系統(tǒng)改革計(jì)劃的第一部分。

參考文獻(xiàn)[28]中分析了澳大利亞的醫(yī)療保險(xiǎn)行業(yè),認(rèn)為使用目前的驗(yàn)證技術(shù)無法有效發(fā)現(xiàn)醫(yī)療服務(wù)中存在的欺詐、濫用、浪費(fèi)、錯(cuò)誤等現(xiàn)象,原因在于舊的驗(yàn)證技術(shù)只關(guān)注單個(gè)病例,無法利用多個(gè)病例間的聯(lián)系。作者以醫(yī)療賬單為數(shù)據(jù)源,建立關(guān)于治療費(fèi)用、住院時(shí)間等數(shù)據(jù)的預(yù)測(cè)模型,使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)賬單中的異常數(shù)據(jù);使用領(lǐng)域?qū)<医⒌囊?guī)則庫分析異常賬單,發(fā)現(xiàn)其中可能存在的問題并給出警告。典型的應(yīng)用環(huán)境包括醫(yī)療器材濫用、手術(shù)過程與病情診斷不符、過度收費(fèi)等。提早檢測(cè)出醫(yī)療過程中的問題將為國家保險(xiǎn)機(jī)構(gòu)、患者、私立保險(xiǎn)機(jī)構(gòu)節(jié)省大量花費(fèi)。

3.4 輔助診斷

參考文獻(xiàn)[29,30]認(rèn)為患者的基因型、生活方式、身體特征、多重病患嚴(yán)重影響了治療效果。提早根據(jù)患者的特征設(shè)計(jì)個(gè)性化的治療方案將有助于降低成本,減少醫(yī)療事故。參考文獻(xiàn)[31]認(rèn)為通過挖掘用戶基因信息和電子病例可以做到:根據(jù)患者基因信息和患者的其他特征預(yù)測(cè)各種治療方案可能的副作用;選擇更好的治療方案,而不是嘗試各種治療方案;幫助用戶預(yù)防疾病或削弱疾病的影響。之后,參考文獻(xiàn)[31]設(shè)計(jì)了一套系統(tǒng)Mayo用來收集、存儲(chǔ)個(gè)性化治療所需要的數(shù)據(jù),并為數(shù)據(jù)分析師提供分析數(shù)據(jù)的平臺(tái)。參考文獻(xiàn)[32]則通過分析病人的特征數(shù)據(jù)并匹配相似病例以幫助醫(yī)師診斷。

4 醫(yī)療健康大數(shù)據(jù)平臺(tái)

為了利用大數(shù)據(jù)技術(shù)處理醫(yī)療健康問題,需要針對(duì)數(shù)據(jù)特點(diǎn)以及處理方式設(shè)計(jì)專門的系統(tǒng)。下面主要介紹目前醫(yī)療健康大數(shù)據(jù)平臺(tái)如何設(shè)計(jì)以應(yīng)對(duì)挑戰(zhàn)。

4.1 個(gè)人數(shù)據(jù)收集系統(tǒng)

iEpi[1]是一個(gè)便于流行病醫(yī)療科研人員快速搭建起收集用戶接觸信息、位置信息平臺(tái)的系統(tǒng),本文主要對(duì)其進(jìn)行介紹分析。

4.1.1 背景

智能手機(jī)的普及為獲取個(gè)人醫(yī)療數(shù)據(jù)提供了一個(gè)絕佳的機(jī)會(huì),利用這些信息服務(wù)個(gè)人醫(yī)療、公共衛(wèi)生成了關(guān)注的焦點(diǎn)。多個(gè)應(yīng)用給予用戶控制自己健康狀況的自由,為醫(yī)療服務(wù)提供商提供病人的詳細(xì)狀態(tài)信息。這些應(yīng)用主要提供非聚集的信息。而聚集化的信息可以更容易地提供準(zhǔn)確、一致性的信息。

人口的接觸信息提供了了解流行病傳播模式的機(jī)會(huì)。人口活動(dòng)信息加上位置信息,可幫助城市規(guī)劃者了解建筑環(huán)境對(duì)健康的影響;加上環(huán)境質(zhì)量監(jiān)控器,可以幫助了解環(huán)境污染對(duì)健康的影響。

4.1.2 目標(biāo)

  • 設(shè)計(jì)一個(gè)個(gè)人數(shù)據(jù)收集系統(tǒng),周期性收集用戶數(shù)據(jù),包括位置、加速度、溫度、心跳等信息;
  • 考慮到需要提供接觸信息,位置信息應(yīng)盡可能精準(zhǔn);
  • 用戶可以設(shè)定所要收集的數(shù)據(jù)以及數(shù)據(jù)收集的頻率和持續(xù)時(shí)間;
  • 考慮到醫(yī)療研究人員可能沒有編程經(jīng)驗(yàn),配置方式應(yīng)該簡(jiǎn)單。

4.1.3 設(shè)計(jì)

iEpi系統(tǒng)包含2個(gè)部分(如圖1所示):數(shù)據(jù)收集部分(HealthLogger)和輔助處理部分。其中,HealthLogger由5個(gè)模塊組成。

大數(shù)據(jù)

  • 任務(wù)管理器:HealthLogger的任務(wù)包括上傳數(shù)據(jù)、傳輸數(shù)據(jù)、讀取傳感器。任務(wù)分連續(xù)性和周期性兩種方式調(diào)度,其中,周期性任務(wù)需要設(shè)置周期和持續(xù)時(shí)間。任務(wù)管理器也調(diào)度其他服務(wù)。
  • 數(shù)據(jù)流和過濾器:數(shù)據(jù)流提供了訪問Android傳感器API和其他數(shù)據(jù)的標(biāo)準(zhǔn)接口,過濾器幫助用戶剔除不需要的數(shù)據(jù)。
  • 數(shù)據(jù)日志和數(shù)據(jù)緩存:數(shù)據(jù)日志存放收集的數(shù)據(jù),數(shù)據(jù)緩存為數(shù)據(jù)日志提供臨時(shí)存放功能。
  • 數(shù)據(jù)傳輸器:數(shù)據(jù)傳輸器是一個(gè)通用的文件上傳器,被HealthLogger的其他組件用來上傳數(shù)據(jù)到服務(wù)器。
  • iEpian:是HealthLogger提供的一種簡(jiǎn)易腳本,用來為沒有編程經(jīng)驗(yàn)的醫(yī)療研究員提供控制數(shù)據(jù)采集方式的功能。

因此,用戶可以在沒有編程經(jīng)驗(yàn)的情況下完成數(shù)據(jù)采集器的設(shè)計(jì)。HealthLogger還提供了藍(lán)牙接口以幫助用戶采集其他設(shè)備提供的數(shù)據(jù),比如體重信息和飲食信息。當(dāng)用戶數(shù)據(jù)被收集后,會(huì)以文件形式存放在Apache服務(wù)器,iEpi周期性地檢查新文件,對(duì)數(shù)據(jù)解密并解析,然后按用戶和數(shù)據(jù)采集周期存放到數(shù)據(jù)庫中。由于在室內(nèi)時(shí)GPS提供的位置信息不準(zhǔn)確,為了提高位置信息的準(zhǔn)確性,iEpi定位器采用SaskEPS算法利用接入點(diǎn)位置及信號(hào)強(qiáng)度提高室內(nèi)位置計(jì)算精確度。

4.2 面向病人的醫(yī)療健康網(wǎng)絡(luò)社區(qū)

DiabeticLink[27,33]為糖尿病患者及相關(guān)利益人員提供了一個(gè)多功能的健康網(wǎng)絡(luò)社區(qū),下面將分析其設(shè)計(jì)思路。

4.2.1 背景

目前,在美國,糖尿病影響了8%的人口,建立為糖尿病人服務(wù)的醫(yī)療健康網(wǎng)絡(luò)社區(qū)有助于幫助他們。該網(wǎng)絡(luò)社區(qū)主要提供以下4個(gè)方面的服務(wù):

  • 糖尿病門戶及在線健康社區(qū),主要包括為病人提供論壇、博客等交流醫(yī)療經(jīng)驗(yàn)及感情的服務(wù),還包括匿名交流的服務(wù);
  • 糖尿病追蹤及可視化,包括記錄病人的醫(yī)療數(shù)據(jù)與健康數(shù)據(jù)并生成可視化報(bào)告;
  • 糖尿病風(fēng)險(xiǎn)報(bào)告,使用病人數(shù)據(jù)預(yù)測(cè)患病風(fēng)險(xiǎn),促進(jìn)病人自我管理;
  • 提供建議,為病人提供改善其狀態(tài)的建議,并鼓勵(lì)病人達(dá)成長(zhǎng)期目標(biāo)。

4.2.2 目標(biāo)

設(shè)計(jì)一個(gè)面向病人的醫(yī)療健康網(wǎng)絡(luò)門戶,為患者、患者家屬、護(hù)士、醫(yī)師、制藥公司提供服務(wù)。其中,病人可以利用醫(yī)療健康網(wǎng)絡(luò)社區(qū)交流治療經(jīng)驗(yàn)和疾病信息,學(xué)習(xí)醫(yī)療知識(shí),以更好地了解自己的病情、控制病情發(fā)展;病人家屬可以利用醫(yī)療健康網(wǎng)絡(luò)社區(qū)了解病人疾病、討論治療經(jīng)驗(yàn)、閱讀教育書籍,以提供更好的照顧;護(hù)士需要快速建立起疾病相關(guān)知識(shí),以引導(dǎo)病人積極應(yīng)對(duì)治療。醫(yī)療健康網(wǎng)絡(luò)社區(qū)還提供了以下功能:醫(yī)師在面對(duì)不熟悉的疾病時(shí),需要快速獲取相關(guān)工具和資源的通道;部分醫(yī)療健康網(wǎng)絡(luò)社區(qū)提供匿名的電子健康記錄,醫(yī)學(xué)研究員可以從中挖掘信息;制藥公司可以從醫(yī)療健康網(wǎng)絡(luò)社區(qū)挖掘藥物不良反應(yīng)信息。

4.2.3設(shè)計(jì)

為了滿足多方面的需求,除了提供簡(jiǎn)單的醫(yī)療健康社區(qū)功能外,該系統(tǒng)還包含以下4個(gè)部分。

  • 個(gè)性化病人智能工具:使用數(shù)據(jù)挖掘方法挖掘病人電子病例和病人博客以發(fā)現(xiàn)生活方式、治療和療效的關(guān)系,并為病人提供預(yù)防性建議。
  • 疾病管理工具:記錄患者糖尿病參數(shù)(血糖、血壓、糖化血紅蛋白等)、營養(yǎng)、運(yùn)動(dòng)量、用藥量,并形成可視化報(bào)表,以幫助用戶管理自己的狀況。
  • 社交功能:提供用戶分享經(jīng)驗(yàn)和感情,提出回答問題,尋找情感支撐等功能。
  • 教育功能:提供可信的醫(yī)療文章、研究報(bào)告、健康食譜等內(nèi)容,并為用戶提供知識(shí)搜索引擎。

4.3 個(gè)人體征數(shù)據(jù)收集與處理系統(tǒng)

參考文獻(xiàn)[34]為用戶提供了一個(gè)便于開發(fā)個(gè)人體征分析應(yīng)用的基于Hadoop的框架。

4.3.1 背景

醫(yī)療健康行業(yè)的重心正逐步從醫(yī)療轉(zhuǎn)向預(yù)防[35],而可穿戴醫(yī)療設(shè)備的興起為醫(yī)療健康行業(yè)的轉(zhuǎn)變提供了獨(dú)一無二的機(jī)會(huì)。利用可穿戴醫(yī)療設(shè)備從用戶身上收集生命體征數(shù)據(jù),比如心電圖、體溫、心跳,幫助提早檢測(cè)用戶患病危險(xiǎn)、主動(dòng)預(yù)防、管理健康。

生命體征數(shù)據(jù)包括像體溫、血壓這樣的間隔數(shù)據(jù),也包括像呼吸、心電圖這樣的連續(xù)測(cè)量才有意義的數(shù)據(jù)。前者可以用傳統(tǒng)數(shù)據(jù)庫存放,后者一般采用文件存放。

4.3.2 目標(biāo)

設(shè)計(jì)一個(gè)個(gè)人健康分析系統(tǒng),以便用戶在此之上快速搭架生命體征分析應(yīng)用。系統(tǒng)應(yīng)該提供的服務(wù)包括:體征數(shù)據(jù)接收、數(shù)據(jù)存儲(chǔ)管理、數(shù)據(jù)分析接口、個(gè)性化服務(wù)(發(fā)送用戶服務(wù)數(shù)據(jù)到用戶的智能設(shè)備)??紤]到兩種不同體征數(shù)據(jù)形態(tài),系統(tǒng)應(yīng)該提供統(tǒng)一的處理方式。

4.3.3 設(shè)計(jì)

系統(tǒng)分為5個(gè)部分,如圖2所示。

大數(shù)據(jù)
圖2 u-He althcare 平臺(tái)構(gòu)架

  • 生命體征傳輸:為了提供可拓展性,系統(tǒng)采用符合W3C的SOAP標(biāo)準(zhǔn)傳輸數(shù)據(jù)。
  • 中間服務(wù)層:為了對(duì)用戶提供統(tǒng)一的數(shù)據(jù)形式,系統(tǒng)添加中間服務(wù)層來預(yù)處理數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為符合HL7規(guī)范的數(shù)據(jù),中間服務(wù)層還提供接收體征數(shù)據(jù)、傳送數(shù)據(jù)到處理平臺(tái)、接收處理平臺(tái)結(jié)果并發(fā)送給用戶以及信號(hào)處理的功能(例如將加速度數(shù)據(jù)轉(zhuǎn)換為記步數(shù)據(jù))。
  • 數(shù)據(jù)存儲(chǔ)服務(wù):系統(tǒng)接收中間服務(wù)層的數(shù)據(jù),存放至分布式數(shù)據(jù)庫HDFS中。
  • 分析服務(wù):系統(tǒng)采用Hadoop作為主要的數(shù)據(jù)分析平臺(tái)。

4.4 小結(jié)

在設(shè)計(jì)醫(yī)療健康大數(shù)據(jù)處理平臺(tái)時(shí),必須把數(shù)據(jù)放在優(yōu)先考慮的位置。下面總結(jié)了前文提到的醫(yī)療健康大數(shù)據(jù)平臺(tái)設(shè)計(jì)思路,提出了定義數(shù)據(jù)源、確定數(shù)據(jù)處理方式、分析數(shù)據(jù)流向、設(shè)計(jì)系統(tǒng)的一般步驟。

(1)定義數(shù)據(jù)源

醫(yī)療健康大數(shù)據(jù)的數(shù)據(jù)來源包括結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化的醫(yī)療單位數(shù)據(jù)、個(gè)人健康數(shù)據(jù)和公共健康數(shù)據(jù)。例如醫(yī)療單位的電子病例數(shù)據(jù)、放射信息管理系統(tǒng)數(shù)據(jù),傳感器收集的體溫、脈搏等個(gè)人數(shù)據(jù),公共健康數(shù)據(jù)(包括政府發(fā)布的流感信息、社交媒體信息)等。為了實(shí)現(xiàn)良好的數(shù)據(jù)流,必須首先將平臺(tái)所要收集的信息分類,分析每種數(shù)據(jù)的特點(diǎn),包括:是否是結(jié)構(gòu)化、無結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù);是否需要預(yù)處理;包含何種有用信息。

(2)確定數(shù)據(jù)處理方式

大數(shù)據(jù)的處理方式包括前文提到機(jī)器學(xué)習(xí)、分類、聚類、回歸等。根據(jù)上一步分析得到的數(shù)據(jù)特點(diǎn)和數(shù)據(jù)價(jià)值選擇相應(yīng)的處理方式。比如參考文獻(xiàn)[34]中,為了得到用戶的運(yùn)動(dòng)數(shù)據(jù),需要用戶的記步數(shù)據(jù),而記步數(shù)據(jù)可以通過將源數(shù)據(jù)中的用戶加速度信息經(jīng)過信號(hào)處理獲得。

(3)分析數(shù)據(jù)流向

根據(jù)數(shù)據(jù)源、數(shù)據(jù)處理方法和數(shù)據(jù)結(jié)構(gòu)確定數(shù)據(jù)流方向。iEpi[1]中的各類傳感器數(shù)據(jù)經(jīng)過在手機(jī)端匯總后到達(dá)服務(wù)器,以臨時(shí)文件方式存儲(chǔ),經(jīng)過分析后存放在數(shù)據(jù)庫中,最后提供給用戶挖掘其中的關(guān)系、模式。

(4)設(shè)計(jì)系統(tǒng)

根據(jù)數(shù)據(jù)流的特點(diǎn)和數(shù)據(jù)處理方式選擇現(xiàn)有的大數(shù)據(jù)處理平臺(tái)作為子系統(tǒng),然后設(shè)計(jì)中間系統(tǒng)以連接多個(gè)子系統(tǒng)。

5 醫(yī)療健康大數(shù)據(jù)技術(shù)

5.1 可視化技術(shù)

醫(yī)療可視化技術(shù)一直存在,比如X光、CT、核磁共振、遠(yuǎn)程醫(yī)療等。醫(yī)療可視化的功能在于為病人、醫(yī)生以及利益相關(guān)者提供更深的理解,以幫助其做出更好的決策。

隨著醫(yī)療信息化的到來以及移動(dòng)設(shè)備、社交網(wǎng)絡(luò)的流行,醫(yī)療健康數(shù)據(jù)呈爆發(fā)式增長(zhǎng),醫(yī)生、制藥公司、公共衛(wèi)生機(jī)構(gòu)無法在面對(duì)海量數(shù)據(jù)時(shí)有直觀的了解,需要利用可視化技術(shù)將數(shù)據(jù)以直觀的方式呈現(xiàn)給相關(guān)人員。

5.1.1 分析

醫(yī)療健康大數(shù)據(jù)來源主要包含3個(gè)方面[6]:個(gè)人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個(gè)人健康數(shù)據(jù)方面,數(shù)據(jù)來源主要是傳感器信息和在線信息。使用可視化技術(shù)處理個(gè)人健康數(shù)據(jù)、個(gè)人疾病數(shù)據(jù)可以幫助用戶更容易地實(shí)現(xiàn)健康管理、疾病管理。處理個(gè)人飲食、運(yùn)動(dòng)數(shù)據(jù)可以幫助用戶直觀了解身體狀況,有助于用戶保持身體健康。在醫(yī)療數(shù)據(jù)方面,數(shù)據(jù)來源主要是醫(yī)學(xué)研究數(shù)據(jù)、電子病例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學(xué)知識(shí)的速度并將其用到病人的治療上,醫(yī)療可視化將為醫(yī)生提供直觀了解新知識(shí)的機(jī)會(huì)。人口健康數(shù)據(jù)以及疾病監(jiān)控?cái)?shù)據(jù)可以通過可視化技術(shù)幫助用戶了解人口健康狀況、疾病爆發(fā)狀況。

5.1.2 挑戰(zhàn)

由于需要處理大量數(shù)據(jù)以提供可視化的分析報(bào)告,可視化服務(wù)需要較長(zhǎng)時(shí)延才能提供。當(dāng)作為臨床決策支持系統(tǒng)時(shí),醫(yī)師希望在短時(shí)間內(nèi)獲得服務(wù),這對(duì)可視化服務(wù)提供者提出了實(shí)時(shí)性服務(wù)的挑戰(zhàn)。

5.2 個(gè)性化醫(yī)療

考慮到患者間存在很大的差異,不存在針對(duì)一種病癥的適應(yīng)所有情況的治療方案[36],實(shí)際上,研究人員一直在尋找針對(duì)病人的治療經(jīng)歷、基因信息、遺傳信息、環(huán)境信息、生活方式等信息給予個(gè)性化治療的方案[37]。鑒于人類基因工程的原因,人類可以從基因角度給予患者個(gè)性化治療。

5.2.1 分析

個(gè)性化治療一般使用以下工具:家族健康歷史,利用家族健康歷史整合遺傳信息可以有效幫助預(yù)測(cè)疾病,進(jìn)行主動(dòng)的預(yù)防性措施;基因信息,指利用基因信息及其衍生物信息,包括RNA、蛋白質(zhì)、代謝產(chǎn)物信息進(jìn)行疾病預(yù)測(cè)和個(gè)性化治療,然而,基因檢測(cè)費(fèi)用高昂[38],基因多態(tài)性的特質(zhì)可能導(dǎo)致評(píng)估錯(cuò)誤及預(yù)測(cè)錯(cuò)誤,導(dǎo)致了通過基因檢測(cè)提供個(gè)性化治療難以獲得較高的性價(jià)比;臨床決策支持系統(tǒng),其提供了一個(gè)利用所有信息為患者提供個(gè)性化治療方案的機(jī)會(huì)。

5.2.2 挑戰(zhàn)

個(gè)性化醫(yī)療的挑戰(zhàn)主要在于部分用于疾病預(yù)測(cè)、療效預(yù)測(cè)的數(shù)據(jù)源難以獲得。首先,平價(jià)的個(gè)人基因分析技術(shù)應(yīng)該被提上日程;其次,用戶不愿意提交個(gè)人醫(yī)療數(shù)據(jù)的部分原因是擔(dān)心隱私泄露[39],這就對(duì)醫(yī)療數(shù)據(jù)提供商的安全和隱私保護(hù)提出了要求。

6 結(jié)束語

本文首先介紹了大數(shù)據(jù)概念、特點(diǎn)與處理平臺(tái),之后分析了醫(yī)療健康行業(yè)的數(shù)據(jù)來源與特點(diǎn),然后討論了利用大數(shù)據(jù)技術(shù)應(yīng)對(duì)醫(yī)療健康行業(yè)挑戰(zhàn)的例子,最后介紹了醫(yī)療健康大數(shù)據(jù)系統(tǒng)與關(guān)鍵技術(shù)。目前醫(yī)療健康大數(shù)據(jù)還處于初期發(fā)展階段,但是它已經(jīng)展現(xiàn)了改變醫(yī)療服務(wù)的潛力。醫(yī)療健康服務(wù)提供商利用大數(shù)據(jù)分析技術(shù)可以從臨床數(shù)據(jù)、研究數(shù)據(jù)、個(gè)人健康數(shù)據(jù)、公共健康數(shù)據(jù)中挖掘潛在的關(guān)系,為臨床決策、公共衛(wèi)生、個(gè)人健康提供幫助。將來,醫(yī)療健康大數(shù)據(jù)將會(huì)快速地發(fā)展。目前,醫(yī)療健康大數(shù)據(jù)還面臨著諸多挑戰(zhàn),隱私問題關(guān)系到用戶的數(shù)據(jù)不會(huì)被用作惡意用途,數(shù)據(jù)安全和標(biāo)準(zhǔn)化需要成立專門的機(jī)構(gòu)來管理。然而,隨著技術(shù)的發(fā)展,醫(yī)療技術(shù)和大數(shù)據(jù)技術(shù)的結(jié)合將更好地為人類健康提供服務(wù)。

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-08-17 09:46:45

大數(shù)據(jù)

2016-11-01 11:53:48

醫(yī)療 大數(shù)據(jù)

2017-07-17 11:12:07

大數(shù)據(jù)醫(yī)療戴爾

2017-07-03 15:18:10

戴爾生態(tài)醫(yī)療

2017-01-07 11:45:43

醫(yī)療健康大數(shù)據(jù)虛擬化

2016-11-08 09:24:34

2009-12-16 17:36:02

2016-11-01 15:42:17

醫(yī)療健康大數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn) 數(shù)據(jù)挖掘

2020-12-25 13:51:49

大數(shù)據(jù)醫(yī)療大數(shù)據(jù)

2016-12-02 09:13:01

2015-05-11 15:42:32

阿里云大數(shù)據(jù)

2015-08-25 10:32:07

健康大數(shù)據(jù)

2017-06-30 10:36:27

Linux系統(tǒng)分析工具

2009-07-06 17:40:05

JSP HTTP服務(wù)器

2009-10-12 12:46:55

Linux內(nèi)核SCSI IO

2017-07-14 14:35:27

Linux中斷系統(tǒng)

2015-09-11 11:33:21

大數(shù)據(jù)百科分析

2022-01-04 18:40:54

數(shù)據(jù)模型波動(dòng)

2009-07-31 11:30:05

光纜線路監(jiān)測(cè)

2009-01-11 20:34:58

2009系統(tǒng)分析師大綱
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)