大數(shù)據(jù)疑難雜癥探秘
面對多達(dá)250TB的數(shù)據(jù)集,紐約州立大學(xué)的研究人員用大規(guī)模硬件升級、以及使用基于R統(tǒng)計語言分析技術(shù)的方式,找尋解開疑難雜癥病因的密碼。
紐約州立大學(xué)(SUNY)布法羅分校是全球領(lǐng)先的多發(fā)性硬化癥(Multiple Sclerosis)研究中心之一。在這里,基于大數(shù)據(jù)的分析正在幫助研究人員找尋潛在病因和治療方法,以幫助患者縮短治愈周期。
目前多發(fā)性硬化癥的病因尚未十分明確,但是業(yè)內(nèi)普遍認(rèn)為,多發(fā)性硬化癥是由于病毒和基因缺陷等因素共同導(dǎo)致的,同時可能還與陽光和吸煙等環(huán)境因素有關(guān)。Murali Ramanathan博士是紐約州立大學(xué)研究中心數(shù)據(jù)密集發(fā)現(xiàn)創(chuàng)新的聯(lián)執(zhí)主任。他們開發(fā)了名為AMBIENCE的技術(shù),這一技術(shù)能夠讓研究人員對多遺傳變異——單核苷酸多態(tài)性(SNP)與增加患者罹患多發(fā)性硬化癥風(fēng)險的環(huán)境因素之間的交互作用展開更為高效地搜索。
用于這一多變量研究的數(shù)據(jù)集容量已超過250TB。同時,由于研究人員試圖發(fā)現(xiàn)數(shù)千個遺傳因素與環(huán)境因素之間的重大交互作用,因此數(shù)據(jù)分析需要更加強大的計算能力。在這項研究中,有兩個主要障礙需要被克服:即對龐大數(shù)據(jù)集進(jìn)行處理,并利用這些數(shù)據(jù)集創(chuàng)建復(fù)雜而易于定義的分析模型。研究人員不僅希望能夠發(fā)現(xiàn)哪些個體變量更為重要,同時還希望能夠發(fā)現(xiàn)哪些綜合變量更為關(guān)鍵。
需要在商用硬件上運行抽樣數(shù)據(jù)的算法幾乎要花上一周的時間才能得到結(jié)果。研究人員很快就發(fā)現(xiàn),要想對全部數(shù)據(jù)進(jìn)行運算還要花上數(shù)周的時間。過長的運算時間可能會導(dǎo)致一些額外的問題,比如算法調(diào)整、數(shù)據(jù)變更,等等。
為了應(yīng)對這些挑戰(zhàn),研究人員選擇創(chuàng)建一個整合了IBM Netezza分析數(shù)據(jù)庫工具和Revolution Analytics公司的商業(yè)版R語言的分析架構(gòu)。Netezza可以將處理能力提升100倍,將分析所需要的時間由27.2小時縮短至11.7分鐘。并行處理也非常關(guān)鍵,但這僅僅是一個開始。與此同時,一些分析操作在數(shù)據(jù)移出磁盤時就已經(jīng)開始執(zhí)行,而不是僅在主處理器上進(jìn)行全部的處理工作,因此它們能夠更快、更高效地進(jìn)行分析。
在R統(tǒng)計語言的基礎(chǔ)上,Revolution Analytics公司允許研究人員快速而方便地在模型中添加和移除變量,無需編寫數(shù)百行代碼。同時,他們還允許團隊使用醫(yī)療記錄、實驗室數(shù)據(jù)、核磁共振成像(MRI)掃描和患者調(diào)查等數(shù)據(jù)集變量和大量因變量,以對這些變量中的交互作用展開研究。
過去,紐約州立大學(xué)的研究團隊必須重新編寫整個算法?,F(xiàn)在,得益于新的系統(tǒng),科研人員可以自行輕松地調(diào)整算法。借助于新的解決方案,研究人員能夠使用新的算法,添加多變量和數(shù)據(jù)集進(jìn)程。這些在以前都是不可想象的。得益于這些成就,研究人員目前正在轉(zhuǎn)向更為復(fù)雜的研究,朝著解開多發(fā)性硬化癥背后的神秘機制又向前邁進(jìn)了一步。