5個大數(shù)據(jù)實踐項目
這可能是因為大數(shù)據(jù)已為那些擁抱大數(shù)據(jù)的企業(yè)帶來了實際的收益。而且,大數(shù)據(jù)分析也正在從根本上改變著一些不同的領(lǐng)域,如藥物研究、市場營銷和產(chǎn)品開發(fā)等。
像智慧城市和無人駕駛汽車這樣的用例的研究和發(fā)展,也是為了滿足我們生活中的各種需求而存在。而大數(shù)據(jù)技術(shù)的未來可能也是如此——逐步發(fā)展以滿足人們的需求,但目前大數(shù)據(jù)還沒有發(fā)展到它應(yīng)該發(fā)展的階段。
Infobright的首席執(zhí)行官Don DeLoach說:“技術(shù)上的可行性和實際執(zhí)行力存在很大的差別。我們來看看拉動大數(shù)據(jù)的兩種趨勢,即物聯(lián)網(wǎng)和機對機通信,這兩種趨勢都已經(jīng)存在了很長時間,而隨著傳感器越來越復(fù)雜、價格逐漸降低,以及各種無線技術(shù)的選擇越來越多樣化,理論上的技術(shù)可行性正在逐漸變得更富實踐性。”
我們很多雄心勃勃的大數(shù)據(jù)夢想目前都還沒有進入到實際的應(yīng)用階段,比如,我們研發(fā)無人駕駛汽車的技術(shù)已經(jīng)有了,但卻不具備實際的基礎(chǔ)設(shè)施的支持而真正得到量產(chǎn)、普及。即使這樣,無人駕駛汽車仍然引人注目。
DeLoach說:“如果你想探知大數(shù)據(jù)究竟產(chǎn)生了什么樣的影響,那么你看投資到大數(shù)據(jù)技術(shù)上的資金就可以了。因為投資回報率(ROI)最高的領(lǐng)域,也是越吸引人們?nèi)ネ顿Y的領(lǐng)域。”
在醫(yī)療、車載通信技術(shù)和線上營銷等領(lǐng)域大數(shù)據(jù)投資回報率已日趨清晰,但是這并不意味著我們最終會創(chuàng)造出無人駕駛汽車和超級智慧城市,而是說,目前大數(shù)據(jù)技術(shù)在這些領(lǐng)域的發(fā)展還不足以達到實際應(yīng)用的程度,從而吸引大規(guī)模的投資。
本文描述了五個橫跨實際應(yīng)用和技術(shù)可行界限的大數(shù)據(jù)項目,這些項目,或那些與之類似的項目能夠真正地給我們的生活帶來變化,讓生活變得更加美好。
人類基因組計劃變革了醫(yī)療行業(yè)
20世紀90年代初,人類基因組計劃開始實行,但那時我們并沒有意識到它實際就是一種大數(shù)據(jù)[注]項目。2003年,一張完整的基因組圖繪制完畢,一些大數(shù)據(jù)運動的先驅(qū)者已經(jīng)開始將大數(shù)據(jù)的理念在技術(shù)領(lǐng)域慢慢傳開。
由于人類基因組這一早期的成功實踐,因此醫(yī)療和制藥是最早采用大數(shù)據(jù)技術(shù)和工具的兩個領(lǐng)域也就不足為奇了。
人類基因組計劃在一定程度上也闡明了大數(shù)據(jù)的摩爾定律。只要花100美元(或者更少)就可以從一些網(wǎng)站上,如23andMe購買到個人的局部基因組圖。而且對于推動降低整個人類基因組圖繪制的價格的行動也在進行中,其價格每年都在降低?,F(xiàn)在,繪制一個人整個的基因組圖的價格在1000美元到5000美元之間,而在2007年,它的價格最少也是100萬美元。
一些初創(chuàng)公司如Life Technologies(最近被Thermo Fisher Scientific收購)和InVitae正在這一領(lǐng)域努力,以使每個人都能夠擔(dān)負起基因組圖的繪制。同時,這也將引導(dǎo)關(guān)于一些疾病,如癌癥、風(fēng)濕性關(guān)節(jié)炎的個性化治療。
埃默里大學(xué)醫(yī)院和IBM共同創(chuàng)建未來ICU病房
目前,埃默里大學(xué)醫(yī)院(Emory University Hospital,簡稱埃默里)使用的是IBM和EME醫(yī)療電子產(chǎn)品公司的軟件產(chǎn)品以支持一項研究計劃,該計劃的目標是通過對實時數(shù)據(jù)流的分析對那些重癥病人實行先進的、可預(yù)測性的醫(yī)療保健。
埃默里正在測試一個新的系統(tǒng),該系統(tǒng)能夠識別出生理學(xué)數(shù)據(jù)中的模型,以便在病人出現(xiàn)危險情況時及時提醒醫(yī)生。在傳統(tǒng)的ICU(重癥病房)中,病人床邊的顯示器上顯示一堆不同的醫(yī)療數(shù)據(jù)流,包括心臟機能、呼吸、腦電波和血壓。這些實時的生命體征會以波狀或數(shù)字的形式傳輸出來,并顯示在每個病床邊上的電腦屏幕上。而現(xiàn)在,醫(yī)生和護士可以快速處理并分析這些數(shù)據(jù)信息以制定合理的治療方案。
事實上,數(shù)據(jù)信息的任何一個小偏差都是一個預(yù)警信號,而這些小偏差往往會被人忽略。
埃默里目前正在試行該系統(tǒng),同時采用EME的BedMasterEX,IBM的InfoSphere Streams和埃默里的分析引擎來收集和分析病人的實時數(shù)據(jù)。這一新的系統(tǒng)可以使醫(yī)生們更快地獲取、分析和關(guān)聯(lián)醫(yī)療數(shù)據(jù)信息,而且速度要比他們幾年前夢想的速度還要快。
埃默里緊急護理部門主管Tim Buchman博士說:“是否能夠正確評估和分析實時醫(yī)療數(shù)據(jù)往往決定著一個病人的生死。通過這一新的系統(tǒng)我們可以分析成千上萬個流數(shù)據(jù)點,并分析這些數(shù)據(jù)信息,以制定更好的醫(yī)療計劃,清楚地知道哪些病人我們需要實時關(guān)注,以及怎樣治療。它能夠讓我們的醫(yī)生在重癥護理過程中更有效地治療病人。”
軟件識別的數(shù)據(jù)模型可以顯示一些嚴重的并發(fā)癥,如敗血癥、心力衰竭、肺炎等,識別出這些數(shù)據(jù)模型,醫(yī)生可以得出實時的醫(yī)療診斷,并立刻采取醫(yī)療措施。
賓夕法尼亞州的Salis Lab幫助研究員設(shè)計創(chuàng)造合成生物
Howard M. Salis是美國賓夕法尼亞州立大學(xué)化工學(xué)院的一名助理教授,他自學(xué)了計算機編程,并創(chuàng)建了一個高性能的計算機門戶網(wǎng)站——Salis Lab,該網(wǎng)站旨在幫助那些從事合成生物和代謝工程領(lǐng)域的研究員使用計算方法設(shè)計合成生物。
Salis說:“微生物是世界上最好的化學(xué)家,如果我們能了解它們,并很好地利用它們的話,相信我們會生產(chǎn)出完整的多樣性的產(chǎn)品。而在過去,基因工程的工作更多是修改、實驗和錯誤,相信我們可以改變這些狀況。”
換句話說,基因工程更像是生物的自然選擇——隨機、緩慢,但在基金工程中也分為很多小的主題。
Salis指出:“而另一方面,合成生物更多的是一種工程學(xué)科。我們想要量化一切,我們要建立生物物理模型,這樣當(dāng)各種方式的DNA變異發(fā)生時,我們可以用這些模型對其產(chǎn)生的結(jié)果進行量化預(yù)測。”
合成生物需要一種極其復(fù)雜的算法,所以這個項目托管在了亞馬遜AWS彈性計算云(Elastic Compute Cloud)上,AWS彈性計算云具有良好的伸縮性。一個短的DNA序列,其可能變異的數(shù)量要比宇宙中原子的數(shù)量多得多。Salis Lab目前發(fā)展得很好,其中包含了由2000個生物技術(shù)研究員在過去兩年中通過該門戶網(wǎng)站設(shè)計的超過3萬個合成DNA序列。
這一工作采用的應(yīng)用種類就像研究員的想法一樣多種多樣,目標就是找出實現(xiàn)微生物工程的一種方式,這種方式需要采用的燃料要比采用化石燃料更加經(jīng)濟。
更神奇的是研究員們所挖掘的那種預(yù)測能力,Salis說:“利用我們的模型,我們可以實際地預(yù)測演變,我們可以模仿DNA變異的影響來預(yù)測最有可能出現(xiàn)的演變。”
最終,研究員可以開發(fā)那些抗演變的微生物,由此產(chǎn)生的一些可能的用例的影響將是非常驚人的。世界上存在著數(shù)十億的微生物,而且每一個微生物中都有其各自的基因組,我們可以利用這些基因組創(chuàng)造價值。但是,給這些基因組排序?qū)⑹且粋€非常巨大的大數(shù)據(jù)挑戰(zhàn),首先要量化,然后分類,最后預(yù)測是否能夠以一種有效的方式組合它們。而這一挑戰(zhàn)也是Salis這樣的研究員迫切希望解決的。
喬治城大學(xué)的Global Insight Initiative幫助解決“大問題”
喬治城大學(xué)(Georgetown University)的Global Insight Initiative從世界各地獲取數(shù)據(jù),并從這些數(shù)據(jù)中洞悉設(shè)備趨勢。Global Insight Initiative首先從各地獲得相關(guān)數(shù)據(jù),然后組織整理,并對這些數(shù)據(jù)進行分析,最后從中找到解決復(fù)雜問題的答案。
喬治城大學(xué)Global Insight Initiative主管J.C. Smart說:“這個世界就是一個復(fù)雜的系統(tǒng),有70億的人在致力于獲取或爭奪資源。同時,世界上有4萬個城市、1200萬英里的道路,以及8億輛汽車等等。弄清楚這一切如何互相交互、互相影響,并了解他們彼此之間是如何依靠和發(fā)展的,將是一個非常復(fù)雜的事情,會產(chǎn)生一個非常復(fù)雜的系統(tǒng),而且這一系統(tǒng)還只是眾多系統(tǒng)中的一個。這就是大數(shù)據(jù),不過更重要的是,這個世界就是一個大的知識庫。”
Global Insight Initiative需要數(shù)據(jù)整合工具以管理數(shù)據(jù)量,從而豐富他們的知識庫。Smart說:“這個知識庫可以給出一個關(guān)于我們正在討論的事物的估計值,這些事物包含了上萬億個事物和上千億種關(guān)系。”
Kapow 軟件公司和喬治城大學(xué)的Global Insight Initiative共同合作,以實現(xiàn)大批量數(shù)據(jù)整合的自動化來擴展Global Insight Initiative的知識庫。這個知識庫包含了來自全球162個國家覆蓋42種不同語言的2萬多個web源碼。實現(xiàn)數(shù)據(jù)整合的自動化之前(+微信關(guān)注網(wǎng)絡(luò)世界),還需要大量的人力資源去尋找、獲取,并整理文檔和其他web構(gòu)件。
接下來面臨的問題是:如何尋找一個合適的時間或資源來分析這些收集來的數(shù)據(jù)信息?
Global Insight Initiative使用Kapow公司的軟件創(chuàng)建了自動化數(shù)據(jù)集成流,這個集成流你可以想象成一個信息收集機器人,被稱為infobot。部署之后,這些infobot可以讓每一個單一用戶(這些用戶不需要有編程技能)在任何時間運行和管理成千上萬的自動數(shù)據(jù)整合應(yīng)用,以便對不同的數(shù)據(jù)有一個完整的考量。
目前,Global Insight Initiative將致力于為那些非常困難的“大問題”尋找答案,如我們?nèi)绾胃玫睦盟Y源?我們怎樣縮小疾病傳播的范圍?我們?nèi)绾喂芾黼娏Ψ峙?如何合理地安排醫(yī)院或診所的位置,以盡可能地方便更多的人?以及當(dāng)災(zāi)難來臨時,我們?nèi)绾文軌虮M快的找到醫(yī)療資源?
LA ExpressPark泊車系統(tǒng)幫助減少交通擁堵和環(huán)境污染
美國洛杉磯的市中心經(jīng)過十年的快速發(fā)展,從最初的貧民窟變成了娛樂和商業(yè)中心。不過在快速發(fā)展的同時,這個地區(qū)也出現(xiàn)了一些問題,比如道路交通混亂、擁堵嚴重。如果司機想要尋找一個泊車位,他們得在這個街區(qū)至少要轉(zhuǎn)悠30分鐘才能找到,有時甚至更久。
更糟糕的是,街道上的泊車費似乎與需求并不匹配。在特定區(qū)域內(nèi),街道泊車的價格一般都是統(tǒng)一的,有時候和幾個街區(qū)之外的車庫泊車位是一樣的,或者更便宜一些。所以,人們肯定不愿意開過幾個街區(qū)將車停在車庫里,尤其是他們開了很長時間的車又很累的時候,況且停在街上還比停在車庫里的費用要便宜。美國加州大學(xué)洛杉磯分校的教授Donald Shoup曾做過一項調(diào)查研究,他發(fā)現(xiàn)市中心74%的交通擁堵都是由于司機在街上找泊車位造成的。
為了平衡供求關(guān)系,并減少道路交通擁堵,洛杉磯市請施樂公司為其開發(fā)LA ExpressPark泊車系統(tǒng)。施樂升級了泊車位上用來檢測空間大小的傳感器,然后為了更好地平衡供需,施樂開發(fā)了一個基于算法的動態(tài)價格機制來提高泊車率較高街區(qū)的泊車價格(目的是鼓勵司機減少這一街區(qū)的泊車時間),同時降低泊車較低街區(qū)的泊車價格(鼓勵司機多在這些街區(qū)泊車)。
筆者是后來搬到洛杉磯的,作為一個外來人員,我非常奇怪為什么洛杉磯人為了找停車位寧愿在這個街區(qū)多繞兩圈,也不愿意把車停在兩個街區(qū)以外,不愿意多走五分鐘的路。我想如果人們知道兩個街區(qū)之外停車更方便、更便宜,相信他們也會愿意把車停在那里,而我自己從來沒有泊車問題的困擾。
為了引導(dǎo)司機們到空的停車區(qū)域,施樂又部署了一些新的、多樣化的信息提示,這些信息提示會隨著停車環(huán)境的變化自動更新。同時,這些信息可以在智能手機App,如Parker、Park Me和洛杉磯城市網(wǎng)站上共享。很快,施樂將數(shù)據(jù)放到汽車導(dǎo)航系統(tǒng)中,可以自動引導(dǎo)司機到距離其目的地最近的空車位停車,甚至還可以自動支付停車費。
這一系列的措施實施之后,成果還是不錯的。那些不是很繁忙的街區(qū)被利用起來,即使整體的使用率并不高,但是比以前已經(jīng)提高了2%,而洛杉磯市也開始體會到其中的好處。
而且,交通擁堵的問題也有所緩解,導(dǎo)致了更多的司機來了解和使用LA ExpressPark系統(tǒng)。施樂公司資深副總裁兼管理總監(jiān)David Cummins說:“停車管理員現(xiàn)在可以很直觀,并完整地看到街道上發(fā)生的一切,并通過數(shù)據(jù)分析為所有的事情制定決策。這一系統(tǒng)運用了多個供應(yīng)商的技術(shù),包括違反票處理、系統(tǒng)維護、數(shù)據(jù)收集等等這些技術(shù)都服務(wù)于泊車管理。以這種方式更好地利用這些數(shù)據(jù)來提高效率,并創(chuàng)造出額外的利益。”
Cummins指出,這個項目產(chǎn)生的早期成果證明了數(shù)據(jù)決策能夠幫助改善司機的行為,同時也能夠減少交通擁堵和環(huán)境污染。