美國(guó)癌癥協(xié)會(huì)擁抱大數(shù)據(jù)技術(shù)
譯文美國(guó)癌癥協(xié)會(huì)很快發(fā)現(xiàn),其IT機(jī)構(gòu)也需要在此次調(diào)整過(guò)程中進(jìn)行升級(jí)。新的中央式Siebel數(shù)據(jù)庫(kù)當(dāng)中包含有4000個(gè)對(duì)象與150套表格,但負(fù)責(zé)承載的惠普UX硬件已經(jīng)擁有長(zhǎng)達(dá)八年的運(yùn)行歷史。整理一份報(bào)告平均需要耗費(fèi)四個(gè)小時(shí),這意味著用戶需要在報(bào)告處理的同時(shí)、利用另一臺(tái)計(jì)算機(jī)處理其它事務(wù)以避免時(shí)間浪費(fèi)。
2013年3月,美國(guó)癌癥協(xié)會(huì)聘請(qǐng)Blake Sanders加入進(jìn)來(lái),而他確實(shí)不負(fù)眾望、帶來(lái)了他在商業(yè)分析與數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域積累二十年所獲得的寶貴經(jīng)驗(yàn)。作為癌癥協(xié)會(huì)全新職稱(chēng)“架構(gòu)與數(shù)據(jù)管理副總裁”的首位人選,他的工作是幫助該協(xié)會(huì)為即將到來(lái)的大數(shù)據(jù)未來(lái)做好準(zhǔn)備。他決定從數(shù)據(jù)倉(cāng)庫(kù)設(shè)備起步,首先解決速度與數(shù)據(jù)延遲問(wèn)題,并以此為基礎(chǔ)以見(jiàn)招拆招的方式逐步應(yīng)對(duì)數(shù)據(jù)復(fù)雜性難題。
“我們經(jīng)歷了相當(dāng)標(biāo)準(zhǔn)的招標(biāo)流程,”Sanders回憶道。“我們以剛性為中心作出了一系列規(guī)劃。相關(guān)各方都收到了我們發(fā)出的模板,其中包含有關(guān)于當(dāng)前狀況與待解決問(wèn)題的描述,要求他們根據(jù)實(shí)際情況進(jìn)行填寫(xiě)。”Sanders和他的團(tuán)隊(duì)在收集到充足的信息之后,再將這份標(biāo)書(shū)發(fā)送給四家供應(yīng)商:甲骨文/Exadata、微軟、IBM/Netezza以及Teradata。
提交的問(wèn)題包括“貴方的平臺(tái)是否允許用戶集成這些特定ETL(即提取、轉(zhuǎn)換與加載)工具?”等。這些問(wèn)題與其它系統(tǒng)、數(shù)據(jù)建模軟件、維護(hù)能力與維護(hù)機(jī)制、人員要求以及同ETL之外其它工具集的集成息息相關(guān)。經(jīng)過(guò)幾個(gè)月的調(diào)查,Sanders與他的團(tuán)隊(duì)充分評(píng)估并比對(duì)了各廠商給出方案。最終,他們將概念驗(yàn)證供應(yīng)商人選壓縮為兩家:Teradata與Netezza。
“我們很清楚,我們無(wú)法同時(shí)應(yīng)對(duì)四套概念驗(yàn)證項(xiàng)目,”Sanders表示。“事實(shí)上沒(méi)有哪家廠商能夠完全解決我們的全部問(wèn)題,而這正是我們需要驗(yàn)證的重點(diǎn):最終解決方案必須要給我們的運(yùn)營(yíng)狀態(tài)帶來(lái)顯著提升。”其中包括硬件、軟件、安裝以及服務(wù),整個(gè)項(xiàng)目的預(yù)算接近100萬(wàn)美元。
“整理一份報(bào)告平均需要耗費(fèi)四個(gè)小時(shí),這意味著用戶需要在報(bào)告處理的同時(shí)、利用另一臺(tái)計(jì)算機(jī)處理其它事務(wù)以避免時(shí)間浪費(fèi)。”
Sanders曾于2006年在他的上一份工作中安裝過(guò)Netezza(如今已經(jīng)被正式更名為IBM Pure Data System for Analytics),當(dāng)時(shí)的實(shí)際結(jié)果令他非常滿意。不過(guò)出于謹(jǐn)慎的工作態(tài)度,他仍然全心全意監(jiān)督著Netezza系統(tǒng)在美國(guó)癌癥協(xié)會(huì)當(dāng)中的實(shí)際表現(xiàn)。
#p#
意義重大的概念驗(yàn)證工作
雖然美國(guó)癌癥協(xié)會(huì)的各位捐助者們理解技術(shù)方案在研究支持領(lǐng)域的重要意義,但在他們的固有印象當(dāng)中癌癥協(xié)會(huì)中的技術(shù)主體應(yīng)該由醫(yī)生及生物實(shí)驗(yàn)室來(lái)充當(dāng)、而非計(jì)算機(jī)設(shè)備,Sanders表示。“人們往往認(rèn)為用于此類(lèi)技術(shù)升級(jí)的捐贈(zèng)款項(xiàng)其實(shí)無(wú)甚價(jià)值。”
要成為一位出色的管理者,他需要證明計(jì)算機(jī)能夠帶來(lái)比前期投入更為可觀的實(shí)際回報(bào),因此全程追蹤整體持有成本以及投資回報(bào)率就變得至關(guān)重要。此外,他還希望幫助科研人員擺脫苦等數(shù)據(jù)結(jié)果的舊日噩夢(mèng),轉(zhuǎn)而幫助他們隨時(shí)輕松運(yùn)用自己需要的數(shù)據(jù)。
Sanders提出了他的概念驗(yàn)證流程以及目標(biāo):
1. 明確支持業(yè)務(wù)需求
2. 建立并追蹤成功指標(biāo)
3. 充分發(fā)掘產(chǎn)品特性
4. 區(qū)分宣傳效果(營(yíng)銷(xiāo)宣傳)與實(shí)際水平
5. 檢查“特殊用例”
6. 嘗試證明投資回報(bào)水平
考慮到未來(lái)將很難重新回歸現(xiàn)有方案并額外添加技術(shù)元素,Sanders需要在快速解決現(xiàn)有問(wèn)題的同時(shí)、為未來(lái)三到五年的預(yù)期需求構(gòu)建好實(shí)現(xiàn)基礎(chǔ)。
對(duì)于生產(chǎn)效率提升這樣的模糊概念來(lái)說(shuō),我們往往很難給出一個(gè)具體的量化數(shù)字,但Sanders一直在實(shí)際層面給出結(jié)論,例如整個(gè)機(jī)構(gòu)每周能夠借此節(jié)約多少小時(shí)的工作時(shí)長(zhǎng)。效率的提升可能允許管理層削減員工數(shù)量,或者在無(wú)需增加人手的前提下建立新的研究項(xiàng)目。這些細(xì)節(jié)都將被匯總為一套圖表,用于標(biāo)示累積性成本節(jié)約以及特殊用例。
競(jìng)爭(zhēng)仍在繼續(xù)
Netezza與Teradata兩家公司于同一周在美國(guó)癌癥協(xié)會(huì)的數(shù)據(jù)中心分別建立起自己的系統(tǒng)。Sanders不希望任何數(shù)據(jù)被傳輸至內(nèi)部環(huán)境之外,因此他無(wú)法借力于云服務(wù)以及遠(yuǎn)程測(cè)試。除此之外,全部調(diào)整工作都由他的團(tuán)隊(duì)親手完成——而非供應(yīng)商方負(fù)責(zé)。
美國(guó)癌癥協(xié)會(huì)目前管理的數(shù)據(jù)來(lái)自7600萬(wàn)個(gè)源頭(其中包括捐助者、志愿者以及工作人員等等),且每年由超過(guò)6000次慈善活動(dòng)處收集得出。根據(jù)Sanders的說(shuō)法,其整體數(shù)據(jù)集規(guī)模“卻出乎意料地小,當(dāng)前數(shù)據(jù)僅為2.5TB。”
Sanders從全部150套表中提取了約20套(包含4000個(gè)對(duì)象)以構(gòu)建測(cè)試數(shù)據(jù)集,并把這套數(shù)據(jù)集同時(shí)交付給兩家供應(yīng)商。與此同時(shí),數(shù)據(jù)的籌備過(guò)程也相當(dāng)于對(duì)未來(lái)全部數(shù)據(jù)遷移至新系統(tǒng)進(jìn)行的一次預(yù)演。
相較于將現(xiàn)有內(nèi)部IT團(tuán)隊(duì)分別拆分為Netezza組與Teradata組,Sanders更傾向于引導(dǎo)全部團(tuán)隊(duì)成員同時(shí)使用這兩套系統(tǒng),這樣每個(gè)人都能夠在后期評(píng)估過(guò)程中切身體會(huì)到二者之間的差別。兩套系統(tǒng)在評(píng)估流程中的每個(gè)執(zhí)行步驟都完全一致,這樣Sanders才能保證以公平公正的方式比較出雙方的優(yōu)劣。
整個(gè)概念驗(yàn)證流程持續(xù)了大約六周。這兩套系統(tǒng)分別需要載入數(shù)據(jù)、提供功能及管理細(xì)節(jié)信息,并執(zhí)行查詢(xún)優(yōu)化。雙方都運(yùn)行有總計(jì)5套小型、中型以及大型查詢(xún)?nèi)蝿?wù),同時(shí)監(jiān)控哪些表正處于使用狀態(tài)。Sanders給此次評(píng)估項(xiàng)目想出了一條頗具“快餐”風(fēng)格的口號(hào):“更快、更新、更好。”
Sanders和他的癌癥協(xié)會(huì)技術(shù)團(tuán)隊(duì)構(gòu)建了一套腳本來(lái)完成日常工作,其中包括設(shè)置數(shù)據(jù)庫(kù)、導(dǎo)入數(shù)據(jù)集、評(píng)估管理工具可用性以及測(cè)試響應(yīng)時(shí)間等等。在測(cè)試的同時(shí),腳本還會(huì)就索引及匯聚任務(wù)對(duì)系統(tǒng)作出調(diào)整。除了現(xiàn)有任務(wù)之外,他們還多花了一個(gè)禮拜來(lái)測(cè)試一部分雖然目前尚不存在、但未來(lái)也許必要的使用情況。
生產(chǎn)效率的提升可謂立竿見(jiàn)影。查詢(xún)時(shí)間由過(guò)去陳舊系統(tǒng)上的平均四個(gè)小時(shí)縮短到了新系統(tǒng)上的約四十秒。沒(méi)錯(cuò),速度較原先提升了370倍。相較于原本每周只能運(yùn)行1000份報(bào)告,如今他們能夠在同樣的周期當(dāng)中運(yùn)行4990份報(bào)告。從員工工作時(shí)間節(jié)約的角度看,單此一項(xiàng)每周就幫助癌癥協(xié)會(huì)節(jié)省下11萬(wàn)9700美元。
而且用戶們赫然發(fā)現(xiàn),自己能夠以前所未有的方式輕松處理報(bào)告內(nèi)容——正如他們處理普通電子表格那樣。種種未曾出現(xiàn)過(guò)的輕松方式讓用戶隨意查看數(shù)據(jù)內(nèi)容。Sanders指出,這種速度方面的提升甚至帶來(lái)了行為模式的轉(zhuǎn)變,用戶現(xiàn)在能夠在幾秒之內(nèi)從多種角度出發(fā)針對(duì)數(shù)據(jù)發(fā)起查詢(xún)。
除此之外,用戶還要求新系統(tǒng)能夠消除一部分原有硬性使用成本。當(dāng)報(bào)告處理需要耗時(shí)數(shù)小時(shí)時(shí),用戶需要另一套系統(tǒng)來(lái)處理其它任務(wù),從而避免發(fā)生無(wú)所事事的狀況。有些用戶甚至需要在自己的辦公桌上部署三套系統(tǒng)。其它硬性成本縮減與新系統(tǒng)投資回報(bào)保障方式還包括降低陳舊惠普UX設(shè)備所帶來(lái)的甲骨文產(chǎn)品許可及維護(hù)費(fèi)用。經(jīng)過(guò)幾年的累積成本節(jié)約,新系統(tǒng)的購(gòu)買(mǎi)價(jià)格將被全部抵消,而且在此之后節(jié)約效果仍將繼續(xù)維持。
Sanders認(rèn)為,Netezza在這方面的表現(xiàn)更為出色。而且事實(shí)證明,Netezza曾于2006年擁有的成本節(jié)約表現(xiàn)至今也依然值得信賴(lài)。
#p#
功能比較
概念驗(yàn)證的第二階段旨在面向未來(lái)需求籌劃實(shí)現(xiàn)基礎(chǔ)。他基本上是以目前的數(shù)據(jù)倉(cāng)庫(kù)執(zhí)行任務(wù)對(duì)設(shè)備進(jìn)行測(cè)試,但他希望在未來(lái)的三到五年當(dāng)中構(gòu)建起真正的大數(shù)據(jù)系統(tǒng)。美國(guó)癌癥協(xié)會(huì)需要迎接Hadoop并監(jiān)控實(shí)時(shí)數(shù)據(jù)動(dòng)向,例如面向志愿者以及生命接力慈善活動(dòng)參與者對(duì)網(wǎng)站進(jìn)行個(gè)性化設(shè)計(jì)。
Netezza擁有新型硬件,且較之Sanders于2006年所使用的機(jī)型在速度方面更為出色,但其軟件仍然與多年前保持著同樣的水平。相比之下,Teredata的14.10操作系統(tǒng)則表現(xiàn)出遠(yuǎn)超過(guò)原有版本的顯著提升。“看起來(lái)他們?cè)谲浖?chuàng)新方面的態(tài)度要比Netezza積極得多,”Sanders評(píng)價(jià)道。“Netezza已經(jīng)占據(jù)了領(lǐng)先地位,但在軟件創(chuàng)新角度看我可能更傾向于選擇Teradata。”
整個(gè)項(xiàng)目的最終價(jià)格被確定為75萬(wàn)美元左右。Sanders研究得出的“節(jié)點(diǎn)計(jì)算能力”規(guī)模方案對(duì)不同硬件要求作出了均衡,Netezza與Teradata兩家廠商的價(jià)格甚至保持一致。
就目前來(lái)看,一切順利
整個(gè)招標(biāo)/投標(biāo)過(guò)程持續(xù)了大約六個(gè)月,而Teradata硬件于2013年10月中旬正式安裝到位。到同年12月,美國(guó)癌癥協(xié)會(huì)在生產(chǎn)流程中開(kāi)始每周對(duì)其Siebel報(bào)告系統(tǒng)進(jìn)行更新。到次年1月,這一更新周期被進(jìn)一步縮短為每天。
根據(jù)Sanders的介紹,自那時(shí)開(kāi)始,美國(guó)癌癥協(xié)會(huì)新增了財(cái)務(wù)、規(guī)劃與會(huì)計(jì)部門(mén),并針對(duì)營(yíng)銷(xiāo)團(tuán)隊(duì)提供數(shù)據(jù)資源以實(shí)現(xiàn)基礎(chǔ)性活動(dòng)分析。
“一年之后,我們?nèi)匀粚⒉樵?xún)性能保持在原有數(shù)據(jù)架構(gòu)的350到370倍水平,并進(jìn)一步簡(jiǎn)化整套數(shù)據(jù)模型以確保其更適合實(shí)現(xiàn)臨時(shí)性查詢(xún)操作。維護(hù)工作也不再是難以打理的問(wèn)題。在這一年當(dāng)中,我們從未遭遇過(guò)任何系統(tǒng)宕機(jī)狀況,而全部維護(hù)任務(wù)也都能夠輕松完成。我們下一步要做的是變更Siebel應(yīng)用程序數(shù)據(jù)的捕捉方式,從而以近實(shí)時(shí)方式將其加載至Teradata系統(tǒng)當(dāng)中,從而深入改善數(shù)據(jù)處理流程,最終縮減我們的批量隔離負(fù)載窗口。我們將有能力從應(yīng)用程序當(dāng)中直接載入數(shù)據(jù),并在數(shù)據(jù)內(nèi)容發(fā)生變化時(shí)生成報(bào)告,而這將以前所未有的方式為業(yè)務(wù)帶來(lái)出色的主動(dòng)監(jiān)控能力,”Sanders指出。
原文鏈接:
http://www.networkworld.com/article/2895379/big-data-business-intelligence/american-cancer-society-embraces-big-data.html
原文標(biāo)題:American Cancer Society embraces Big Data