WOT講師董乃文:微軟提供的那些大數(shù)據(jù)服務(wù)與技術(shù)
原創(chuàng)在當(dāng)今的互聯(lián)網(wǎng)世界大數(shù)據(jù)已不再是陌生的詞匯,越來越的企業(yè)正想法設(shè)法的從海量的數(shù)據(jù)中獲取業(yè)務(wù)洞察力,這些數(shù)據(jù)來自企業(yè)內(nèi)部、社交網(wǎng)絡(luò)等多種渠道。目前各大互聯(lián)網(wǎng)巨頭也已踏入大數(shù)據(jù)領(lǐng)域,微軟大數(shù)據(jù)自不例外。11月28日-29日,在【W(wǎng)OT2015"互聯(lián)網(wǎng)+"時(shí)代大數(shù)據(jù)技術(shù)峰會(huì)】上,51CTO特邀來自微軟(中國(guó))有限公司開發(fā)工具及平臺(tái)事業(yè)部資深技術(shù)專家董乃文將分享微軟針對(duì)大數(shù)據(jù)應(yīng)用所提供的關(guān)鍵技術(shù),深入剖析如何進(jìn)行優(yōu)化以獲得性能的顯著提升,幫助大家快速、高效地打造端到端的大數(shù)據(jù)創(chuàng)新應(yīng)用,全面助力商業(yè)創(chuàng)新。大會(huì)前夕,51CTO記者對(duì)董乃文進(jìn)行了采訪。
【W(wǎng)OT2015"互聯(lián)網(wǎng)+"時(shí)代大數(shù)據(jù)技術(shù)峰會(huì)】特邀嘉賓 董乃文
董乃文,微軟(中國(guó))有限公司開發(fā)工具及平臺(tái)事業(yè)部資深技術(shù)專家、平臺(tái)戰(zhàn)略顧問。他具有20多年的計(jì)算機(jī)和行業(yè)工作經(jīng)驗(yàn),參加多個(gè)云計(jì)算、大數(shù)據(jù)、SOA等國(guó)家技術(shù)標(biāo)準(zhǔn)的相關(guān)工作,積極推動(dòng)企業(yè)管理、物聯(lián)網(wǎng)、制造業(yè)、零售業(yè)等領(lǐng)域的技術(shù)合作與創(chuàng)新。
在加入微軟之前,董乃文主要從事企業(yè)管理軟件、ERP軟件、電子政務(wù)等領(lǐng)域軟件的R&D工作。加入微軟開發(fā)工具與平臺(tái)事業(yè)部后,一方面緊密追蹤最新的云計(jì)算/大數(shù)據(jù)、數(shù)據(jù)庫(kù)、移動(dòng)設(shè)備、物聯(lián)網(wǎng)、開發(fā)工具等新技術(shù),另一方面有了一個(gè)更廣泛的和眾多行業(yè)領(lǐng)域的合作伙伴,特別是ISV/CSV等合作伙伴的緊密合作的平臺(tái),幫助客戶做云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等方面的戰(zhàn)略及技術(shù)遷移,共同打造“云優(yōu)先、移動(dòng)優(yōu)先”的新應(yīng)用。
微軟與大數(shù)據(jù)
董乃文表示,微軟一直在領(lǐng)導(dǎo)著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等方面的技術(shù)發(fā)展。
首先,大數(shù)據(jù)和云計(jì)算平臺(tái)的結(jié)合,特別是和Azure公有云平臺(tái)的結(jié)合,以及大數(shù)據(jù)跨公有云-私有云的混合部署,為大數(shù)據(jù)的生根落地提供了堅(jiān)實(shí)的基礎(chǔ)設(shè)施平臺(tái);
大數(shù)據(jù)和物聯(lián)網(wǎng)、社交媒體、B2B/B2C應(yīng)用等結(jié)合,為廣大行業(yè)的創(chuàng)新變革提供了巨大的機(jī)會(huì),微軟為這些行業(yè)領(lǐng)域更是提供了豐富的端到端的應(yīng)用,從移動(dòng)設(shè)備(手機(jī)、平板等)、物聯(lián)網(wǎng)設(shè)備,到云平臺(tái),到大數(shù)據(jù)分析,到實(shí)時(shí)展現(xiàn)、BI分析等,幫助大家打通大數(shù)據(jù)與行業(yè)結(jié)合的任督二脈;
大數(shù)據(jù)和機(jī)器學(xué)習(xí)的結(jié)合,針對(duì)大數(shù)據(jù)的更深入、更智能的分析,微軟提供了機(jī)器學(xué)習(xí)(ML)的強(qiáng)大支持,包括了像Azure上的ML服務(wù),還有前段時(shí)間大家關(guān)注的牛津計(jì)劃(Project Oxford)提供的面部識(shí)別技術(shù),現(xiàn)在不僅僅可以通過面部照片判斷年齡,現(xiàn)在還可以分析人的表情,例如是開心、驚訝等,此外還有Cortana語音識(shí)別及控制、物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)等大量的新技術(shù),希望能夠?qū)Υ蠹矣兴鶐椭?/p>
靈活整合SQL和NoSQL數(shù)據(jù) 挖掘數(shù)據(jù)價(jià)值
近年,隨著社交軟件、物聯(lián)網(wǎng)、移動(dòng)等應(yīng)用的發(fā)展,大量的新型數(shù)據(jù)在產(chǎn)生,例如音頻、視頻、地理信息、日志信息、設(shè)備信息等。面對(duì)高容量、高速度、數(shù)據(jù)類型繁多的大數(shù)據(jù),傳統(tǒng)的結(jié)構(gòu)化的技術(shù)已經(jīng)很難處理這些數(shù)據(jù)。董乃文表示,SQL和NoSQL數(shù)據(jù)庫(kù)技術(shù)都有其相應(yīng)的應(yīng)用場(chǎng)景及實(shí)現(xiàn)目標(biāo),他們之間的關(guān)系不是此消彼長(zhǎng)的,而是互相促進(jìn)的。這些新型數(shù)據(jù)的處理與關(guān)系型數(shù)據(jù)庫(kù)的技術(shù)有不少區(qū)別,例如數(shù)據(jù)一致性、完整性等。
那么,微軟是如何快速有效的對(duì)這些數(shù)據(jù)進(jìn)行挖掘處理,減少運(yùn)營(yíng)成本的?如何靈活整合SQL和NoSQL數(shù)據(jù)?
微軟提供了全面的數(shù)據(jù)服務(wù),既包括SQL Server數(shù)據(jù)庫(kù),也包括對(duì)眾多NoSQL數(shù)據(jù)的支持,例如Key-value、document、BLOB等數(shù)據(jù)的支持。此外,還包括了search等增值的數(shù)據(jù)服務(wù)。
對(duì)于SQL和NoSQL數(shù)據(jù)靈活整合,董乃文建議大家分別采用冷數(shù)據(jù)(Cold Data)、熱數(shù)據(jù)(Warm Data)的策略,例如很多原始的NoSQL數(shù)據(jù),數(shù)據(jù)巨大,可以作為冷數(shù)據(jù);而經(jīng)過處理后,一些更小規(guī)模的SQL、NoSQL數(shù)據(jù)庫(kù)就可以作為熱數(shù)據(jù),作為實(shí)時(shí)儀表盤(Dashboard)、商業(yè)智能(BI)等分析的數(shù)據(jù)庫(kù);還可以與業(yè)務(wù)、應(yīng)用系統(tǒng)相結(jié)合,提供推薦引擎、在線廣告、實(shí)時(shí)控制等應(yīng)用的數(shù)據(jù)庫(kù)。此外,在需要的時(shí)候,還可以通過機(jī)器學(xué)習(xí)(ML),對(duì)冷數(shù)據(jù)進(jìn)行進(jìn)一步的探索,挖掘更多的數(shù)據(jù)價(jià)值。冷數(shù)據(jù)和熱數(shù)據(jù)的結(jié)合,既可以降低數(shù)據(jù)存儲(chǔ)、處理的成本,又可以提高業(yè)務(wù)應(yīng)用系統(tǒng)對(duì)時(shí)效性、性能的高要求,更好地提供數(shù)據(jù)資產(chǎn)的ROI。
微軟針對(duì)大數(shù)據(jù)應(yīng)用為用戶提供了哪些關(guān)鍵技術(shù)?
目前,在基礎(chǔ)設(shè)施方面,微軟提供了云計(jì)算平臺(tái),既包括了Azure公有云平臺(tái),也提供了便于搭建混合云的Windows Server / Hyper-V平臺(tái)。將大數(shù)據(jù)與云計(jì)算結(jié)合是真正發(fā)揮大數(shù)據(jù)功效的首要工作,基礎(chǔ)打得牢,才能跑得快、跑得好、跑得贏。
在云平臺(tái)之上,可以為用戶提供了多種的技術(shù)選擇支持,例如,用戶可以采用IaaS方案,自己搭建Hadoop虛擬機(jī)(VM)和群集(Cluster),目前有很多伙伴,例如Cloudera、Hortonworks等都提供了經(jīng)過優(yōu)化的群集、虛擬機(jī)鏡像,基本上可以達(dá)到“一鍵創(chuàng)建”的程度,而且可以通過API、PowerShell腳本等方式進(jìn)行自動(dòng)化監(jiān)控、優(yōu)化,非常方便而使用。
另外,微軟也提供了PaaS方案,目前提供了HDInsight的大數(shù)據(jù)服務(wù),這個(gè)就更簡(jiǎn)便了,用戶不需要關(guān)心底層的虛擬機(jī)VM等繁瑣細(xì)節(jié),直接創(chuàng)建實(shí)例,定義好節(jié)點(diǎn)數(shù)量,就可以完成的大數(shù)據(jù)環(huán)境的搭建工具。而且,不論是IaaS還是PaaS方案,微軟都提供了最新的技術(shù)能力,包括了對(duì)Hive、Spark、R、Storm等技術(shù)的支持。
此外,微軟還提供了機(jī)器學(xué)習(xí)(ML)、數(shù)據(jù)工廠(Data Factory)、流分析(Stream Analytics)、PowerBI、IOT Hub/消息中心(Event Hub)等服務(wù),可以方便用戶打造端到端的大數(shù)據(jù)服務(wù)。當(dāng)然,還有很多新的服務(wù)在路上,例如Data Lake等都已經(jīng)進(jìn)入預(yù)覽(Preview)階段整裝待發(fā),這些都是非常讓人興奮、值得期待的。
關(guān)于大數(shù)據(jù)的安全和隱私問題
對(duì)于大數(shù)據(jù)的安全和隱私問題,互聯(lián)網(wǎng)巨頭微軟是如何處理的呢?董乃文表示,從大數(shù)據(jù)所基于的云平臺(tái)角度來講,微軟一直將安全性和隱私作為頭等優(yōu)先的大事來考慮。微軟利用在構(gòu)建企業(yè)軟件和運(yùn)行多個(gè)全球最大在線服務(wù)方面數(shù)十年的豐富經(jīng)驗(yàn),創(chuàng)建可靠的安全技術(shù)和做法,幫助確保基礎(chǔ)設(shè)施可防御攻擊,保護(hù)用戶對(duì)云環(huán)境及資源的訪問,并通過加密通信、威脅管理等來保障客戶數(shù)據(jù)的安全。
此外微軟始終是保護(hù)客戶隱私的領(lǐng)導(dǎo)者,微軟對(duì)隱私和數(shù)據(jù)保護(hù)的方法根植于對(duì)實(shí)現(xiàn)企業(yè)擁有對(duì)收集、使用和分布其信息具有充分控制的承諾,已歷經(jīng)時(shí)間驗(yàn) 證。目前微軟已實(shí)現(xiàn)透明的隱私做法,為客戶提供有價(jià)值的隱私選擇,并負(fù)責(zé)地管理存儲(chǔ)和處理的數(shù)據(jù)。微軟已采用全球首個(gè)云隱私行業(yè)標(biāo)準(zhǔn):ISO/IEC 27018。此外,微軟還接受嚴(yán)苛的第三方審核(如英國(guó)標(biāo)準(zhǔn)協(xié)會(huì)等)來驗(yàn)證是否遵循嚴(yán)格的安全控制標(biāo)準(zhǔn)。
從底層的技術(shù)角度來講,有些新的、讓人興奮的技術(shù)在微軟新的數(shù)據(jù)服務(wù)中不斷推出,例如,透明數(shù)據(jù)加密技術(shù),可以實(shí)現(xiàn)數(shù)據(jù)端到端的透明加密,即使某些 數(shù)據(jù)被截取,甚至服務(wù)器端密鑰被竊取,都無法解密而獲得原始數(shù)據(jù);動(dòng)態(tài)數(shù)據(jù)掩碼技術(shù),對(duì)于一些敏感的數(shù)據(jù),例如姓名、身份證號(hào)碼、郵箱地址、手機(jī)號(hào)碼、網(wǎng) 銀賬戶等,進(jìn)行掩碼處理,例如“139***1234”等,這些對(duì)于用戶數(shù)據(jù)的隱私保護(hù),提供了強(qiáng)大的技術(shù)保障。
既懂大數(shù)據(jù)的技術(shù)又懂得產(chǎn)生這些數(shù)據(jù)的業(yè)務(wù)的人才最難得
在很多活動(dòng)、研討中,大家都在說“數(shù)據(jù)科學(xué)家(Data Scientist)”這個(gè)嶄露頭角的職業(yè)。從最近IT業(yè)招聘的Top 10~20的職位,我們可以看出各行業(yè)用戶、各開發(fā)商對(duì)這些人才非常的渴求。大數(shù)據(jù)挖掘分析人員需要具備的哪些能力?董乃文表示:“回歸本源,不外乎還是‘數(shù)據(jù)’+‘計(jì)算’,但獲取和處理數(shù)據(jù)是一回事,而如何理解這些數(shù)據(jù)、挖掘這些數(shù)據(jù)的價(jià)值則有可能是更根本的事情。某種程度上講,既懂大數(shù)據(jù)的技術(shù),又懂得產(chǎn)生這些數(shù)據(jù)的業(yè)務(wù),這樣的人才是最難得的人才。”
大數(shù)據(jù)行業(yè)的現(xiàn)狀與未來
談到大數(shù)據(jù)行業(yè)的現(xiàn)狀與未來,董乃文認(rèn)為:“用‘方興未艾’來描述目前的大數(shù)據(jù)領(lǐng)域的發(fā)展可能是比較貼切的。未來,在數(shù)據(jù)云化、開放性數(shù)據(jù)共享、開放性云數(shù)據(jù)服務(wù)及SLA保證、行業(yè)數(shù)據(jù)鏈等方面的實(shí)質(zhì)性進(jìn)展,將真正有益于整體大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,也能最終讓大數(shù)據(jù)與各行業(yè)深度融合,不斷推動(dòng)行業(yè)和商業(yè)創(chuàng)新。此外,值得特別關(guān)注的,還有機(jī)器學(xué)習(xí)等深度的數(shù)據(jù)挖掘,及基于此的創(chuàng)新型應(yīng)用,新的、讓人耳目一新的新應(yīng)用將不斷推出,行業(yè)創(chuàng)新將不斷涌現(xiàn)。“
WOT大數(shù)據(jù)技術(shù)峰會(huì)上的分享內(nèi)容
在11月28-29日由51CTO主辦位于深圳的【W(wǎng)OT2015“互聯(lián)網(wǎng)+”時(shí)代大數(shù)據(jù)技術(shù)峰會(huì)】中董乃文將分享微軟針對(duì)大數(shù)據(jù)應(yīng)用所提供的關(guān)鍵技術(shù),深入剖析如何進(jìn)行優(yōu)化以獲得性能的顯著提升,幫助大家快速、高效地打造端到端的大數(shù)據(jù)創(chuàng)新應(yīng)用,全面助力商業(yè)創(chuàng)新。
51CTO主辦的高端技術(shù)峰會(huì)【W(wǎng)OT2015“互聯(lián)網(wǎng)+”時(shí)代大數(shù)據(jù)技術(shù)峰會(huì)】將于11月28日-29日在深圳盛大揭幕,42位業(yè)內(nèi)重量級(jí)嘉賓匯聚,重磅解析大數(shù)據(jù)技術(shù)的點(diǎn)睛應(yīng)用。福利大放送,主辦方將邀請(qǐng)更多講師來到“WOT講師專訪間”,深度解析技術(shù)干貨。
- WOT講師覃超:前Facebook工程師問你,增長(zhǎng)用戶非要燒錢?
- WOT講師管理心理學(xué)博士于際敬:大數(shù)據(jù)時(shí)代的“心”發(fā)現(xiàn)
- WOT講師劉黎春:互聯(lián)網(wǎng)征信是新藍(lán)海
- WOT講師馮揚(yáng):體系變化與用戶建模角度探索微博推薦
- WOT講師張溪夢(mèng):拿什么拯救你,疲于污水處理的數(shù)據(jù)分析師
- WOT講師手淘技術(shù)專家陳武:手淘億級(jí)UV背后的大數(shù)據(jù)采集體系
- WOT講師任化偉:大數(shù)據(jù)技術(shù)讓 O2O 基礎(chǔ)信息更“靠譜”
- 如何將 Google 神秘的數(shù)據(jù)中心管理系統(tǒng)搬回家
- WOT講師楊德升:程序員創(chuàng)業(yè)都需要什么
- WOT講師錢承君:大數(shù)據(jù)帶給百度測(cè)試團(tuán)隊(duì)的發(fā)展新探索
- WOT講師劉鵬:大數(shù)據(jù)應(yīng)該指導(dǎo)機(jī)器而不是人的決策