阿里云ODPS 讓數(shù)據(jù)處理平民化
原創(chuàng)阿里云,致力于打造互聯(lián)網(wǎng)數(shù)據(jù)分享***平臺,成為以數(shù)據(jù)為中心的云計(jì)算服務(wù)公司,在經(jīng)歷了飛天平臺、5K集群,對外開放了很多云計(jì)算服務(wù)后,在今年7月,阿里云正式迎來了大數(shù)據(jù)服務(wù),也真成兌現(xiàn)了以數(shù)據(jù)為中心的云計(jì)算服務(wù)公司的承諾。
阿里云總裁王文彬表示,“中國市場需要一個大數(shù)據(jù)公共服務(wù),通過阿里巴巴自身驗(yàn)證后的大數(shù)據(jù)平臺,阿里云開放對外的數(shù)據(jù)服務(wù),讓數(shù)據(jù)處理變成平民化的過程,讓數(shù)據(jù)處理變成人人都可以使用的服務(wù)。”
ODPS是什么?
阿里云ODPS團(tuán)隊(duì)的工程師形象的將ODPS比喻為榨果汁的過程,把數(shù)據(jù)海洋里的水灌進(jìn)ODPS,設(shè)定好一套參數(shù),擰開水龍頭,出來的就是鮮榨果汁!
ODPS(Open Data Processing Service,開放數(shù)據(jù)處理服務(wù))是一項(xiàng)Web服務(wù),用戶不用花很多錢建立數(shù)據(jù)中心,就能分析海量數(shù)據(jù)。但是,值得注意的是,ODPS是通過SQL語句進(jìn)行查詢作業(yè),因此,ODPS應(yīng)該只能處理結(jié)構(gòu)化數(shù)據(jù)處理,這一說法也得到了阿里云事業(yè)部高級專家、云產(chǎn)品產(chǎn)品經(jīng)理湯子楠的認(rèn)可。“ODPS最早是支持阿里巴巴內(nèi)部的業(yè)務(wù)成長起來的,因此,分析的數(shù)據(jù)基本上都是交易數(shù)據(jù)和用戶行為數(shù)據(jù),大多都屬于結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此也就決定了ODPS在發(fā)展最初專注于業(yè)務(wù)的需求。ODPS更擅長處理結(jié)構(gòu)化數(shù)據(jù),比較擅長處理半結(jié)構(gòu)化數(shù)據(jù),不能處理非結(jié)構(gòu)化數(shù)據(jù)。”
但是如今,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了數(shù)據(jù)的主要類型,更多的信息來源于視頻、社交媒體等更豐富的渠道,將內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與外部非結(jié)構(gòu)化數(shù)據(jù)融合進(jìn)行分析,相信對決策優(yōu)化更加有所幫助。對于非結(jié)構(gòu)化數(shù)據(jù)的處理,湯子楠表示,未來,ODPS也會在非結(jié)構(gòu)化數(shù)據(jù)層面做探索,但主要還是看用戶的需求。
ODPS***層是Linux+PC Server,上層軟件是阿里云開發(fā)的分布式系統(tǒng)軟件飛天,基于Java的MapReduce編程框架,開發(fā)語言是C++。所有的功能是以RESTful API的形式對外提供,所以從系統(tǒng)邊界上說,這層API隔離了ODPS平臺和用戶的系統(tǒng)。在經(jīng)過了5年時間,阿里云的工程師寫下了250萬行代碼,ODPS逐步完善,并且公測商用。
目前ODPS已經(jīng)開放的SQL功能主要用于數(shù)據(jù)倉庫和日志分析;后續(xù)還將開放UDF和MapReduce,支持用戶編程的離線計(jì)算;ODPS準(zhǔn)實(shí)時,支持交互式BI分析;ODPS流處理,支持實(shí)時計(jì)算等。
ODPS安全么?
開放服務(wù)的安全是用戶最關(guān)心的問題,而大數(shù)據(jù)的公共服務(wù)也不例外?在ODPS發(fā)布時,阿里云沒有披露ODPS的SLA,只是公布了一些性能以及價格。湯子楠告訴記者,ODPS的SLA(服務(wù)等級協(xié)議)分為兩部分,***部分是存儲,阿里云提供10個9的可靠性,保證數(shù)據(jù)不丟失。承諾的數(shù)據(jù)安全行主要有兩點(diǎn),一是數(shù)據(jù)放在ODPS中,絕對不會泄漏,也不會有其他人訪問用戶的數(shù)據(jù),第二是阿里云不會看用戶數(shù)據(jù);第二部分是計(jì)算,阿里云不承諾用戶提交的所有作業(yè)都能夠計(jì)算成功,但是承諾因?yàn)榘⒗镌苹蚩蛻舻脑?,?dǎo)致作業(yè)失敗,是不會收費(fèi)的。
在技術(shù)上,阿里云是如何保證企業(yè)數(shù)據(jù)安全呢?ODPS設(shè)計(jì)之初就是為了對外開放,做基于互聯(lián)網(wǎng)的多租戶的公共數(shù)據(jù)處理服務(wù),所以安全性在ODPS的設(shè)計(jì)和實(shí)現(xiàn)中具有***的優(yōu)先級。ODPS是國內(nèi)首家通過了CSA-STAR和ISO27001兩項(xiàng)國際云安全認(rèn)證的公司,在各個環(huán)節(jié)都采納了國際上***進(jìn)的數(shù)據(jù)安全管理標(biāo)準(zhǔn)。ODPS采用了多項(xiàng)技術(shù)保證用戶存儲在阿里云的數(shù)據(jù)不丟失、不泄露、不越權(quán)訪問;從管理上,阿里云內(nèi)部對于ODPS的運(yùn)維和運(yùn)營人員的操作有嚴(yán)格的監(jiān)控和審計(jì),確保內(nèi)部人員不會接觸到用戶的數(shù)據(jù)。
ODPS通過API提供服務(wù),包括數(shù)據(jù)上傳、下載、計(jì)算,所有API請求都是經(jīng)過認(rèn)證的,所有API請求都可以進(jìn)行https加密。從平臺設(shè)計(jì)和技術(shù)實(shí)現(xiàn)角度說,ODPS充分考慮了數(shù)據(jù)安全性,ODPS團(tuán)隊(duì)對于平臺的優(yōu)先級定義是數(shù)據(jù)安全性大于可用性大于規(guī)模的。
使用ODPS的門檻有多高?
雖然,阿里云想把ODPS打造成人人都可以使用的大數(shù)據(jù)服務(wù),但是使用ODPS也需要一定的門檻。湯子楠強(qiáng)調(diào),ODPS不是每個人都能使用,但是每一個做數(shù)據(jù)分析的人都可以使用。
對于用戶的要求分為兩方面,首先是要具有數(shù)據(jù)分析的技能,要精通SQL語言,或者是程序員,可以寫Java腳本來處理;其次是還要有數(shù)據(jù)敏感度和對業(yè)務(wù)的洞察力。
但是,對于不會SQL語句以及編程的用戶來說,是否就不能使用ODPS了呢?湯子楠告訴記者,“阿里云會開放一款基于ODPS的ETL(數(shù)據(jù)倉庫技術(shù))和BI(商業(yè)智能)工具,協(xié)助用戶編寫SQL語句,甚至不用SQL語句也可以進(jìn)行數(shù)據(jù)分析,降低ODPS的門檻。同時,阿里云還會引入第三方合作伙伴,幫助沒有數(shù)據(jù)使用能力的公司進(jìn)行培訓(xùn),協(xié)助他們搭建數(shù)據(jù)模型并且進(jìn)行數(shù)據(jù)分析。”
使用ODPS在人員的技能上有要求,同時對產(chǎn)品上也是有要求的。湯子楠表示,使用ODPS***還是先使用阿里云的云計(jì)算服務(wù),這樣數(shù)據(jù)在進(jìn)行分析前,可以通過阿里云內(nèi)網(wǎng),將數(shù)據(jù)從ECS(阿里云服務(wù)器產(chǎn)品)上傳到ODPS中從而進(jìn)行分析。若客戶堅(jiān)持使用自己的數(shù)據(jù)庫,通過公網(wǎng)上傳數(shù)據(jù)到ODPS中,數(shù)據(jù)安全問題得不到保障。此外,對于數(shù)據(jù)上傳費(fèi)用,用戶也不需要支付,用戶只需要支付計(jì)算、存儲、下載三方面的費(fèi)用即可。湯子楠表示,“用戶***結(jié)合阿里云其他產(chǎn)品使用ODPS,其實(shí)是從降低用戶成本、提高用戶體驗(yàn)的角度給出的建議,用戶也可以單獨(dú)使用ODPS。”
阿里內(nèi)部的登月計(jì)劃
2013年10月,為了融合阿里小貸和支付寶的數(shù)據(jù),支付寶希望ODPS團(tuán)隊(duì)協(xié)助他們搬家,將支付寶數(shù)倉業(yè)務(wù)從Hadoop機(jī)群搬到ODPS上,登月1號項(xiàng)目啟動。2014年5月,登月1號項(xiàng)目順利成功,小微金融服務(wù)的全部數(shù)據(jù)業(yè)務(wù)開始基于ODPS發(fā)展。
在2013年底,受到登月1號項(xiàng)目的啟發(fā),阿里數(shù)據(jù)平臺團(tuán)隊(duì)聯(lián)合技術(shù)保障部和集團(tuán)各事業(yè)部,開始了一系列宏大的登月計(jì)劃,致力于將搜索、廣告、物流等多個BU的數(shù)據(jù)統(tǒng)一,未來ODPS將成為承載阿里集團(tuán)全部數(shù)據(jù)的統(tǒng)一處理平臺。“登月計(jì)劃”共計(jì)劃了20多個項(xiàng)目,涉及阿里巴巴和小微金服所有的事業(yè)部,覆蓋集團(tuán)全部數(shù)據(jù)人員,其牽扯人員、資源之多,在集團(tuán)內(nèi)部罕見。
從Oracle到Hadoop,阿里云解決了海量數(shù)據(jù)如何存儲和分析的問題,阿里的數(shù)據(jù)業(yè)務(wù)不再受制于規(guī)模的瓶頸;從Hadoop到ODPS,更是一次質(zhì)的飛躍,為后續(xù)大數(shù)據(jù)業(yè)務(wù)的開展掃清了障礙。