自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測

大數(shù)據(jù)
在大數(shù)據(jù)技術(shù)領(lǐng)域碰到的挑戰(zhàn),這里在座很多朋友都是從傳統(tǒng)的數(shù)據(jù)倉庫出來的,事實上以前是沒有Hadoop的,因此數(shù)據(jù)并不是很大,我記得在07年、08年的時候,那時候說沃爾瑪是全球最大的數(shù)據(jù)倉庫,數(shù)據(jù)量是幾個PB。

[[173277]]

我給大家?guī)淼难葜v內(nèi)容是關(guān)于“使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測”這方面的。首先介紹一下我自己,我叫韓卿,很多人叫我Luke。我是Kyligence公司的聯(lián)合創(chuàng)始人兼CEO,Apache Kylin開源項目的創(chuàng)始人,同時也是這個項目的項目管理委員會主席,以及Apache軟件基金會會員。

一、超大規(guī)模數(shù)據(jù)分析的挑戰(zhàn)

Hadoop

首先,我想和大家分享一下我們在大數(shù)據(jù)技術(shù)領(lǐng)域碰到的挑戰(zhàn),這里在座很多朋友都是從傳統(tǒng)的數(shù)據(jù)倉庫出來的,事實上以前是沒有Hadoop的,因此數(shù)據(jù)并不是很大,我記得在07年、08年的時候,那時候說沃爾瑪是全球***的數(shù)據(jù)倉庫,數(shù)據(jù)量是幾個PB。那么如今又是怎樣的量級呢?我原來在ebay工作,今年年初的時候ebay的整個Hadoop數(shù)據(jù)量已經(jīng)超過幾百個PB了,但這還不是***的。由此可以看出,在這短短幾年之間,數(shù)據(jù)的膨脹是相當(dāng)大的。

Hadoop平臺今年正好是第十年,發(fā)展到今天,它非常擅長批量處理,這里大部分的企業(yè)都用它做過批量的東西。那帶來的***個問題是什么呢?比如說,我的數(shù)據(jù)已經(jīng)在Hadoop上面了,那么后面不管是報表分析、交叉分析還是預(yù)測分析,是不是也應(yīng)該在平臺上面直接去做?但現(xiàn)實告訴我們,由于各種各樣的挑戰(zhàn),很多時候在Hadoop上面把數(shù)據(jù)處理完又被扔回到數(shù)據(jù)倉庫里面了。

傳統(tǒng)的數(shù)據(jù)倉庫非常擅長大型的交互式分析和復(fù)雜分析,但它面臨的問題是如此龐大的數(shù)據(jù)無法全部儲存在里面,或者說如果存下如此大量的數(shù)據(jù),它的成本是很恐怖的。我們在ebay的時候做過一個測算,在傳統(tǒng)數(shù)據(jù)倉庫上面每TB的存儲成本遠(yuǎn)遠(yuǎn)超過在Hadoop上面每PB的存儲成本,這是基于我們投資成本算出來的。一個TB和一個PB相差1024倍,如果說我們將在Hadoop上面的200多個PB的數(shù)據(jù)都放在傳統(tǒng)數(shù)據(jù)庫上面,那肯定是不現(xiàn)實的。至于我們該如何在Hadoop大數(shù)據(jù)平臺上將分析能力提供出來,是我們當(dāng)時面臨的巨大挑戰(zhàn)。

數(shù)據(jù)挖掘與數(shù)據(jù)預(yù)測

另外,在數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測的時候,這個需求非常的旺盛。以前人們更多的是說要做一個報表,而這兩年人們傾向于建立一個系統(tǒng),進行風(fēng)控控制、數(shù)據(jù)預(yù)測、挖掘等。但這又引出了一個問題:這么大的數(shù)據(jù)量我怎么能夠在最快的時間內(nèi)提供給你完整的分析結(jié)果,能夠滿足你在具備傳統(tǒng)數(shù)據(jù)倉庫經(jīng)驗?zāi)芰Φ那闆r下又能夠利用大數(shù)據(jù)的平臺進行工作,我覺得這是我們今天面臨的巨大挑戰(zhàn)。

二、Apache Kylin快速分析解決方案

在ebay工作的時候,我們發(fā)現(xiàn)在Hadoop上面如果直接進行分析是不可能的,因為我的分析師不可能花費很長時間去等一個分析結(jié)果。如果說我們把數(shù)據(jù)都放到DW里面也不能現(xiàn)實,至少成本上面是不可接受的。所以導(dǎo)致我們那時候探索了很多這方面的技術(shù),無論是商業(yè)的技術(shù),還是開源的技術(shù),最終發(fā)現(xiàn)沒有一個技術(shù)能夠滿足我們的需求,這件事情發(fā)生在2013年9月份,是三年以前。

所以后來我們在上海的幾位同事想要不自己試試看,我們的架構(gòu)師真的蠻厲害的,在9月份做出的決定,國慶節(jié)回來就說跑通了,當(dāng)然我們也花了很多的力氣去說服管理層、說服我們的客戶以及合作伙伴。

這里面解釋一下,這個項目叫做Apache Kylin,也是我們目前活下來的唯一項目。Apache Kylin這個名字在Apache軟件基金會里面也是唯一一個中國來,我們覺得還是蠻驕傲的。

我們完全可以說在開源領(lǐng)域里面我們是***的OLAP on Hadoop的解決方案。這里澄清一下,我們做的并不是SQL,我們做的是OLAP on Hadoop,叫做多維分析或者更大一點叫做數(shù)據(jù)集市。今天只要搜索這樣幾個關(guān)鍵字,不管在谷歌還是百度上面,基本上我們都是***。

整個社區(qū)發(fā)展是非??斓?,我們這個社區(qū)活躍度非常好,以及有一百多家公司了。最重要的是這是唯一一個來自中國的***項目,這意味著我們的項目跟Apache的Hadoop是一個級別的,是中國開發(fā)者社區(qū)的代表。Apache孵化器的副總裁,也是我們的導(dǎo)師,當(dāng)時我們剛剛加入進去的時候,整個社區(qū)對我們并不看好,說歡迎中國人過來玩,但不覺得你們能畢業(yè)。

但當(dāng)我們花了11個月畢業(yè),并成為***項目的時候,整個社區(qū)對我們的認(rèn)可度是非常高的。說我們代表了整個亞洲國家,特別是中國人在整個開源社區(qū)的貢獻(xiàn)、參與度。我想告訴大家的是,整個核心團隊并不多,其實就幾個人,大部分核心團隊現(xiàn)在都在我們公司,后來我們從ebay出來了,看到這樣一個機會,我們成立了一家創(chuàng)業(yè)公司,希望在社區(qū)能夠做更多的事情。

Apache Kylin的技術(shù)

那么,我們用什么樣的技術(shù)來解決問題呢?無論是并行計算、還是列式存儲,如今行業(yè)里擁有許多不同的技術(shù),而Kylin則結(jié)合了這些技術(shù)的優(yōu)點。

首先我們應(yīng)用了并行計算。傳統(tǒng)的數(shù)據(jù)倉庫、BI的工具之類的以前都是很小的,不能夠支撐單個文件超過2個G的,或者還有一些說不能超過多大的數(shù)據(jù)量。我們在ebay的時候曾經(jīng)用了另外一個BI工具,單個不能超過20億的數(shù)據(jù),因為把里面的算法寫死掉了,沒有辦法改。而今天我們能夠大量地利用并行計算Hadoop這樣的技術(shù)做并行的處理,所以相應(yīng)的能力、計算的速度、效率那是指數(shù)級增長。

中間是空間換時間。這是最根本的設(shè)計理念,當(dāng)你海量數(shù)據(jù)進來的時候,你的查詢相對來說是比較固定的,或者相對來說原始數(shù)據(jù)百分之七八十或者九十不會再動了,我有理由幫你做一些這方面的預(yù)計算。

列式存儲。另外一塊,即使算完了,如果還是放在磁盤上面是不夠的,因為磁盤效率很低,放內(nèi)存,內(nèi)存又很貴。而通過列式存儲的方式,就能大大解決這一問題。

技術(shù)核心

我們的技術(shù)核心其實非常簡單,叫做用空間換時間。因為你實時算這個東西的時候,實在是太慢了,我們當(dāng)時碰到的給我們的數(shù)據(jù)級、測試數(shù)據(jù)級都是一百億以上的規(guī)模的,但今天我們能做到的數(shù)據(jù)是千億、萬億規(guī)模的。我經(jīng)常舉一個例子,好比你中午吃飯,如果從買菜開始到菜買回來洗好,電飯煲插上,吃好洗碗,兩小時肯定不夠。怎么辦呢?前一天晚上把飯做好拿過來,今天微波爐一熱,就能大大節(jié)省了午飯時間,這就是預(yù)計算能夠帶給你的。

另一方面,我們非常Care查詢階段。非常重要的數(shù)學(xué),一旦進行預(yù)計算之后,這個地方的查詢復(fù)雜度是O(1),給定的條件之下,不管你數(shù)據(jù)級有多大,查詢都可以保證在一定的范圍內(nèi)達(dá)到秒級別,數(shù)據(jù)再大也沒有關(guān)系。

但其他的一些并行計算也好、列式存儲也好,是一個分布式實時計算,不可避免帶來的算法復(fù)雜度是O(N)。我們通過預(yù)計算帶給大數(shù)據(jù)分析技術(shù)最核心的價值,跟你的數(shù)據(jù)量并沒有關(guān)系,并且滿足你在各個場景下的訪問。

架構(gòu)

簡單講一下架構(gòu),整個Hadoop生態(tài)圈里面,Kylin用了Hadoop組件,也可以做整個預(yù)計算。當(dāng)整個計算結(jié)束之后,所有的分析應(yīng)用、查詢應(yīng)用、挖掘應(yīng)用會像數(shù)據(jù)庫一樣,通過標(biāo)準(zhǔn)的SQL訪問,我們的系統(tǒng)會非常精準(zhǔn)地知道你給我的查詢結(jié)果在哪里,馬上可以把這個結(jié)果反饋給你。當(dāng)然我們也在做更深的研發(fā)支撐更多的條件,我們在上面支撐的是標(biāo)準(zhǔn)SQL,所以就像數(shù)據(jù)倉庫一樣的,這也是我們的定位,希望未來做成一個數(shù)據(jù)倉庫Hadoop的解決方案。

講一下細(xì)節(jié),***個怎樣利用并行計算,如果給一百億的數(shù)據(jù)靠一臺電腦去計算,不知道要算到什么時候,但如果有一百臺、一千臺機器就很快了,這是并行計算帶來的威力。我們的預(yù)計算的好處是,通過Hadoop MapReduce來做并行計算,這個計算,***很快,同時產(chǎn)生的成本并不高,這是利用并行計算。

算完之后存哪里?轉(zhuǎn)化成列式存儲,把一個傳統(tǒng)的模型結(jié)構(gòu),充分利用HBase列式存儲的組件達(dá)到性能,所以說我們的數(shù)據(jù)最終在HBase每個節(jié)點上面是均勻分布的。***已經(jīng)沒有SQL的問題了,而且已經(jīng)全部轉(zhuǎn)成了Kb value。今天基本上你給我一個SQL,就可以給到你結(jié)果。

結(jié)果

給大家看我們做到的結(jié)果,我用了四個字:多、快、好、省。

——“多”,我們支撐的數(shù)據(jù)量非常大,在ebay單個cube已經(jīng)超過千億規(guī)模。

—— “快”,是指達(dá)到的查詢性,90%的查詢性是在1.18秒內(nèi)。包括百度的百度地圖、百度導(dǎo)航的數(shù)據(jù)都在上面。這里分享一下,***的來自廣東移動,廣東移動數(shù)據(jù)非常大,如今4G、移動互聯(lián)網(wǎng)非常火熱,相應(yīng)的數(shù)據(jù)都在里面,進來的數(shù)據(jù)每天增量超過一百億條,這個系統(tǒng)運行快一年了,基本上超過萬億規(guī)模,每個查詢都可以在秒級返回。另外,美團整個外賣數(shù)據(jù)也都在上面,95%查詢在1秒以內(nèi)。重要的是說,我們所使用的硬件成本是很低的,就是普通的機器。如果用內(nèi)存機器或者傳統(tǒng)的數(shù)據(jù)倉庫、一體機等等,這個成本是呈指數(shù)的。

——“好”,這方面就不多說了,國內(nèi)、國外有非常多的公司都在使用。

——“省”,大數(shù)據(jù)平臺上面是一個開源的技術(shù),最重要的是這還是一個國產(chǎn)技術(shù)。我們在唯品會的一些技術(shù)已經(jīng)在遷移,把傳統(tǒng)的國外的這些數(shù)據(jù)倉庫的技術(shù)遷移到今天我們這樣一個國產(chǎn)自主的,在大數(shù)據(jù)的平臺上的技術(shù)上面,而且成本將會大大降低,這對客戶的價值是非常大的。另外一個“省”的很重要的原因是,我們把建模過程封裝的非常好,使用的時候?qū)τ陂_發(fā)人員、應(yīng)用人員要求很低,懂?dāng)?shù)據(jù)庫、SQL就夠了,不需要寫任何JAVA的腳本,不需要寫任何的程序。我們希望我們在這方面做更多的工作來降低整個大數(shù)據(jù)的門檻,來快速的為客戶提供價值。

下面是不完全的全球用戶的簡介。ebay就不說了,微軟,包括來自德國的,來自美國的都有。最重要的是在中國有非常多的互聯(lián)網(wǎng)公司,包括京東、網(wǎng)易、美團、百度、唯品會等等,以及像OPPO、魅族、樂視這些手機廠商,還有聯(lián)想、國泰君安、三大運營商,我們都有很好的案例,而且使用的規(guī)模都是非常大的。

我們說每個成功的開源項目后面都有一個創(chuàng)業(yè)公司,以往這些公司的故事都發(fā)生在美國,而我們這家公司在中國,在上海。

解釋一下這個公司名字的議程,我們的公司叫做Kyligence,來自Kylin+Intelligence,我們希望把一個神獸帶到大數(shù)據(jù)生態(tài)圈里面,整個大數(shù)據(jù)里面都是動物,而我們希望我們的神獸變得更加智能一點。

三、對大數(shù)據(jù)預(yù)測技術(shù)的支持

有了這樣一個基礎(chǔ)以及數(shù)據(jù)技術(shù)之后,談一下對于大數(shù)據(jù)預(yù)測技術(shù)我們的想法,怎么來支撐、怎么讓我們用戶做一些應(yīng)用?

首先我們看一下最重要的,我們在千億規(guī)模上面做到亞秒級的查詢延遲。不管做預(yù)測也好,做什么也好,最重要的是要快速的獲取數(shù)據(jù)的能力,特別是預(yù)測,不斷地迭代,我們能夠支撐到不管你改變?nèi)魏蔚牟樵儣l件,我可以非??斓陌堰@個查詢給你。很多時候做預(yù)測工作,其實是在不斷地?fù)Q參數(shù),但相對的下面的數(shù)據(jù)模型很多時候是固定的或者相對固定,我們能夠有這個能力,無論你給我?guī)讉€參數(shù),或是換參數(shù),馬上就給你結(jié)果級。上層應(yīng)用,基于這個結(jié)果級進一步的通過算法做演算、調(diào)整。

另外一個很重要的是我們支持的是標(biāo)準(zhǔn)SQL,很多時候現(xiàn)在的技術(shù)是要你自己寫程序的,這要求的入門門檻太高了,但是通過標(biāo)準(zhǔn)的SQL,我們在傳統(tǒng)的數(shù)據(jù)庫里面有非常多的模型與算法是可以使用的。

對于整個技術(shù)的支持來說,我們?yōu)樯蠈訑?shù)據(jù)應(yīng)用、挖掘應(yīng)用提供的接口是ODBC、JDBC、REST API。所以跟你用一個傳統(tǒng)數(shù)據(jù)倉庫其實沒有任何區(qū)別。最重要的是,我們能夠在非常大的規(guī)模的數(shù)據(jù)上面直接把這個給到你,不管你原來的數(shù)據(jù)是一百億、一千億、一萬億,你要拿的東西往往是那么一點點,拿到關(guān)鍵的幾個數(shù)據(jù)就夠了。

今天來說,對于未來我們看到大數(shù)據(jù)預(yù)測應(yīng)用越來越多的變成在線應(yīng)用。在線對這個底層數(shù)據(jù)倉庫帶來的***壓力在于并發(fā),傳統(tǒng)的數(shù)據(jù)倉庫在并發(fā)上面都是上不去的,都有很大的問題。今天可以做到互聯(lián)網(wǎng)級別的高并發(fā)應(yīng)用了。我們有能力為這些分析應(yīng)用、預(yù)測應(yīng)用提供高并發(fā)的快速分析能力。

四、去哪兒案例分享

非常簡單的介紹一下去哪兒的案例,去哪兒在做機票訂單、酒店等等,跟攜程非常像。中間是訂單,有代理商、公司、各種各樣的信息。它把數(shù)據(jù)都放到Hadoop之上,中間一層是Kylin,把下面的數(shù)據(jù)做了加工之后,處理好,按照數(shù)據(jù)模型建立起來。上層應(yīng)用通過相應(yīng)的數(shù)據(jù)挖掘界面,以及其他的一些SQL的工具就可以訪問后臺了,訪問中間一層可以看到不同的維度、不同的指標(biāo)等等,***的查詢速度。它的應(yīng)用基于一個數(shù)據(jù)模型可以做各種各樣的分析,就能夠預(yù)測一下賣的好不好或者什么地方有問題。

至于我們公司,我們在開源之上,并且還在持續(xù)的投入做開源社區(qū),非常重要的是我們百分之八九十的工作還在發(fā)展開源的技術(shù),提供一些企業(yè)級的產(chǎn)品。

后面介紹一下我們整個的生態(tài)系統(tǒng),我們要做一家產(chǎn)品和技術(shù)公司,希望在中國為用戶提供純粹的產(chǎn)品技術(shù)。此外,我們希望跟大數(shù)據(jù)供應(yīng)商、云平臺的供應(yīng)商,上層供應(yīng)商,以及每個行業(yè)的解決方案供應(yīng)商一起壯大整個大數(shù)據(jù)生態(tài)。

責(zé)任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡(luò)

2022-12-30 14:14:51

數(shù)據(jù)中心服務(wù)器

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2020-10-30 11:09:30

Pandas數(shù)據(jù)代碼

2017-09-22 10:31:17

超大規(guī)模微型數(shù)據(jù)中心

2021-03-24 11:13:12

數(shù)據(jù)中心云計算物聯(lián)網(wǎng)

2017-09-25 16:48:12

數(shù)據(jù)中心超大規(guī)模微型

2024-10-21 17:40:22

2022-04-07 13:42:42

數(shù)據(jù)中心運營商數(shù)據(jù)

2023-08-22 16:14:36

2023-08-02 15:46:29

2021-08-25 06:48:02

數(shù)據(jù)中心數(shù)據(jù)中心架構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)

2020-12-09 09:47:05

數(shù)據(jù)中心IT硬件能源消耗

2015-10-27 11:32:41

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-10-10 14:05:25

數(shù)據(jù)中心云基礎(chǔ)設(shè)施

2016-11-09 15:40:15

大數(shù)據(jù)數(shù)據(jù)中心云數(shù)據(jù)中心

2021-01-18 10:17:45

數(shù)據(jù)中心高性能計算托管行業(yè)

2014-01-10 09:19:48

SDN超大規(guī)模數(shù)據(jù)中心

2023-12-01 17:42:10

點贊
收藏

51CTO技術(shù)棧公眾號