自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop將取代MPP,混合架構即將消失

企業(yè)動態(tài) Hadoop

 在大數(shù)據(jù)基礎架構選型時,經(jīng)常聽到的一個說法是——“如果數(shù)據(jù)規(guī)模在TB級可以選擇MPP架構的關系型數(shù)據(jù)庫,如果數(shù)據(jù)規(guī)模上升到PB級則應該選擇Hadoop”。但事實上MPP架構的關系型數(shù)據(jù)庫與Hadoop的理論基礎是極其相似的,都是將運算分布到節(jié)點中獨立運算后進行結果合并。區(qū)別僅僅在于前者跑的是SQL,后者則是MapReduce程序。跑什么其實只是形式而已,是用戶使用習慣,相對而言SQL作為數(shù)據(jù)庫領域的事實標準語言使用更加廣泛,從而限制住用戶快速進入Hadoop大數(shù)據(jù)時代的步伐。

  隨著Web2.0、Web3.0、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等等事物的興起,人們創(chuàng)造了更多的數(shù)據(jù),收集更多數(shù)據(jù)成為可能,業(yè)務的需求促進了大數(shù)據(jù)技術包括Hadoop的發(fā)展。不少公司都在加快SQL開發(fā),而星環(huán)科技則是其中的一員。星環(huán)科技CTO孫元浩在2015年第六屆中國數(shù)據(jù)庫技術大會(DTCC)上表示,隨著Hadoop上SQL性能上及安全容錯上的不斷提升,Hadoop在未來兩三年將會取代MPP,混合架構會逐漸的消失。

  作為國內數(shù)據(jù)庫與大數(shù)據(jù)領域***規(guī)模的技術盛宴,2015年第六屆中國數(shù)據(jù)庫技術大會(DTCC)在一場北京近年來***的沙塵暴中拉開了序幕。4月16日,大會***天上午,來自星環(huán)科技的CTO孫元浩給我們帶來《大數(shù)據(jù)基礎技術發(fā)展的兩大方向和***研發(fā)成果》的主題演講。

  大數(shù)據(jù)基礎技術發(fā)展的兩大方向是什么?為什么會是這兩個?星環(huán)科技在這兩方面有那些研發(fā)突破?為何Hadoop能取代MPP,混合架構會消失?為何星環(huán)科技會與眾不同,定位基礎軟件公司?星環(huán)的產品策略又是什么呢?帶著這些問題,老魚在會后專訪了星環(huán)科技CTO孫元浩,就這些問題進行詢問和解答。

  老魚:孫總,您好!一直聽說你是個富有傳奇色彩的人,今天終于見到真人了,先請您跟我們的網(wǎng)友打聲招呼,簡單介紹下自己和公司產品。

  孫元浩:大家好,我是孫元浩,其實我的經(jīng)歷還是比較簡單的,大學碩士畢業(yè)后加入英特爾,在英特爾工作了10年(曾任英特爾亞太研發(fā)有限公司數(shù)據(jù)中心軟件部亞太區(qū)CTO)。2013年離開英特爾創(chuàng)業(yè)2年,也就是星環(huán)科技,從事大數(shù)據(jù)時代核心平臺數(shù)據(jù)庫軟件的研發(fā)與服務。公司研發(fā)團隊大多來自知名外企,員工的85%為研發(fā)工程師,以博士碩士為主。

  我們的產品Transwarp Data Hub (TDH)是基于Hadoop和Spark的分布式內存分析引擎和實時在線大規(guī)模計算分析平臺,相比開源Hadoop版本有10x~100x倍性能提升,可處理GB到PB級別的數(shù)據(jù)。星環(huán)科技同時提供存儲、分析和挖掘大數(shù)據(jù)的高效數(shù)據(jù)平臺和服務。

  老魚:您在演講中提到Hadoop技術經(jīng)過10年的發(fā)展,到目前為止還沒有被大面積普及的制約因素有2個:SQL技術制約和彈性計算的需求沒被得到滿足,這2個因素限制了Hadoop的普及,解決這2個問題將成為大數(shù)據(jù)技術發(fā)展的兩大方向。Hadoop普及涉及的問題有很多,為什么您覺得解決這2個問題會成為大數(shù)據(jù)技術發(fā)展的方向?能否給我們具體分析下?

  孫元浩:這其實是過去幾年,我們從市場上觀察到的現(xiàn)象,Hadoop還沒有被大面積普遍采用,障礙來自兩個方面:

  1、SQL on Hadoop的技術進展制約了企業(yè)原有應用的遷移以及新應用的開發(fā);

  2、Hadoop加速Docker化,企業(yè)在建設大數(shù)據(jù)平臺或者Data Lake時,往往有多租戶資源管控和彈性計算的需求,這些需求現(xiàn)有的YARN或者虛擬化技術沒有滿足。

  ***個方面,過去大家談大數(shù)據(jù),做一些數(shù)據(jù)挖掘的工作,但實際上企業(yè)更多的應用是在結構化數(shù)據(jù)的處理,主要用的操作語言是SQL,我們發(fā)現(xiàn)60%的Hadoop應用是用在SQL統(tǒng)計領域。

  當我們把Hadoop運用到企業(yè)中去時,新應用有待驗證,老應用其實已經(jīng)出現(xiàn)了數(shù)據(jù)量很大,急需用Hadoop來加速的需求,但現(xiàn)在的問題是,客戶想遷到Hadoop上,形成效率降低成本,卻遷不過來!其中的關鍵因素是大量客戶的SQL極端復雜,這種情況我們在運營商和銀行都有發(fā)現(xiàn),銀行貸款風控SQL非常復雜,要完成遷移需要太多時間去改造,有些語法甚至沒辦法改造,因此SQL支持的完整程度比性能更加重要,沒有這些語法支持,要想把現(xiàn)有應用遷移到Hadoop上來是不可行的。

  SQL作為數(shù)據(jù)庫領域的事實標準語言,相比較用API(如MapReduce API,Spark API等)來構建大數(shù)據(jù)分析的解決方案有著先天的優(yōu)勢:一是產業(yè)鏈完善,各種報表工具、ETL工具等可以很好的對接;二是用SQL開發(fā)有更低的技術門檻;三是能夠降低原有系統(tǒng)的遷移成本等。因此,SQL語言也漸漸成為大數(shù)據(jù)分析的主流技術標準。而要想讓SQL用戶快速進入Hadoop大數(shù)據(jù)時代,就必須要解決這個問題。

  第二個方面,也來自真實的用戶訴求。我們有三分之一以上的客戶要求把Hadoop跑在虛擬機上,但每次我們都只能無情的拒絕,因為Hadoop放在虛擬機上,性能瓶頸是非常嚴重的,穩(wěn)定性很差,主要原因是因為傳統(tǒng)的虛擬機是把一臺物理機變成多個虛擬機,CPU負載很低。而虛擬機跑大數(shù)據(jù)應用, CPU利用往往達到99%,很少有人在虛擬機上把CPU用到99%,這個時候hypervisor就撐不住了,穩(wěn)定性成為一個大問題,這也就阻礙了用戶使用Hadoop第二個大問題。

  因此,這2個方向都是我們希望幫助客戶解決的,市場非常大,如果把這2個問題解決,我相信Hadoop在使用上就能再上一個量級。

  老魚:孫總,能否在這里給我們介紹下星環(huán)針對這2個問題,取得的***技術研發(fā)成果?

  孫元浩:其實我們***技術研發(fā)成果都是被客戶逼出來的,我們的研發(fā)成果是源于用戶需求。有客戶問我們,我這里有21萬2千行的SQL你能不能跑?也客戶有30幾萬行SQL,說你們Hadoop不是很牛嗎?試試能不能跑?這迫使我們在2013年組織一個由編譯器專家組成的團隊,開發(fā)了一個Hadoop PL/SQL編譯器,當時的目標是選擇跟Oracle兼容,先把Oracle用戶遷移過來,經(jīng)過2年的發(fā)展,我們星環(huán)的Transwarp Inceptor實現(xiàn)了自己的SQL解析執(zhí)行引擎,可以兼容SQL 99和HiveQL,自動識別語法,因此可以兼容現(xiàn)有的基于Hive開發(fā)的應用。由于Transwarp Inceptor完整支持標準的SQL 99標準,傳統(tǒng)數(shù)據(jù)庫上運行的業(yè)務可以非常方便的遷移到Transwarp Inceptor系統(tǒng)上。此外Transwarp Inceptor支持PL/SQL擴展,傳統(tǒng)數(shù)據(jù)倉庫的基于PL/SQL存儲過程的應用(如ETL工具)可以非常方便的在Inceptor上并發(fā)執(zhí)行。另外Transwarp Inceptor支持部分SQL 2003標準,如窗口統(tǒng)計功能、安全審計功能等,并對多個行業(yè)開發(fā)了專門的函數(shù)庫,因此可以滿足多個行業(yè)的特性需求。

 

老魚:我們經(jīng)常聽到的一個說法,用MPP處理PB級別的、高質量的結構化數(shù)據(jù);用Hadoop實現(xiàn)半結構化、非結構化數(shù)據(jù)處理。這樣可同時滿足結構化、半結構化和非結構化數(shù)據(jù)的處理需求。而您今天談到一個觀點,隨著SQL在性能上及安全容錯上的不斷提升Hadoop會取代MPP,混合架構架構會消失!這個觀點的依據(jù)是什么?

  孫元浩:混合架構本身就是一種無奈而折中的選擇,同時維護多個系統(tǒng)運維難度非常大。當初,Hadoop的誕生是為了更方便地處理非結構化數(shù)據(jù)和半結構化數(shù)據(jù),但是處理結構化數(shù)據(jù)的時候功能就顯得不夠完整。用戶還需要使用數(shù)據(jù)庫或者MPP(大規(guī)模并行處理)數(shù)據(jù)庫,協(xié)助Hadoop處理結構化的數(shù)據(jù)。另外,Hadoop是為處理幾百TB和幾PB數(shù)據(jù)而設計的,但是,當數(shù)據(jù)量小于10TB的時候,Hadoop的處理性能往往還不如MPP數(shù)據(jù)庫。

  隨著SQL on Hadoop技術的快速發(fā)展,SQL完整程度的大幅提高和性能的提升,我們做的***個判斷是混合架構會逐漸的消失,過去MPP數(shù)據(jù)庫有三個優(yōu)勢,***個SQL支持完整,現(xiàn)在我們的SQL支持程度已經(jīng)接近MPP數(shù)據(jù)庫;第二個它比Hadoop性能高,但我們看到現(xiàn)在Hadoop性能可以超過MPP若干倍。第三個優(yōu)勢就是說它上面的BI工具,外延工具非常全,傳統(tǒng)的BI廠商都已經(jīng)轉向Hadoop,Hadoop系統(tǒng)的BI工具也越來越豐富,還有一些新興的創(chuàng)業(yè)公司在Hadoop上開發(fā)全新的BI工具,這些工具原生支持Hadoop,從這個角度來講Hadoop的生態(tài)系統(tǒng)將很快超越傳統(tǒng)MPP數(shù)據(jù)庫。

  我們覺得在未來一年兩年之內,Hadoop將逐漸取代MPP數(shù)據(jù)庫,大家不需要用混合架構,不需要在不同數(shù)據(jù)庫之間實現(xiàn)遷移了。有人說我MPP也在遷移,慢慢向Hadoop靠攏,這也是事實,整個MPP的數(shù)據(jù)庫在慢慢消失,完全走到Hadoop上面來。我們希望***結果就是數(shù)據(jù)全部放在Hadoop上,不管數(shù)據(jù)在幾個GB級別還是10個PB級別,都可以在Hadoop上處理,真正做到無限的線性擴展。

  老魚:星環(huán)科技我理解是一個做基礎軟件(數(shù)據(jù)庫)的公司,不知道這么理解對不對?為什么當初是這個定位?

  孫元浩:你這個問題很好,現(xiàn)在有很多客戶也問我同樣的問題,客戶把我們定位成一個大數(shù)據(jù)應用和解決方案的公司,是因為國內大部分大數(shù)據(jù)公司都是這種類型,其實我們定位是大數(shù)據(jù)平臺,是做基礎軟件的。為什么要做基礎軟件?因為我們看到一個明顯的技術演進趨勢,從單機計算,多核計算到分布式計算,這個趨勢是技術的潮流,是一次至下而上的架構革命,這種機會可能10年或者20年才能碰到一次,而這一領域正是我們擅長的,所以我們準備投入到這個領域。在中國,用戶數(shù)眾多,除了美國,中國企業(yè)的數(shù)據(jù)量普遍要多于國外企業(yè)一個數(shù)量級;中國企業(yè)的應用場景也非常復雜,很少有國外產品不經(jīng)修改在中國能夠不出故障地運行,因此中國也是需要這樣一個大數(shù)據(jù)的基礎軟件公司,所以我們認為在中國市場發(fā)展的機會很大,這也我們在基礎軟件發(fā)力的原因。我們在中國也有很多的合作伙伴,開發(fā)著各種應用,我們也在建立生態(tài)系統(tǒng)。

  綜上所述,***,技術趨勢在向這個領域發(fā)展。第二,市場環(huán)境對我們有利。第三、我們創(chuàng)始人和團隊的技術儲備和經(jīng)驗在這個領域很深厚。這就是我們創(chuàng)立星環(huán)科技的初衷,致力于提供優(yōu)秀的大數(shù)據(jù)基礎軟件,來解決這些問題。

  老魚:做基礎軟件是一件非常難的事情,資金、人才、技術、規(guī)模等等要求都非常高,您在創(chuàng)業(yè)的是否有考慮過這些問題?

  孫元浩:這也是個很好的問題,我們有思想準備。做基礎軟件確實是一個投入非常大的事情,動輒上千萬上億投入,才能把產品做好。如果我們去做應用,在大數(shù)據(jù)應用領域我們沒有太大的創(chuàng)新點,也沒辦法去區(qū)別于其他公司,而基礎軟件是我們擅長的。

  我們的目標并不是追逐短期內獲益或者說是個人財富短期迅速增長,我們目標放的更長遠,那就是要把這個事情做好。星環(huán)的大部分人都是從外企走出來的,大家放棄了高薪,唯一的目的就是想把這個事業(yè)做好。

  做基礎軟件,人才一直是比較難解決的問題,不過創(chuàng)業(yè)型公司跟大型外企和互聯(lián)網(wǎng)公司相比,我認為有幾點還是比較有吸引力:

  ***、我們的工作是創(chuàng)新的前沿的,比較挑戰(zhàn)性,這對技術高手是比較有吸引力的。

  第二、員工激勵,我們是全員持股,每個人都有公司期權,這跟在外企打工有很大不同,大家都是平等的,都是指揮官,大家一起奮斗。

  第三,國內創(chuàng)業(yè)環(huán)境氛圍很好,國家鼓勵創(chuàng)新創(chuàng)業(yè),對于人才的加入創(chuàng)造了一個有利的環(huán)境。

  當然除此之外,招聘依然還是個老大難的問題,因此我們一方面與招聘機構合作,另一方面也自己在培養(yǎng)新員工,引進一些技術高手。

  老魚:從架構圖中,我看到星環(huán)對Spark, Shark, Hbase等Hadoop生態(tài)圈的組件都進行很多的改造和優(yōu)化,也常關注國內外大數(shù)據(jù)的***技術動態(tài)并且考慮如何加入到產品中來,星環(huán)新增功能和產品功能改造將會依據(jù)一個什么樣的規(guī)則?

 

  孫元浩:我們的產品策略,得從我們的產品架構圖上講起。如下圖

 

Hadoop這層我們會與社區(qū)同步,并向社區(qū)反饋貢獻。在Hadoop之上這層,我們會有3大組件Transwarp Hyperbase, Transwarp Stream,Transwarp Inceptor,這3個組件我們定位成自己的產品,我們會獨立開發(fā)和發(fā)展,這塊產品啟用標準的SQL,或者開放API,這是個分割線。Hadoop生態(tài)系統(tǒng)的組件我們保證和開源版本全兼容的,包含Spark也會跟接口做兼容性測試。

責任編輯:市場部
相關推薦

2021-11-02 09:50:37

MPPHadoop架構

2023-01-06 11:08:51

MPP架構Hadoop

2021-11-26 10:48:06

MPPHadoop數(shù)據(jù)庫

2021-04-09 09:39:02

微軟Windows 10應用商店

2022-07-01 18:13:51

MPPHadoop大數(shù)據(jù)

2019-11-18 09:43:49

安卓安卓應用安卓系統(tǒng)

2021-03-26 09:49:22

架構并行處理

2020-07-08 08:40:05

黑帽黑客網(wǎng)絡安全

2014-11-05 10:07:34

優(yōu)化Hadoop發(fā)行版

2021-07-16 09:59:59

5G物聯(lián)網(wǎng)網(wǎng)絡

2019-04-10 13:00:37

人工智能AI

2022-11-06 15:38:00

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)SCADA

2009-12-11 17:49:13

2013-09-05 09:47:35

TwitterSummingbird開源

2023-08-24 16:46:51

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)

2012-09-11 10:26:11

AMD處理器架構Steamroller

2019-11-29 09:21:04

云計算混合云安全

2012-06-14 09:23:02

云計算電腦主機

2013-04-02 11:33:45

2015-09-15 16:01:40

混合IT私有云IT架構
點贊
收藏

51CTO技術棧公眾號