巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人&CTO王濤:企業(yè)級(jí)NewSQL加速企業(yè)大數(shù)據(jù)落地
原創(chuàng)【51CTO.com原創(chuàng)稿件】2016年11月25-26日,WOT2016大數(shù)據(jù)峰會(huì)在北京粵財(cái)JW萬豪酒店召開,50多位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者齊聚現(xiàn)場(chǎng),在圍繞數(shù)據(jù)智能、大數(shù)據(jù)商業(yè)、區(qū)塊鏈、實(shí)時(shí)計(jì)算、系統(tǒng)架構(gòu)、NoSQL等前沿技術(shù)話題展開深度交流和溝通探討的同時(shí),分享大數(shù)據(jù)領(lǐng)域***實(shí)踐和最熱門的行業(yè)應(yīng)用。
在WOT2016大數(shù)據(jù)技術(shù)峰會(huì)NoSQL技術(shù)實(shí)踐主題專場(chǎng),SequoiaDB巨杉數(shù)據(jù)庫 聯(lián)合創(chuàng)始人&CTO,王濤先生帶來了《企業(yè)級(jí)NewSQL技術(shù)解析與應(yīng)用案例》的演講,會(huì)后記者對(duì)他進(jìn)行了采訪。
王濤,此前在IBM DB2北美實(shí)驗(yàn)室工作,負(fù)責(zé)數(shù)據(jù)庫內(nèi)核研發(fā)和下一代大數(shù)據(jù)架構(gòu)的規(guī)劃。是DB2,DPF等的專家。
一、交互是巨杉數(shù)據(jù)庫主要發(fā)展方向
SequoiaDB巨杉數(shù)據(jù)庫是一款企業(yè)級(jí)分布式NewSQL數(shù)據(jù)庫,自主研發(fā)并擁有完全自主知識(shí)產(chǎn)權(quán),沒有基于任何其他外部的開源數(shù)據(jù)庫源代碼。SequoiaDB支持標(biāo)準(zhǔn)SQL、事務(wù)操作、高并發(fā)、分布式、可擴(kuò)展、與雙引擎存儲(chǔ)等特性,并已經(jīng)作為商業(yè)化的數(shù)據(jù)庫產(chǎn)品開源。
談到分布式NewSQL數(shù)據(jù)庫技術(shù)架構(gòu)特點(diǎn),王濤先生表示,分布式NewSQL***的特點(diǎn)有兩個(gè)方面。
首先,跟傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,分布式NewSQL數(shù)據(jù)據(jù)***特點(diǎn)就是分布式,原本存在一個(gè)節(jié)點(diǎn)里面的數(shù)據(jù),現(xiàn)在可以把它分布到幾千個(gè)節(jié)點(diǎn)里面,這樣可以提升它的存儲(chǔ)能力和技術(shù)能力。其次,跟同樣新型的NoSQL數(shù)據(jù)庫來比,分布式NewSQL***的區(qū)別在于對(duì)SQL的支持,大部分的NoSQL數(shù)據(jù)庫都是以互聯(lián)網(wǎng)起家的,而在金融、政府這樣的傳統(tǒng)行業(yè)數(shù)據(jù)庫應(yīng)用中,很多企業(yè)需要仍然強(qiáng)大的SQL支持的能力,這些也是NoSQL跟NewSQL相比***的區(qū)別。
對(duì)于巨杉數(shù)據(jù)庫跟其他的NoSQL數(shù)據(jù)庫對(duì)比有哪些特點(diǎn)?王濤先生表示,SequoiaDB從對(duì)企業(yè)級(jí)最重要的特性方面來講,首先是對(duì)于SQL的支持,這也是所有企業(yè)在使用新型分布式數(shù)據(jù)庫的時(shí)候***個(gè)想到的問題。而巨杉數(shù)據(jù)庫是支持標(biāo)準(zhǔn)SQL兼容的,巨杉數(shù)據(jù)庫能夠讓傳統(tǒng)企業(yè)的應(yīng)用系統(tǒng)不需要過多的調(diào)整就可以***使用新一代分布式數(shù)據(jù)庫,做到SQL的兼容。其次,巨杉數(shù)據(jù)庫的雙存儲(chǔ)引擎機(jī)制、Spark深度整合等都是對(duì)企業(yè)級(jí)數(shù)據(jù)庫非常重要的東西。
王濤先生表示,從業(yè)務(wù)場(chǎng)景上來看,大數(shù)據(jù)業(yè)務(wù)目前主要分為分析類和交互類,巨杉數(shù)據(jù)庫大的發(fā)展方向是以實(shí)時(shí)交互類為主。在交互類這塊,對(duì)于近線數(shù)據(jù)管理和查詢、非結(jié)構(gòu)化數(shù)據(jù)和影像數(shù)據(jù)管理、用戶畫像、數(shù)據(jù)湖平臺(tái)等都非常適合用巨杉數(shù)據(jù)庫。
二、巨杉數(shù)據(jù)庫雙引擎技術(shù)以及Spark 2.0深度集成
巨杉的雙引擎,一個(gè)是記錄引擎,一個(gè)存非結(jié)構(gòu)化文件引擎,類似于軟件定義存儲(chǔ)的概念。目前,大家在用分布式結(jié)構(gòu)數(shù)據(jù)庫的時(shí)候,很多用戶希望把圖片、照片或者影像也存到這個(gè)地方,因?yàn)閿?shù)據(jù)量很大。這就需要能夠既支持記錄級(jí)別的存儲(chǔ),也能夠支持圖像塊結(jié)構(gòu)的存儲(chǔ),這兩者使用的機(jī)制是完全不一樣的,其中一個(gè)是記錄的存儲(chǔ)引擎,一個(gè)是塊存儲(chǔ)引擎。塊存儲(chǔ)引擎可以把它理解成軟件定義存儲(chǔ),它可以把一個(gè)大的文件切成很多碎塊,通過散列的方式,散列在不同的機(jī)器里面,這是兩個(gè)本質(zhì)的區(qū)別。
巨杉數(shù)據(jù)庫就通過雙引擎的機(jī)制,讓用戶將結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)同時(shí)存儲(chǔ),大大提升了效率。
Spark2.0深度集成則是巨杉數(shù)據(jù)庫企業(yè)版的另一大特性,王濤先生表示,Spark作為內(nèi)存計(jì)算框架是計(jì)算層的一部分,巨杉數(shù)據(jù)庫則定位于存儲(chǔ)層。這樣,Spark2.0把兩個(gè)層面分開,兩者結(jié)合就能夠提供分布式的計(jì)算分析,而數(shù)據(jù)分析、機(jī)器學(xué)習(xí)都是Spark2.0提供的東西。
巨杉目前這種分布式數(shù)據(jù)庫與分析計(jì)算層的混搭互補(bǔ)是硅谷大數(shù)據(jù)領(lǐng)域***的主流趨勢(shì),真正走在了前面。
三、NewSQL代表數(shù)據(jù)庫的未來
談到分布式數(shù)據(jù)庫未來的發(fā)展趨勢(shì),王濤先生認(rèn)為,當(dāng)前來看,大家都在談NoSQL和NewSQL。從傳統(tǒng)來看,NoSQL本身針對(duì)的是從互聯(lián)網(wǎng)起家的一些玩家,這些玩家可能對(duì)于SQL和其他的企業(yè)級(jí)的功能并不是很重視。
但是,未來隨著新一代分布式數(shù)據(jù)庫在各個(gè)行業(yè)的不斷應(yīng)用和普及,NoSQL和NewSQL這兩者肯定是逐漸的過程,NoSQL數(shù)據(jù)庫會(huì)不斷注重企業(yè)級(jí)功能如SQL支持的提升。數(shù)據(jù)庫未來將會(huì)是一個(gè)分布式、高性能的立足實(shí)時(shí)處理和在線服務(wù)同時(shí)作為數(shù)據(jù)源支持上層的數(shù)據(jù)分析應(yīng)用的定位。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】