自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

欲做圖數(shù)據(jù)領(lǐng)域的Oracle 費(fèi)馬科技有啥過人之處?

原創(chuàng)
人工智能 大數(shù)據(jù) 新聞
如今數(shù)據(jù)之間的聯(lián)系也變得越來越復(fù)雜,圖數(shù)據(jù)開始走進(jìn)企業(yè)的視野,讓更多復(fù)雜的數(shù)據(jù)可以高效的連接并從中進(jìn)行分析。費(fèi)馬科技專注于圖數(shù)據(jù)技術(shù),憑借高水平的人才以及支持以恒的投入,欲做圖數(shù)據(jù)領(lǐng)域的Oracle,那么,費(fèi)馬科技有哪些過人之處?

【51CTO.com原創(chuàng)稿件】數(shù)據(jù),無疑是企業(yè)重要的資產(chǎn)之一。隨著大數(shù)據(jù)的到來,豐富的數(shù)據(jù)格式以及數(shù)據(jù)量幾何式的增長(zhǎng),給企業(yè)帶來了巨大壓力。如何將數(shù)據(jù)有效的利用,分析挖掘出更大的價(jià)值,輔助企業(yè)進(jìn)行決策,是每個(gè)企業(yè)都要關(guān)心的。過去,更多的數(shù)據(jù)存在于關(guān)系型數(shù)據(jù)庫(kù)中,以二維表格形式存在,而如今數(shù)據(jù)之間的聯(lián)系也變得越來越復(fù)雜,圖數(shù)據(jù)開始走進(jìn)企業(yè)的視野,讓更多復(fù)雜的數(shù)據(jù)可以高效的連接并從中進(jìn)行分析。

圖的國(guó)內(nèi)外發(fā)展

在計(jì)算機(jī)領(lǐng)域,圖(Graph)是一種數(shù)據(jù)結(jié)構(gòu),由結(jié)點(diǎn)的有窮集合V(vertex)和邊的集合E(edge)組成。在圖中,最基本的單元是頂點(diǎn)(vertex),頂點(diǎn)之間的關(guān)聯(lián)關(guān)系被稱為邊(edge)。



圖大概是在上世紀(jì)5、60年代就已經(jīng)存在了,當(dāng)時(shí)有一些經(jīng)典的算法,比如最短路徑算法,生成樹算法。到了2009年前后,Google發(fā)表了一篇論文,內(nèi)容是關(guān)于Google開發(fā)了一個(gè)系統(tǒng)用于解決大規(guī)模圖計(jì)算的問題,而之后,圖開始進(jìn)入到企業(yè)的視野中。當(dāng)時(shí),Google將圖應(yīng)用在PageRank網(wǎng)頁(yè)排序方面,由于Google搜索引擎中的網(wǎng)頁(yè)有很多,用戶在搜索時(shí)頁(yè)面排序的前后順序,就應(yīng)用了PageRank算法。每個(gè)網(wǎng)頁(yè)是圖中的一個(gè)頂點(diǎn),如果有一個(gè)鏈接指向另一個(gè)網(wǎng)頁(yè),那么這兩個(gè)網(wǎng)頁(yè)之間有形成一條邊,通過網(wǎng)頁(yè)之間的互相指向,從而構(gòu)成一張巨大的圖。然后基于圖進(jìn)行分析,給每個(gè)網(wǎng)頁(yè)賦予一個(gè)Rank值,Rank值較高的網(wǎng)頁(yè),則是相對(duì)比較重要以及權(quán)威的,因此在用戶搜索的時(shí)候就會(huì)排在前面。

而在國(guó)內(nèi),圖的發(fā)展相對(duì)較晚,基本集中在學(xué)術(shù)界,例如清華、華中、上海交大、中科院等高等院校均有團(tuán)隊(duì)或項(xiàng)目組進(jìn)行相關(guān)研究。而像阿里、百度、騰訊等互聯(lián)網(wǎng)頭部公司也已經(jīng)在開展圖數(shù)據(jù)的相關(guān)應(yīng)用。

圖這樣的結(jié)構(gòu),和人工智能領(lǐng)域中的知識(shí)圖譜結(jié)構(gòu)很像,費(fèi)馬科技CEO洪春濤解釋說,知識(shí)圖譜是圖的一種應(yīng)用,通過圖這樣的數(shù)據(jù)結(jié)構(gòu)組成知識(shí)圖譜。谷歌提出來的知識(shí)圖譜Knowledge Graph是一種特殊的圖,每一個(gè)屬性都會(huì)抽象為一個(gè)頂點(diǎn),每個(gè)頂點(diǎn)是沒有屬性。但是有時(shí)可以將該屬性作為頂點(diǎn)的屬性存在,而不需要單獨(dú)抽象為頂點(diǎn),這就是Property Graph屬性圖。例如在搜索某個(gè)人物時(shí),他的年齡、身高等就可以作為這個(gè)人物的屬性。

相比傳統(tǒng)的關(guān)系型數(shù)據(jù),圖的邏輯可以很好的解決目前遇到的關(guān)聯(lián)數(shù)據(jù)分析問題,如繪制用戶社交關(guān)系圖譜做社交影響力排名、好友推薦;通過繪制資金交易圖譜做大數(shù)據(jù)征信、反欺詐等應(yīng)用;構(gòu)建設(shè)備關(guān)系網(wǎng)絡(luò)圖譜實(shí)現(xiàn)物聯(lián)網(wǎng)建模分析、供電網(wǎng)絡(luò)建模分析等等。

圖數(shù)據(jù)系統(tǒng)的相關(guān)代表

目前業(yè)界主流的圖計(jì)算系統(tǒng)和圖數(shù)據(jù)庫(kù)有GraphX、PowerGraph、Neo4j和Titan,而各個(gè)系統(tǒng)都是由利弊的。

GraphX是大家用到最多的圖計(jì)算產(chǎn)品,是基于Spark的軟件系統(tǒng),而Spark的設(shè)計(jì)是為了滿足通用計(jì)算的場(chǎng)景,對(duì)于圖計(jì)算的支持并不是很好。因此,在此之上搭建支持圖計(jì)算的系統(tǒng),性能就會(huì)大打折扣。洪春濤介紹說,GraphX將所有頂點(diǎn)的數(shù)據(jù)視為一個(gè)不可更改的整體(RDD),如果需要修改其中某些頂點(diǎn)的數(shù)據(jù),需要將數(shù)據(jù)整體拷貝,然后進(jìn)行修改。這樣做的優(yōu)點(diǎn)是,如果新生成數(shù)據(jù)的過程中出現(xiàn)機(jī)器宕機(jī),那么原始數(shù)據(jù)還是存在的,還可以從新再運(yùn)行。但是圖計(jì)算是需要迭代很多次的,例如前文所述的PageRank就需要運(yùn)行20-30輪,如果采用GraphX運(yùn)行,那么每輪迭代都需要增加新的拷貝,***內(nèi)存就要膨脹幾十倍。因此,GraphX的計(jì)算能力就會(huì)受限,基本無法實(shí)現(xiàn)百億級(jí)別的頂點(diǎn)運(yùn)行。由于GraphX發(fā)展比較早,它的設(shè)計(jì)基本能滿足當(dāng)時(shí)的數(shù)據(jù)量,但隨著時(shí)間迭代,GraphX的支持能力受限問題就暴露出來了。

PowerGraph也是圖計(jì)算的系統(tǒng),用C++來編寫的,支持的數(shù)據(jù)量和性能是GraphX的10倍左右。

圖數(shù)據(jù)庫(kù)中做的最早的算是Neo4j,發(fā)展有十余年了。但是Neo4j主要針對(duì)的應(yīng)用是中等規(guī)模的數(shù)據(jù),大概量級(jí)在一億頂點(diǎn)左右,因此,面對(duì)如今互聯(lián)網(wǎng)的海量數(shù)據(jù),也就顯得力不從心。

而國(guó)內(nèi)的BAT,基本上都是基于開源的Titan圖數(shù)據(jù)庫(kù)進(jìn)行修改,來滿足企業(yè)自身的業(yè)務(wù)需求。Titan可以支持很大的數(shù)據(jù)量,底層是基于分布式Key Value Store,但是查詢速度相對(duì)較慢,因此,Titan只能進(jìn)行簡(jiǎn)單的查詢。

編程語(yǔ)言對(duì)于圖計(jì)算的影響

此外,編程語(yǔ)言對(duì)于圖數(shù)據(jù)的計(jì)算性能也是有影響的。目前業(yè)界主流的圖計(jì)算開發(fā)語(yǔ)言是Java和C++。Java相較于C++是個(gè)更高級(jí)的語(yǔ)言,編程簡(jiǎn)單并且不容易出錯(cuò),但是在圖計(jì)算領(lǐng)域,使用Java開發(fā)的系統(tǒng)卻比C++研發(fā)的性能有一定的差別。

首先,在底層會(huì)有一個(gè)Java虛擬機(jī),所有的操作都會(huì)經(jīng)過虛擬機(jī)的轉(zhuǎn)譯才能進(jìn)行執(zhí)行,因此在操作上就會(huì)受限,使用Java編寫的系統(tǒng)就會(huì)多轉(zhuǎn)好幾層,影響了執(zhí)行效率。而C++程序編譯完后是二進(jìn)制代碼,編寫完成后即可在計(jì)算機(jī)上直接運(yùn)行。

其次,Java虛擬機(jī)中有一個(gè)叫做垃圾回收的機(jī)制,當(dāng)系統(tǒng)內(nèi)存使用特別頻繁的時(shí)候就會(huì)造成問題,系統(tǒng)會(huì)頻繁的去進(jìn)行垃圾回收,從而造成軟件性能低下;而在C++中,程序員需要自己管理內(nèi)存,這雖然對(duì)程序員要求較高,卻能***的保證軟件效率。

第三,是系統(tǒng)調(diào)用的問題。C++可以直接通過操作系統(tǒng)調(diào)用來修改系統(tǒng)配置,而Java則需要通過Java虛擬機(jī),如果Java虛擬機(jī)不提供這個(gè)功能,那么Java程序就無法調(diào)用該功能。舉例說,在圖數(shù)據(jù)庫(kù)從外存中讀取數(shù)據(jù)時(shí),有時(shí)需要利用操作系統(tǒng)的MMAP(將一個(gè)文件或者其它對(duì)象映射進(jìn)內(nèi)存)功能,而操作系統(tǒng)會(huì)默認(rèn)進(jìn)行預(yù)讀取,即當(dāng)系統(tǒng)讀取一塊數(shù)據(jù)時(shí),他會(huì)默認(rèn)把后面的數(shù)據(jù)也預(yù)先讀取出來放進(jìn)內(nèi)存。但是,數(shù)據(jù)庫(kù)中的數(shù)據(jù)是隨機(jī)訪問的,預(yù)讀取功能會(huì)造成大量的資源浪費(fèi)。Java中是無法關(guān)閉系統(tǒng)調(diào)用的功能,而C++就可以直接通過系統(tǒng)調(diào)用來更改這一設(shè)置。

費(fèi)馬科技的多方面優(yōu)化

由于圖是一個(gè)高維的數(shù)據(jù),不像是二維數(shù)據(jù),相對(duì)比較規(guī)整,因此,圖數(shù)據(jù)在存儲(chǔ)和計(jì)算的難度也會(huì)相對(duì)增大。對(duì)于傳統(tǒng)的規(guī)整數(shù)據(jù),計(jì)算機(jī)可以通過軟件系統(tǒng)高效實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和分析,而圖的不規(guī)整性導(dǎo)致硬件性能很難發(fā)揮。例如用GraphX運(yùn)行圖數(shù)據(jù)時(shí),基本上占用的內(nèi)存是原始數(shù)據(jù)的幾十倍,因此,很多機(jī)器都運(yùn)行不起來。另外就是性能問題,即使機(jī)器可以運(yùn)行,效率也非常低,這對(duì)業(yè)務(wù)來說是不可接受的。

北京費(fèi)馬科技有限公司成立于2016年,由多名畢業(yè)于清華大學(xué)的博士在清華教授的支持下聯(lián)合組建,是一家專注于圖數(shù)據(jù)技術(shù),為企業(yè)提供高性能圖數(shù)據(jù)存儲(chǔ)及分析平臺(tái)的國(guó)家高新技術(shù)企業(yè)。費(fèi)馬圖數(shù)據(jù)平臺(tái)是費(fèi)馬自主研發(fā)的高效大規(guī)模圖計(jì)算平臺(tái),主要有兩部分構(gòu)成,包括圖分析平臺(tái)PandaGraph和大規(guī)模圖數(shù)據(jù)庫(kù)LightGraph。PandaGraph圖分析平臺(tái)用于對(duì)圖數(shù)據(jù)進(jìn)行高效的分析,LightGraph圖數(shù)據(jù)庫(kù)則用于存儲(chǔ)和查詢圖數(shù)據(jù)。用戶可以直接調(diào)取PandaGraph對(duì)存儲(chǔ)于LightGraph中的圖數(shù)據(jù)進(jìn)行快速分析,并將結(jié)果存儲(chǔ)于LightGraph中以供后續(xù)查詢。

費(fèi)馬科技的產(chǎn)品研發(fā)全部都是自主研發(fā),而不是使用開源的產(chǎn)品架構(gòu),洪春濤坦言,一是開源的產(chǎn)品基礎(chǔ)還不夠完善,受限制比較多,因此很容易看到天花板,就像是老樓改造,而我們從頭開始,相當(dāng)于建造一個(gè)新的大樓,可以從底層到上層全部?jī)?yōu)化。

從架構(gòu)層到功能層,費(fèi)馬圖數(shù)據(jù)平臺(tái)進(jìn)行了層層優(yōu)化。在架構(gòu)層,費(fèi)馬團(tuán)隊(duì)選擇了更適合底層數(shù)據(jù)交互的C++語(yǔ)言,而不是主流的Java語(yǔ)言,雖然編寫的復(fù)雜度高一些,但在應(yīng)用時(shí)能夠更靈活。

在存儲(chǔ)方面,費(fèi)馬支持多版本并發(fā),將讀寫操作分開,寫操作不影響讀操作的性能,不會(huì)因?yàn)轭l繁的讀寫而降低性能;支持事務(wù)內(nèi)并行,多個(gè)線程可以在同一快照上執(zhí)行操作,從而加速長(zhǎng)事務(wù)分布式處理;采用無鎖數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)讀取操作不需要任何鎖操作,帶來極高的吞吐率;前綴壓縮,將相關(guān)數(shù)據(jù)存儲(chǔ)在連續(xù)的空間中,從而提高遍歷操作的效率,減少重復(fù)檢索操作等等。

在分析方面,費(fèi)馬支持分布式擴(kuò)展,能夠線性擴(kuò)展到分布式環(huán)境,正如閃電一樣延伸再延伸;雙模式驅(qū)動(dòng),圖數(shù)據(jù)訪問支持推送和拉取兩種模式,并在運(yùn)行中自動(dòng)選擇更優(yōu)的模式,提高數(shù)據(jù)訪問效率;采用連續(xù)數(shù)據(jù)塊劃分,在數(shù)據(jù)劃分時(shí),利用真實(shí)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)性,將有關(guān)聯(lián)的數(shù)據(jù)劃分在一起,高質(zhì)量的劃分方法在分析時(shí)大有裨益;細(xì)粒度調(diào)度,將圖數(shù)據(jù)任務(wù)動(dòng)態(tài)映射到設(shè)備的CPU、核、線程等多個(gè)層級(jí),滿負(fù)荷利用計(jì)算資源。

費(fèi)馬圖數(shù)據(jù)的產(chǎn)品邏輯在數(shù)據(jù)底層,為存儲(chǔ)和分析大規(guī)模圖數(shù)據(jù)提供強(qiáng)有力的支持,但是團(tuán)隊(duì)在客戶實(shí)踐中經(jīng)常會(huì)幫助客戶額外做場(chǎng)景/算法方面的優(yōu)化。以京東金融為例,京東金融提供“白條”服務(wù),白條的額度取決于用戶的風(fēng)險(xiǎn)值,除了常規(guī)的數(shù)據(jù),參考同一地址等相似信息,通過圖數(shù)據(jù)技術(shù)很容易將有關(guān)系的用戶關(guān)聯(lián)起來,并參考聯(lián)系人的風(fēng)險(xiǎn)系數(shù)計(jì)算該用戶的風(fēng)險(xiǎn)值。費(fèi)馬科技幫助京東金融實(shí)現(xiàn)多賬號(hào)間的關(guān)聯(lián)關(guān)系分析,全量數(shù)據(jù)處理僅需占用1臺(tái)服務(wù)器資源在10分鐘內(nèi)即可完成,而對(duì)比此前基于GraphX需要上百臺(tái)設(shè)備運(yùn)算6個(gè)小時(shí)以上的情況,不止性能提升1000倍,同時(shí)降低金融風(fēng)險(xiǎn),給京東金融帶來驚喜。

目前,市面上沒有一家公司是同時(shí)提供圖數(shù)據(jù)庫(kù)和圖計(jì)算的,而費(fèi)馬科技的提供的圖數(shù)據(jù)庫(kù)和圖計(jì)算產(chǎn)品,可以相互協(xié)作,解決存儲(chǔ)問題的同時(shí)也可以提高分析的效率。當(dāng)然,作為一家創(chuàng)業(yè)不到三年的公司,費(fèi)馬科技的產(chǎn)品也不是全無短板。洪春濤坦誠(chéng)的說,費(fèi)馬科技目前***的短板就是易用性。對(duì)于遇到過的場(chǎng)景,可以進(jìn)行性能優(yōu)化,但是很多應(yīng)用場(chǎng)景都沒有遇到過,也就很難找到方法提升性能。因此,還是需要長(zhǎng)時(shí)間的經(jīng)驗(yàn)積累。

費(fèi)馬科技的核心競(jìng)爭(zhēng)力:人

在談到費(fèi)馬科技***的競(jìng)爭(zhēng)優(yōu)勢(shì)時(shí),洪春濤認(rèn)為,費(fèi)馬科技的核心競(jìng)爭(zhēng)力就是人,聚集高水平的程序員,并且長(zhǎng)時(shí)間的投入到圖數(shù)據(jù)領(lǐng)域中,才會(huì)開發(fā)出真正高水平的系統(tǒng)軟件。的確,從費(fèi)馬科技的組成成員中我們就可以看出,這支初創(chuàng)團(tuán)隊(duì)的實(shí)力。

費(fèi)馬科技CEO洪春濤,畢業(yè)于清華大學(xué)計(jì)算機(jī)系。早在十年之前,他攻讀博士期間就編寫了世界上***個(gè)開源分布式C++圖計(jì)算系統(tǒng)。畢業(yè)后在微軟亞洲研究院的6年間,他帶領(lǐng)團(tuán)隊(duì)主導(dǎo)設(shè)計(jì)了微軟下一代大數(shù)據(jù)系統(tǒng)平臺(tái)和分布式機(jī)器學(xué)習(xí)平臺(tái),協(xié)助Bing搜索團(tuán)隊(duì)實(shí)現(xiàn)早期原型設(shè)計(jì)。

[[270710]]

費(fèi)馬科技CEO洪春濤

費(fèi)馬科技CTO朱曉偉,保送清華進(jìn)行碩博連讀、***獎(jiǎng)學(xué)金、西貝爾學(xué)者、被國(guó)際***期刊重點(diǎn)關(guān)注、斬獲AMC一等獎(jiǎng)等眾多科技獎(jiǎng)項(xiàng)的學(xué)者,其主導(dǎo)的Gemini平臺(tái)為當(dāng)前業(yè)界最快的圖計(jì)算軟件。

費(fèi)馬科技聯(lián)合創(chuàng)始人林恒,也是清華大學(xué)計(jì)算機(jī)系博士,是“神威·太湖之光”Graph500作者。林恒博士主導(dǎo)該系統(tǒng)Graph500評(píng)選并獲得世界排名第二,填補(bǔ)了國(guó)產(chǎn)高性能系統(tǒng)在圖數(shù)據(jù)分析領(lǐng)域獎(jiǎng)項(xiàng)的空白。

費(fèi)馬科技聯(lián)合創(chuàng)始人李愷威博士,是GPU加速、機(jī)器學(xué)習(xí)領(lǐng)域?qū)<遥彩菆F(tuán)隊(duì)的另一位西貝爾學(xué)者、奧賽金牌獲得者,曾率隊(duì)連獲世界三大超級(jí)計(jì)算機(jī)比賽(ASC、SC、ISC)的總冠軍,在清華計(jì)算機(jī)系素有“小神童”之稱。

聰明的人聚集在一起,自然效率也是出奇的高。費(fèi)馬科技圖數(shù)據(jù)平臺(tái)的系統(tǒng)重構(gòu)僅用了三個(gè)月的時(shí)間,還是在洪春濤博士的嚴(yán)格要求下所用的時(shí)間。值得一提的是,這只聰明的團(tuán)隊(duì)是由清華大學(xué)陳文光教授帶領(lǐng),陳老師敏銳的捕捉到了圖數(shù)據(jù)的大有可為器,于是在陳老師的提議下,一眾學(xué)霸們紛紛響應(yīng),于是有了今天的費(fèi)馬科技。

未來發(fā)展

費(fèi)馬科技于2016年成立,先后完成了天使輪、A輪兩輪融資,對(duì)于未來發(fā)展,洪春濤也是有著詳細(xì)的規(guī)劃。短期目標(biāo)是將圖計(jì)算、圖數(shù)據(jù)庫(kù)的產(chǎn)品進(jìn)行優(yōu)化改進(jìn),并且在2-3年內(nèi)推動(dòng)行業(yè)對(duì)圖數(shù)據(jù)的認(rèn)知,當(dāng)用戶遇到相關(guān)問題的時(shí)候可以選擇像費(fèi)馬科技這樣的供應(yīng)商來解決問題。而長(zhǎng)期目標(biāo)是希望用戶不僅知道圖數(shù)據(jù),還可以將圖數(shù)據(jù)應(yīng)用的更好,而費(fèi)馬科技則希望可以成為一家Oracle級(jí)別的軟件公司。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

責(zé)任編輯:鳶瑋 來源: 51cto
相關(guān)推薦

2010-01-14 18:02:05

C++語(yǔ)言

2009-05-25 10:22:00

2012-08-01 13:10:01

微軟Surface

2016-04-29 13:23:53

大數(shù)據(jù)公司

2015-11-27 14:05:03

ivvi

2013-03-08 09:46:34

Linux操作系統(tǒng)安全性

2018-02-07 11:34:18

維諦

2024-06-12 14:59:18

2009-03-16 10:22:33

NehalemMac Pro開盒

2021-06-01 15:14:52

戴爾

2009-09-18 08:35:52

SharePoint2Windows2008

2018-01-23 07:31:32

區(qū)塊鏈比特幣數(shù)據(jù)庫(kù)

2014-03-28 16:15:26

2009-01-07 09:20:00

2012-07-10 10:51:45

2010-08-11 09:30:53

DB2常用函數(shù)

2018-06-29 09:10:51

區(qū)塊鏈數(shù)字貨幣比特幣

2011-12-27 09:51:32

2011科技

2009-11-03 09:49:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)