自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

結構化數(shù)據計算的新模式

企業(yè)動態(tài)
數(shù)據庫是當前數(shù)據分析中最重要的數(shù)據存在形式,但受其封閉性和關系代數(shù)四十年沒有關鍵性發(fā)展等影響,現(xiàn)今很難滿足多數(shù)據計算量的計算需求。

數(shù)據庫是當前數(shù)據分析中最重要的數(shù)據存在形式,但受其封閉性和關系代數(shù)四十年沒有關鍵性發(fā)展等影響,現(xiàn)今很難滿足多數(shù)據計算量的計算需求。演講嘉賓蔣步星將針對結構化數(shù)據常見的集合和有序運算以及大數(shù)據計算等實際業(yè)務需求,分析探討關系代數(shù)在描述和實施計算時面臨的困難,研究結構化數(shù)據的計算特點后提出更有適應性的計算模型,并進一步形成更有開放性的計算能力提交方案,***再簡單分享對新一代數(shù)據倉庫的展望。

本講座選自潤乾軟件創(chuàng)始人蔣步星于2017年3月28日在清華大數(shù)據“技術·前沿”系列講座上所做的題為《顛覆傳統(tǒng),告訴你一個不同于數(shù)據庫的計算體系》的演講。

[[191378]]

蔣步星演講內容重點分為四個部分。***個部分主要講工程方面的問題,就是關系數(shù)據庫在工程方面不方便的地方,我們應該怎么解決。第二個部分,關系代數(shù)理論體系的很多問題,我們用什么辦法改進。第三部分,大數(shù)據的計算技術。第四部分,展望在這些問題基礎上我們設計一個什么樣的新的數(shù)據庫體系。

蔣步星:提及數(shù)據庫,它不僅僅是做存儲,更重要的是計算,特別是數(shù)據倉庫更涉及計算。數(shù)據庫需要存儲的數(shù)據是比較規(guī)整的,必須經過設計使其有一定的約束性,以確保數(shù)據的合法性,所以它有一定的封閉性。但數(shù)據計算無處不在,此時不應把所有的計算都交給數(shù)據庫來做,而是應該找一個更具開放性且輕量級的計算引擎來實施無處不在的計算。

針對實際中數(shù)據多樣性和數(shù)據源的實時性,庫外計算可以真正實踐一個ETL過程,ETL是先E再T再L,先清洗再轉換再加載;可以減少存儲過程;減少冗余的中間表;可以優(yōu)化執(zhí)行路徑。如果說有獨立于數(shù)據庫之外的計算能力的話,不穩(wěn)定的數(shù)據就可以在數(shù)據庫外做,可以落地到文件系統(tǒng)。但中間數(shù)據仍是需要的,因為數(shù)據運算復雜是無法避免的。

數(shù)據中心是典型的需要數(shù)據庫外計算能力的場景。其對外的接口不能隨便寫入語句執(zhí)行,需做一些訪問的控制、數(shù)據的脫敏,所以它對外是一種服務式的結構,其中包括多個數(shù)據源可編程的,可集成的混合計算。它是輕量級的可集成的而不是一個很獨立的東西,數(shù)據庫相對來說是一個很獨立的進程,集成起來并不是特別方便,這樣的一種方式就可以為數(shù)據中心服務。

關系數(shù)據庫的理論基礎就是關系代數(shù),它有一種形式化的語言就是SQL,考慮到應用中的實際問題,我們設計了另外一種代數(shù)體系-離散數(shù)據集。

并不是所有運算都是集合性的,離散性體現(xiàn)在集合成員可以游離在集合外存在;獨立運算或及其它游離成員再組合新集合運算。

下面是關于離散性數(shù)據應用:

然后是有序的計算,這個也是SQL的弱勢之處。有序的計算天然是集合化和離散性的結合物,有序的含義并不是一個元素的順序,它一定要在一個集合里面才有這個意義,單個就沒有次序的意義了。主要是關于跨行引用、有序分組、位置利用。

案例分析:一支股票連續(xù)上漲多少天。如果是用SQL的分組的思路來做的,它還在上漲我們就跟前面的數(shù)據分成一個組,如果它下跌了就起一個新組,然后再看最長的那個分組就算出來了。若是JAVA程序員可能就是先清零,漲了加一,降了就清零,都可以做出來。但通過關系數(shù)據庫,想出的解決辦法很繞,所以這是我的一個招聘考題,尤其是做公司的可以拿回去試試,通過率能達到30% 左右。

其實代數(shù)體系設計得好,或者辦法好,就是可以少算。接下來涉及高技能計算技術,主要是講遍歷、連接、并行,并行其實主要是解決分段或者是集群問題。

連接其實是關系代數(shù)里面最頭疼的運算,實際上如果我們換一種思維看,剛才講離散性的時候也碰到過,把外鍵指向的記錄就認為是那個記錄,而不是拿個外鍵號對應相等,就把它變成指向那條記錄的對象。現(xiàn)在關系數(shù)據庫最快的解決辦法,是哈希對應,計算哈希值,然后要比對,哈希值如果有重的就要一個一個比對,如果重的多了還要二次哈希,會造成許多繁瑣操作。

不透明的冗余方案:結構化數(shù)據計算經常是數(shù)據密集型任務; 數(shù)據分布后讀取壓力將由多個節(jié)點分擔;每份數(shù)據有多個備份,某節(jié)點失效后還能由別的節(jié)點計算。

另外,備胎式內存分布就不能和外存一樣使用冗余式。

數(shù)據庫(OLTP)與數(shù)據倉庫(OLAP)是不同的。OLTP不算特別明顯的大數(shù)據任務,但并發(fā)多,它特別強調事務一致性,有數(shù)據結構的多樣性。而OLAP業(yè)務涉及的數(shù)據復雜度也比較高,讀數(shù)據沒有什么一致性。關系數(shù)據庫其實是把這兩種需求合到一起了,實際上并不合適。

用數(shù)據倉庫,解決實際計算問題。不像計算引擎是個開放的體系,數(shù)據倉庫雖不能假定數(shù)據類型,但在建新的數(shù)據倉庫時,就可以要求數(shù)據組織是另外的樣子。把眾多數(shù)據組織到一起,存儲量變小常常意味著性能的提升;把主鍵都序號化,建成多層,相當于外層的指針化的主鍵,提高整體效率。

兩個小時的精彩演講落下帷幕,大家針對技術向蔣總提出諸多問題。涉及到OLTP業(yè)務,OLAP業(yè)務的不一樣在于任何一個運算的時候都可能涉及一堆服務器,是簡單的分布式。涉及工程上的問題,數(shù)據計算、數(shù)據庫的同樣會有進一步的發(fā)展等等。

嘉賓簡介

蔣步星,潤乾軟件創(chuàng)始人、***科學家,清華大學計算機碩士,著有《非線性報表模型原理》等。1989年,中國***國際奧林匹克數(shù)學競賽團體冠軍成員,個人金牌。2000年,創(chuàng)立潤乾公司。2004年,***在潤乾報表中提出非線性報表模型,***解決了中國式復雜報表制表難題,目前該模型已成為報表行業(yè)的標準。2014年,經過7年開發(fā),潤乾軟件發(fā)布不依賴關系代數(shù)模型的計算引擎——集算器,有效地提高了復雜結構化大數(shù)據計算的開發(fā)和運算效率。2015年,潤乾軟件被福布斯中文網站評為“2015福布斯中國非上市潛力企業(yè)100強”2016年,榮獲中國電子信息產業(yè)發(fā)展研究院評選的“2016年中國軟件和信息服務業(yè)十大領軍人物”。2017年, 自主創(chuàng)新研發(fā)新一代的數(shù)據倉庫、云數(shù)據庫等產品即將面世。

責任編輯:武曉燕 來源: 潤乾
相關推薦

2017-03-29 20:57:21

數(shù)據計算講座

2021-12-12 08:37:18

結構化數(shù)據非結構化數(shù)據數(shù)據

2018-04-03 14:00:03

結構化數(shù)據非結構化數(shù)據數(shù)據庫

2024-05-27 00:32:45

2009-12-28 14:28:24

Google GAE 結構化數(shù)據

2023-12-26 09:00:00

Java結構化并發(fā)開發(fā)

2014-02-17 10:28:34

大數(shù)據

2014-03-14 09:52:15

非結構化數(shù)據

2021-11-14 20:29:56

web結構化數(shù)據

2023-12-25 15:00:18

結構化布線光纖

2019-07-13 15:00:17

結構化SQLNOSQL數(shù)據庫

2009-02-02 09:05:08

GoogleWebWeb結構化

2012-02-08 15:54:05

ibmdw

2017-11-16 05:22:34

非結構化數(shù)據分析數(shù)據

2014-12-31 14:14:26

AdapterListView List View

2023-11-06 07:39:36

數(shù)據處理異構數(shù)據平臺

2019-10-18 13:07:14

PB數(shù)據非結構化數(shù)據數(shù)據集

2017-12-06 15:46:31

深度學習結構化數(shù)據NLP

2023-03-29 21:06:53

數(shù)據中心

2014-02-09 09:53:05

點贊
收藏

51CTO技術棧公眾號