自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apache IoTDB:更適合工業(yè)物聯(lián)網(wǎng)場(chǎng)景的新型數(shù)據(jù)庫,存、查、用不再是難題

人工智能 新聞
該論文介紹了一款新的時(shí)序數(shù)據(jù)管理系統(tǒng) Apache IoTDB ,其開放式架構(gòu)專門設(shè)計(jì)用于支持物聯(lián)網(wǎng)應(yīng)用的實(shí)時(shí)查詢和大數(shù)據(jù)分析。該系統(tǒng)包括一個(gè)新的時(shí)序文件格式,TsFile ,采用列存儲(chǔ)的方式存儲(chǔ)時(shí)間和值,以避免空值并實(shí)現(xiàn)有效的壓縮。

隨著步入工業(yè) 4.0 時(shí)代,數(shù)字化和自動(dòng)化的引入,生產(chǎn)環(huán)境變得更加高效。同時(shí)智能設(shè)備帶來的海量數(shù)據(jù)的潛在價(jià)值被人們關(guān)注,可如何高效地存儲(chǔ)智能設(shè)備產(chǎn)生的數(shù)據(jù),如何更好地對(duì)海量數(shù)據(jù)進(jìn)行分析成為了難題。傳統(tǒng)的數(shù)據(jù)庫模型和存儲(chǔ)方式儼然已經(jīng)無法適應(yīng)這樣的需求。于是有了時(shí)序數(shù)據(jù)庫,旨在實(shí)現(xiàn)高效地存儲(chǔ)、查詢數(shù)據(jù),幫助更好地發(fā)掘數(shù)據(jù)潛在的價(jià)值。

面對(duì)這樣的狀況,清華大學(xué)于 2015 年啟動(dòng)了 IoTDB 的研制。2020 年 9 月 23 日 Apache IoTDB 畢業(yè)成為 Apache 頂級(jí)項(xiàng)目 (Top-Level Project),是目前唯一由我國高校發(fā)起的 Apache 基金會(huì)頂級(jí)項(xiàng)目,也是 Apache 基金會(huì)旗下唯一物聯(lián)網(wǎng)數(shù)據(jù)管理領(lǐng)域開源項(xiàng)目。2021 年 10 月,Apache IoTDB 核心團(tuán)隊(duì)創(chuàng)立了天謀科技,繼續(xù)運(yùn)營 IoTDB,幫助工業(yè)用戶解決數(shù)據(jù) “存、查、用” 難題。

對(duì)于 Apache IoTDB 研發(fā)的核心技術(shù),幾位參與者聯(lián)合發(fā)表了一篇綜述論文,對(duì)于 IoTDB 的設(shè)計(jì)進(jìn)行了詳細(xì)而完整的闡述。文章以一個(gè)需要管理上萬臺(tái)挖掘機(jī)的工業(yè)公司入手,描述了需求 “數(shù)據(jù)首先被打包到設(shè)備中,然后通過 5G 移動(dòng)網(wǎng)絡(luò)發(fā)送到服務(wù)器。在服務(wù)器中,數(shù)據(jù)被寫入時(shí)間序列數(shù)據(jù)庫,用于 OLTP 查詢。最后,數(shù)據(jù)科學(xué)家可以將數(shù)據(jù)從數(shù)據(jù)庫加載到大數(shù)據(jù)平臺(tái),用于復(fù)雜的分析和預(yù)測(cè),即 OLAP 任務(wù)。”

圖片

  • 論文地址:https://dl.acm.org/doi/abs/10.1145/3589775
  • 項(xiàng)目地址:https://github.com/apache/iotdb

論文重點(diǎn)講述了如下幾個(gè)部分:

1. 數(shù)據(jù)模型的設(shè)計(jì):時(shí)間序列在邏輯層次上的組織方式和在物理模式中的存儲(chǔ);

2. TsFile 文件格式:自研的列式存儲(chǔ)文件格式,同時(shí)滿足寫入、查詢等的高效性;

3. IoTDB 引擎:主要包括存儲(chǔ)引擎、查詢引擎等;

4. 分布式解決方案。

接下來,對(duì)這幾個(gè)重點(diǎn)部分做出更加詳細(xì)的解讀。

詳細(xì)解讀

1. 數(shù)據(jù)模型設(shè)計(jì)

(1)如下圖,采用樹的結(jié)構(gòu),滿足極高強(qiáng)度的寫入操作,并能夠有效處理物聯(lián)網(wǎng)場(chǎng)景中常見的延遲數(shù)據(jù)到達(dá)問題。

在樹中,每一個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)傳感器,每個(gè)傳感器都有其對(duì)應(yīng)的歸屬設(shè)備,正如圖中最下面兩層所示,向上同理。

(2)前文闡述了邏輯結(jié)構(gòu),現(xiàn)在我們來看物理結(jié)構(gòu)的實(shí)現(xiàn),主要為時(shí)間序列 ( Time series )和序列簇( Series family )兩部分組成。下圖展現(xiàn)了每個(gè)時(shí)間序列是由時(shí)間和值兩個(gè)屬性組成,時(shí)間序列通過根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的完整路徑來定位。上圖中則展示了序列簇的概念,一個(gè)序列簇中可能包含多個(gè)設(shè)備,它們的數(shù)據(jù)將一起存儲(chǔ)在 TsFile(一種文件結(jié)構(gòu),在后文中會(huì)講解)中。

圖片

2. TsFile 文件格式的設(shè)計(jì)

TsFile 是 Apache IoTDB 自研列式存儲(chǔ)文件格式。結(jié)構(gòu)如下圖:

TsFile 在設(shè)計(jì)過程中,研究團(tuán)隊(duì)主要解決的問題:

  • 節(jié)省空間,盡可能壓縮數(shù)據(jù)
  • 減少文件數(shù)量
  • 會(huì)一起查詢的時(shí)間序列在物理位置上的接近
  • 減少磁盤碎片
  • 高效訪問

主要給出的解決方案:

  • 列式存儲(chǔ):消除了空值,節(jié)省了磁盤占用;數(shù)據(jù)訪問局部性
  • 時(shí)間序列編碼:利用物聯(lián)網(wǎng)場(chǎng)景時(shí)間序列的獨(dú)特特征
  • 頻域編碼:信號(hào)處理中廣泛進(jìn)行時(shí)間序列的頻域分析
  • 具體的結(jié)構(gòu)解析:頁面( Page )是基本存儲(chǔ)單位,Chunk 中包含多個(gè) Page,一個(gè) chunk 中的 page 屬于同一個(gè)時(shí)間序列,大小可變;Chunk Group 包含多個(gè) Chunk,一個(gè)組中的多個(gè) chunk 屬于同一段時(shí)間內(nèi)寫入的一個(gè)或多個(gè)系列的設(shè)備,將他們放在連續(xù)的磁盤空間,是因?yàn)樗麄兘?jīng)常會(huì)被一起查詢;Block 是在內(nèi)存中的,寫入的塊組先在內(nèi)存中進(jìn)行緩沖,當(dāng)內(nèi)存達(dá)到閾值時(shí),將所有塊組刷新到 TsFile 中;索引(FileIndex)于文件末尾記錄信息,用于數(shù)據(jù)訪問。

3.IoTDB 引擎

在這部分,研究者們主要考慮了物聯(lián)網(wǎng)場(chǎng)景下的延遲到達(dá)、高效查詢處理、類 SQL 查詢的設(shè)計(jì)。IoTDB 引擎結(jié)構(gòu)如下圖:

圖片

圖中我們可以看到主要是用于處理 TsFile 的寫入、讀取、和管理的存儲(chǔ)引擎部分,在這部分中運(yùn)用了自動(dòng)延遲分離技術(shù)(如下圖):

圖片

對(duì)于大多數(shù)都在正常的 TsFile 中,沒有時(shí)間范圍重疊時(shí),推薦使用延遲數(shù)據(jù)分離;對(duì)于大多數(shù)數(shù)據(jù)是無序的情況,延遲數(shù)據(jù)分離則不被推薦使用。

另一重要組成是查詢引擎,這部分負(fù)責(zé)將 SQL 查詢轉(zhuǎn)換為可在數(shù)據(jù)庫中執(zhí)行的操作符。同時(shí),為了適應(yīng)工業(yè)物聯(lián)網(wǎng)場(chǎng)景,Apache IoTDB 設(shè)計(jì)了對(duì)時(shí)間序列數(shù)據(jù)的豐富查詢。

4. 分布式的解決方案

TsFile 可以分布在 HDFS 中,并由 Spark 操作。此外還提供了更好的數(shù)據(jù)分布和查詢處理的原生解決方案,主要為分區(qū)復(fù)制、NB-Raft 復(fù)制和 DYNAMIC 讀一致性。

對(duì)比結(jié)果

論文中提供了 TsFile 與 IoTDB 分別與工業(yè)中廣泛使用的最先進(jìn)的文件格式和時(shí)序數(shù)據(jù)庫的比較結(jié)果,展現(xiàn)了 Apache IoTDB 在多個(gè)方面的優(yōu)勢(shì),如下圖:

圖片

圖片

以上兩張圖,展現(xiàn)了 TsFile 在寫吞吐量、讀取時(shí)間成本、同步的性能上,均優(yōu)于目前廣泛使用的方案。這主要是由于 TsFile 的物聯(lián)網(wǎng)感知結(jié)構(gòu)設(shè)計(jì),避免了存儲(chǔ) deviceId 等冗余信息。而磁盤占用之所以沒有明顯優(yōu)勢(shì),則是因?yàn)闃?gòu)建了更加精細(xì)的索引,導(dǎo)致占用了更多空間,但是這樣的犧牲可以在查詢時(shí)間上帶來非凡的改善,我們可以看到讀取時(shí)間成本的明顯優(yōu)勢(shì)。

圖片

上圖中可以看到 IoTDB 在幾乎所有測(cè)試中都表現(xiàn)出更好的性能,更高的寫吞吐量和更低的寫延遲。

圖片

在上圖的實(shí)驗(yàn)中,我們可以看到,當(dāng)查詢數(shù)據(jù)規(guī)模較大時(shí),IoTDB 具有更好的性能,IoTDB 的優(yōu)勢(shì)在大規(guī)模數(shù)據(jù)聚合中尤為顯著。

總結(jié)

該論文介紹了一款新的時(shí)序數(shù)據(jù)管理系統(tǒng) Apache IoTDB ,其開放式架構(gòu)專門設(shè)計(jì)用于支持物聯(lián)網(wǎng)應(yīng)用的實(shí)時(shí)查詢和大數(shù)據(jù)分析。該系統(tǒng)包括一個(gè)新的時(shí)序文件格式,TsFile ,采用列存儲(chǔ)的方式存儲(chǔ)時(shí)間和值,以避免空值并實(shí)現(xiàn)有效的壓縮。在 TsFile 的基礎(chǔ)上,IoTDB 引擎采用類似 LSM 樹的策略來處理極高強(qiáng)度的寫入,并處理在物聯(lián)網(wǎng)場(chǎng)景中非常普遍的延遲數(shù)據(jù)到達(dá)。豐富的可擴(kuò)展查詢,以及在 TsFile 中預(yù)計(jì)算的統(tǒng)計(jì)信息,使 IoTDB 能夠在 OLTP 和 OLAP 任務(wù)中實(shí)現(xiàn)高效處理。

基于上述的這些技術(shù),IoTDB 已經(jīng)成為能夠更好面對(duì)工業(yè)物聯(lián)網(wǎng)場(chǎng)景的新型數(shù)據(jù)庫。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2015-03-30 15:28:42

創(chuàng)業(yè)創(chuàng)業(yè)融資七牛

2021-06-01 21:55:33

物聯(lián)網(wǎng) IoTDB數(shù)據(jù)庫

2020-11-25 17:50:27

數(shù)據(jù)庫物聯(lián)網(wǎng)SQL

2019-03-18 08:31:02

物聯(lián)網(wǎng)開源數(shù)據(jù)庫IOT

2020-05-14 10:35:18

物聯(lián)網(wǎng)標(biāo)準(zhǔn)物聯(lián)網(wǎng)IOT

2021-05-14 17:52:57

5G通信技術(shù)

2021-03-28 09:24:48

工業(yè)物聯(lián)網(wǎng)IIOT物聯(lián)網(wǎng)

2022-11-11 11:07:33

2018-03-31 09:01:41

物聯(lián)網(wǎng)虛擬運(yùn)營商牌照

2023-11-23 11:10:20

WiFi蜂窩網(wǎng)絡(luò)

2017-03-14 13:28:53

2019-07-18 10:41:10

工業(yè)物聯(lián)網(wǎng)工業(yè)4.0傳感器

2023-03-01 11:37:58

工業(yè)物聯(lián)網(wǎng)IIoT

2016-03-08 09:52:00

物聯(lián)網(wǎng)無線技術(shù)

2016-01-05 11:02:27

WiFi技術(shù)智能家庭物聯(lián)網(wǎng)

2020-11-11 14:56:00

Docker容器工具

2023-06-09 11:19:39

曙睿

2018-10-24 10:40:30

定制化開發(fā)APP

2019-09-29 10:29:23

物聯(lián)網(wǎng)

2009-12-16 09:44:57

Linux桌面Linux
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)