曾在國內(nèi)外五家大廠做數(shù)據(jù)庫工程師,這是他給出的五大數(shù)據(jù)庫趨勢預測
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
出門要健康碼,買東西用支付碼……
什么都可以變成數(shù)據(jù),近來被追捧的元宇宙甚至告訴我們連人都可以變成數(shù)據(jù)。
我們貌似已經(jīng)習慣了與數(shù)據(jù)相依存的生活,但在未來,數(shù)據(jù)會發(fā)展成什么樣子,你有想過嗎?
有30多項機器學習和數(shù)據(jù)云專利的大佬Luhui Hu發(fā)了一篇博客。
他梳理了數(shù)據(jù)庫的發(fā)展以及現(xiàn)狀,或許從中我們可以洞見數(shù)據(jù)未來的模樣。
一起來看看吧~
數(shù)據(jù)的探索
首先,簡單了解下數(shù)據(jù)庫。
一言以蔽之,就是能夠存儲并管理龐雜的數(shù)據(jù)。
在過去的30年中,作為編程語言、操作系統(tǒng)中必不可少的技術,數(shù)據(jù)庫的數(shù)量在呈指數(shù)級增長,已經(jīng)誕生出數(shù)百種不同的數(shù)據(jù)庫。
典型如SQL到NoSQL和NewSQL。
這些數(shù)據(jù)庫主要進行兩項工作:
在線事務處理(OnLine Transactional Processing 簡稱:OLTP);
在線分析處理(OnLine Analytical Processing 簡稱:OLAP) 。
早在20世紀60年代早期,Charles Bachman就開發(fā)了第一個數(shù)據(jù)庫。
起初對于數(shù)據(jù)庫的探索主要集中在數(shù)據(jù)庫查詢和它的模型上,包括SQL(結構化查詢語言)、XML(可擴展標記語言)和面向?qū)ο蟆?/p>
眾多數(shù)據(jù)庫在經(jīng)過10多年的競爭之后,Oracle、SQL Server和MySQL三個脫穎而出。
它們憑借結構化查詢語言和遵循ACID(原子性、一致性、隔離性、持久性,在出現(xiàn)故障的情況下也可以保證數(shù)據(jù)的有效性),幾乎主導了商業(yè)市場和開源社區(qū)。
然而,數(shù)據(jù)的種類、速度以及數(shù)據(jù)量在不斷增長,這對數(shù)據(jù)庫提出了更高的要求,這時出現(xiàn)了一種新的數(shù)據(jù)庫:NoSQL。
不同于傳統(tǒng)的數(shù)據(jù)庫,NoSQL允許部分數(shù)據(jù)使用SQL系統(tǒng)存儲,而其他數(shù)據(jù)則使用NOSQL系統(tǒng)存儲。
除此之外,NoSQL還首次提出了性能效率、模式靈活性和一些新的功能,并且還擁有鍵值存儲、文檔數(shù)據(jù)庫、面向列的數(shù)據(jù)庫、圖形數(shù)據(jù)庫等。
但由于NoSQL數(shù)據(jù)庫在遵守CAP定理(不能同時滿足一致性、可用性、分區(qū)容錯性)時更注重可用性而非一致性,導致許多數(shù)據(jù)庫為了實現(xiàn)最終一致性或非規(guī)范化而做出妥協(xié)和優(yōu)化。
這也恰恰說明了數(shù)據(jù)庫要與時俱進,契合當前數(shù)據(jù)的特點以及人們的需求。
就比如說NewSQL,它是一類現(xiàn)代的關系數(shù)據(jù)庫,為OLTP工作提供了與NoSQL相同的可擴展性能,同時仍然使用SQL并維護傳統(tǒng)數(shù)據(jù)庫的ACID保證。
在數(shù)據(jù)庫的發(fā)展過程中,還有一個不得不提的東西:數(shù)據(jù)倉庫。
它是用于數(shù)據(jù)分析和業(yè)務洞察的核心組件,但在10年前大數(shù)據(jù)平臺出現(xiàn)之后,人們從傳統(tǒng)的數(shù)據(jù)倉庫轉(zhuǎn)移到大數(shù)據(jù)平臺,它就黯然失色了。
直到云技術的出現(xiàn),重新賦予給數(shù)據(jù)倉庫新的性能,使它具備了可擴展性,數(shù)據(jù)倉庫這才再次被人們注意到。
隨著高性能、高可擴展性數(shù)據(jù)云的出現(xiàn),一個新的數(shù)據(jù)平臺生態(tài)系統(tǒng)——現(xiàn)代數(shù)據(jù)堆棧應運而生。
云技術通過云托管(半托管甚至完全托管)和云原生兩種方式使得數(shù)據(jù)庫自動化或半自動化。
在這其中,云技術具體是怎么操作的呢?
它主要是通過解耦數(shù)據(jù)庫的存儲和計算,重新定義體系結構。
并且存儲或計算還可以獨立擴展,提高數(shù)據(jù)庫的效率、性能和靈活性等。
除此之外,這種解耦架構還能為數(shù)據(jù)庫系統(tǒng)合并不同類型的存儲和計算,以實現(xiàn)總體的高性能和新功能。
目前,云技術正在逐步應用到數(shù)據(jù)庫中。
S3(Simple Storage Service 簡單存儲服務)因為自身的簡單性、低成本、高可用性、可擴展性等,已經(jīng)成為云計算的基礎。
而且,它還演變成了數(shù)據(jù)湖,可以用來存儲、處理和保護大量結構化、半結構化和非結構化數(shù)據(jù)。
現(xiàn)代數(shù)據(jù)庫
講了這么多數(shù)據(jù)庫的發(fā)展,說回到現(xiàn)代數(shù)據(jù)庫。
提到現(xiàn)代數(shù)據(jù)庫,就不得不了解下面兩種架構。
首先是Data Lakehouse,它相當于是數(shù)據(jù)倉庫和數(shù)據(jù)湖的結合,可以看作是在對象存儲上運行快速的SQL。
它同時具備了數(shù)據(jù)倉庫的性能和數(shù)據(jù)湖的靈活性,能夠消除數(shù)據(jù)孤島(數(shù)據(jù)之間無法互通)和ETL(抽取-轉(zhuǎn)置-加載)過程,從而使得數(shù)據(jù)的性能、靈活性和成本效益都得到提升。
除此之外,它還統(tǒng)一了所有的數(shù)據(jù),簡化了數(shù)據(jù)工程過程,并支持BI(商業(yè)智能)和AI工作負載在一起。
了解完Data Lakehouse,再來說說混合事務/分析處理 (HTAP)。
它是一種新興的應用程序架構,為熱門的現(xiàn)代數(shù)據(jù)庫提供了動力。
比如說谷歌發(fā)布的HTAP數(shù)據(jù)庫產(chǎn)品AlloyDB,具有卓越的性能、可擴展能力和可用性,并且在高并發(fā)的OLTP環(huán)境中,可以快速響應用戶的復雜操作。
而Snowflake(數(shù)據(jù)云公司)緊隨其后,發(fā)布了Unistore,同樣也支持HTAP,可以在單一平臺上同時處理交易和分析數(shù)據(jù)。
進一步來說,和Lakehouse一樣,HTAP的目標也是消除從OLTP到OLAP或從數(shù)據(jù)湖到數(shù)據(jù)倉庫的ETL過程。
并且,當前的HTAP是支持OLTP和OLAP工作負載的單一系統(tǒng)體系結構,而早期的數(shù)據(jù)庫只能配置為OLAP或OLTP(不能同時使用)。
未來走向
數(shù)據(jù)對于現(xiàn)在的生活的確至關重要,我們也能從現(xiàn)在數(shù)據(jù)庫的發(fā)展狀況窺見些許未來數(shù)據(jù)的走向。
大致總結了五大方向。
統(tǒng)一BI和AI
首先,數(shù)據(jù)庫在未來可能會統(tǒng)一BI和AI。
總的來說,未來數(shù)據(jù)庫的目標應該是解鎖所有數(shù)據(jù)的業(yè)務價值,并支持BI和AI的整個數(shù)據(jù)景觀,包括從描述到診斷、預測和規(guī)范等數(shù)據(jù)分析操作。
統(tǒng)一BI和AI不僅可以消除數(shù)據(jù)倉庫和ETL,還可以簡化管道,提高利益相關者的生產(chǎn)力。Data Lakehouse可以被視作是一個巨大的飛躍,但是目前還只是處于起步階段。
除此之外,在從數(shù)據(jù)到商業(yè)價值的過程中,也會激發(fā)多種的崗位需求: 數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學家、機器學習工程師等。
專用網(wǎng)格
其二,未來的數(shù)據(jù)庫可以通過構建專用的網(wǎng)絡來滿足多樣化需求。
就目前來看,數(shù)據(jù)庫技術融合已經(jīng)成為一種趨勢,如NewSQL、Lakehouse和HTAP。
但NewSQL、Lakehouse仍然是OLTP或OLAP的一種類型,CAP定理仍然成立。
并且當前的HTAP解決方案主要是OLTP,只適合小型工作負載。目前市場上可用的HTAP還遠不能作為大型企業(yè)數(shù)據(jù)倉庫或數(shù)據(jù)非結構化數(shù)據(jù)。
因此,專門構建的數(shù)據(jù)庫很有必要,它可以更好地滿足不同的業(yè)務目標,包括性能、可伸縮性或者/和特定的用例(例如,時間序列數(shù)據(jù)、圖表、搜索等)。
而且還可以分離開具有收斂層的數(shù)據(jù)庫,用于互連、統(tǒng)一的數(shù)據(jù)服務和一致的治理。
多云策略
前面已經(jīng)提到過云技術與數(shù)據(jù)庫的結合,這在未來也是一大發(fā)展趨勢,比如說多云策略。
多云策略是指在不移動數(shù)據(jù)的情況下將公共云和私有云聯(lián)合起來。
它可以提高與多個云供應商的服務可用性,通過近距離計算減少延遲,從特定的云生態(tài)系統(tǒng)啟用獨特的功能,通過更多的云產(chǎn)品擴展全球可用性,并增強數(shù)據(jù)遵從性。
并且,多云策略還可以推動數(shù)據(jù)可觀測性、數(shù)據(jù)編目、數(shù)據(jù)共享和數(shù)據(jù)編排的浪潮。
智能數(shù)據(jù)
數(shù)據(jù)與人工智能也有結合的潛力。
目前,有三個領域的人工智能和數(shù)據(jù)相互啟用:AI for Data,AI for Database和Data for AI。
智能數(shù)據(jù)是AI for Data,它可以使數(shù)據(jù)具有數(shù)據(jù)治理、數(shù)據(jù)譜系、元數(shù)據(jù)、語義以及來自分析和人工智能的新數(shù)據(jù)等方面的要素。
預計到2025年,所有數(shù)據(jù)的10%將由生成型人工智能模型產(chǎn)生。這些數(shù)據(jù)包括聲音、視頻、圖像、文本、結構化數(shù)據(jù)、代碼等。
數(shù)據(jù)資產(chǎn)
數(shù)據(jù)庫除了有上述的發(fā)展趨勢外,還可以用作資產(chǎn)管理。
數(shù)據(jù)資產(chǎn)是將數(shù)據(jù)作為數(shù)據(jù)庫或組織或個人存儲器中的數(shù)字資產(chǎn)進行管理。
這樣的數(shù)據(jù)庫不僅是一個數(shù)據(jù)管理系統(tǒng),而且還提供了數(shù)據(jù)可觀測性、安全和隱私、定價、數(shù)據(jù)生命周期管理等。