數(shù)據(jù)管理趨勢:GenAI、數(shù)據(jù)治理和數(shù)據(jù)倉庫
2022年以來的幾個(gè)數(shù)據(jù)管理趨勢在2023年繼續(xù)發(fā)展,包括向云數(shù)據(jù)湖和數(shù)據(jù)湖屋架構(gòu)的轉(zhuǎn)變。宏觀經(jīng)濟(jì)狀況——包括通貨膨脹——繼續(xù)給試圖最大化其潛在數(shù)據(jù)價(jià)值的組織帶來壓力。盡管經(jīng)濟(jì)面臨挑戰(zhàn),一些供應(yīng)商也能夠籌集到資金,盡管2023年的融資額與2021年和2022年的數(shù)字相比相形見絀。
GenAI主導(dǎo)數(shù)據(jù)
就像在IT和其他行業(yè)一樣,GenAI成為數(shù)據(jù)管理的主導(dǎo)趨勢也就不足為奇了。
2023年,幾乎每個(gè)主要的數(shù)據(jù)庫和數(shù)據(jù)平臺(tái)供應(yīng)商都有某種形式的GenAI新聞,一些供應(yīng)商包括GenAI作為助手的工具,幫助用戶執(zhí)行不同的任務(wù)。長期以來,管理數(shù)據(jù)平臺(tái)和編寫不同類型的數(shù)據(jù)查詢一直是一項(xiàng)復(fù)雜的工作,GenAI簡化了這一工作。
在眾多集成了某種形式的AI助手的供應(yīng)商中,Dremio在6月份推出了其文本到SQL AI支持的工具,使用戶能夠更輕松地生成SQL查詢。今年8月,Couchbase發(fā)布了Capella IQ,這是一款幫助開發(fā)人員編寫數(shù)據(jù)庫應(yīng)用程序代碼的生成式AI工具。同樣在8月份,SnapLogic推出了SnapGPT AI工具,幫助用戶使用自然語言構(gòu)建數(shù)據(jù)管道。Alation在10月份宣布了其Allie AI工具,以幫助提高其數(shù)據(jù)目錄和治理工具套件的生產(chǎn)率。
除了集成AI支持的助手外,數(shù)據(jù)庫供應(yīng)商還添加了新的功能,以幫助啟用大型語言模型(LLM)。LLM通常通過提供矢量數(shù)據(jù)庫類型的功能,充當(dāng)檢索增強(qiáng)生成(RAG)的知識(shí)庫,這些功能通常涉及支持將向量嵌入為一種數(shù)據(jù)類型,并提供向量搜索功能。許多數(shù)據(jù)庫供應(yīng)商在2023年增加了對(duì)矢量搜索的支持,包括Rockset、Neo4j、Oracle數(shù)據(jù)庫23c、MongoDB和SingleStore。
數(shù)據(jù)倉庫勢頭繼續(xù)增強(qiáng)
越來越流行的數(shù)據(jù)倉庫——用作數(shù)據(jù)湖的云對(duì)象存儲(chǔ)——擁有類似于數(shù)據(jù)倉庫的數(shù)據(jù)分析用途。
數(shù)據(jù)庫公司在2020年率先提出了數(shù)據(jù)倉庫的基本概念,自那以來,其他公司也紛紛進(jìn)入市場。數(shù)據(jù)庫在2023年通過多次更新推動(dòng)了數(shù)據(jù)湖的努力,其中最引人注目的是6月份發(fā)布的Delta Lake 3.0。Delta Lake是與Apache Iceberg和Apache Hudi并駕齊驅(qū)的三大開源數(shù)據(jù)湖表格式之一。
為了幫助限制三種開源數(shù)據(jù)湖表格式的潛在混淆和鎖定風(fēng)險(xiǎn),OneTable開源項(xiàng)目宣布了一個(gè)跨Hudi、Delta Lake和Iceberg的可互操作的元數(shù)據(jù)層。Apache Hudi供應(yīng)商One House在谷歌和微軟的支持下創(chuàng)辦了OneTable。
甲骨文在7月份推出了MySQL HeatWave服務(wù),從而加入了湖屋行動(dòng)。MySQL HeatWave是一項(xiàng)將操作和分析數(shù)據(jù)庫功能結(jié)合為一個(gè)融合數(shù)據(jù)庫的服務(wù),這是另一個(gè)總體上變得強(qiáng)勁的趨勢。
數(shù)據(jù)治理和可見性仍然是重中之重
無論是AI、數(shù)據(jù)運(yùn)營還是分析,數(shù)據(jù)治理的話題都變得越來越重要。
能夠了解數(shù)據(jù)從何而來,如何使其可用和使用,對(duì)于安全性、保密性、準(zhǔn)確性和可靠性都很重要。在2023年期間,多家供應(yīng)商擴(kuò)展和增強(qiáng)了數(shù)據(jù)治理功能,以幫助管理數(shù)據(jù)。
出于加強(qiáng)數(shù)據(jù)治理的需要,Informatica在6月份收購了初創(chuàng)公司Privitar,以幫助提高這家云數(shù)據(jù)平臺(tái)供應(yīng)商的能力。ColLibra對(duì)其數(shù)據(jù)質(zhì)量、譜系和發(fā)現(xiàn)能力進(jìn)行了改進(jìn)。
去年11月,StarBurst使用自動(dòng)化數(shù)據(jù)治理更新了Galaxy云服務(wù),部分由GenAI提供支持。
具備可見性是能夠有效管理和治理數(shù)據(jù)的一部分。隨著GenAI和矢量數(shù)據(jù)庫在2023年的興起,觀察和管理用于AI的數(shù)據(jù)的能力在未來變得越來越重要。11月,Monte Carlo推出了專門針對(duì)矢量數(shù)據(jù)庫的新的數(shù)據(jù)可見性功能。
投資融資放緩
衡量數(shù)據(jù)管理行業(yè)健康狀況的眾多指標(biāo)之一是新興供應(yīng)商的融資活動(dòng)速度。
盡管融資活動(dòng)的數(shù)量少于過去兩年,但在整個(gè)2023年,幾家數(shù)據(jù)平臺(tái)供應(yīng)商獲得了幾輪重大融資,以推動(dòng)擴(kuò)張和創(chuàng)新。
今年年初,InfluxDB時(shí)間序列數(shù)據(jù)庫的創(chuàng)建者InfluxData在2月份的一輪融資中獲得了8100萬美元,該公司在4月份發(fā)布了InfluxDB 3.0,并為私有云和內(nèi)部部署環(huán)境提供了包括InfluxDB在內(nèi)的新部署選項(xiàng)。
One House在2月份籌集了2500萬美元,通過其OneTable努力促進(jìn)數(shù)據(jù)倉庫的互操作性。Databricks在9月份籌集了5億美元,并計(jì)劃將這筆資金用于專注于GenAI的研發(fā),以及地理增長。Databricks推出了新的工具,用于構(gòu)建由客戶自己的數(shù)據(jù)支持的GenAI應(yīng)用程序,例如矢量搜索和RAG管道。
同樣在9月份,Denodo從私募股權(quán)公司TPG Growth獲得了3.36億美元的股權(quán)投資。Denodo最近添加了新的數(shù)據(jù)治理功能,包括數(shù)據(jù)沿襲,并推出了一個(gè)免費(fèi)層來接觸新用戶。
在2024年及以后,數(shù)據(jù)管理應(yīng)該仍然是數(shù)據(jù)分析、運(yùn)營和AI努力的基礎(chǔ)。GenAI進(jìn)一步整合到數(shù)據(jù)平臺(tái)中,包括數(shù)據(jù)倉庫的努力,對(duì)于供應(yīng)商和用戶來說,都有理由提高效率,以更少的努力完成更多的工作。