出品 | 51CTO技術(shù)棧(微信號:blog51cto)
編輯 | 言征
本周二,全球知名數(shù)據(jù)分析軟件供應商Databricks發(fā)布了一份聲明稱,Databricks同意收購由Apache Iceberg的創(chuàng)建者領導的存儲平臺提供商Tabular。據(jù)華爾街日報透露,這筆交易的規(guī)模將超過10億美元。值得注意的是,Snowflake和Confluent也參與了這場競購。
此舉被業(yè)界專家視為“提高數(shù)據(jù)湖中的數(shù)據(jù)互操作性”的行動。Databricks首席執(zhí)行官Ghodsi 表示,Tabular 擁有數(shù)百名客戶,它將與 Databricks 合作研究如何處理該產(chǎn)品。
1.Databricks支持Iceberg:OLAP和OLTP兩種開源表格式終于走到了一起
Tabular 成立于 2021 年,已籌集超過 3000 萬美元的資金,投資者包括 Altimeter Capital、Andreessen Horowitz 和 Zetta Venture Partners。
Tabular的創(chuàng)始人Ryan Blue和Daniel Weeks于2017年在Netflix開始開發(fā)Iceberg,并在2018年將其捐贈給Apache軟件基金會,大約在同一時間,Databricks正在開發(fā)Delta Lake,這是一種可用于ACID事務或OLTP處理的開源數(shù)據(jù)表格式。相比之下,Apache Iceberg主要用于OLAP查詢,因為它在并發(fā)寫入方面存在挑戰(zhàn)。
2022年6月,Databricks將其Delta Lake 2.0版本中的所有Delta Lake API開源,并表示將把Delta Lake的所有增強功能貢獻給Linux基金會。
在開源Delta Lake之前,Cloudera、Dremio、Google(Big Lake)、Microsoft、Oracle、SAP、AWS Snowflake、HPE(Ezmeral)和Vertica等競爭對手曾批評該公司,對Delta Lake是否是開源或?qū)S斜硎緫岩?,從而奪走了部分潛在客戶。
通過收購Tabular,Databricks表示將支持數(shù)據(jù)湖中的兩種主要開源表格式,并擴展對其UniForm Tables的支持。
該公司在聲明中表示:“Databricks打算與Delta Lake和Iceberg社區(qū)緊密合作,為數(shù)據(jù)湖帶來格式兼容性;在短期內(nèi),通過Delta Lake UniForm內(nèi)部實現(xiàn),在長期內(nèi),通過朝著單一、開放和共同的互操作性標準發(fā)展來實現(xiàn)?!?/p>
UniForm(通用格式)是2023年6月發(fā)布的一種新表格式,它提供Delta Lake、Iceberg和Hudi之間的互操作性,并支持Iceberg的RESTful目錄接口。
2.Snowflake和Iceberg表、Databricks和Delta Live表的對比
分析師也將Tabular的收購視為Databricks支持更強大互操作性的手段。
“我們之前也見過,公司通常會收購重要開源項目背后的人才,以此在項目的開源開發(fā)者社區(qū)中獲得強大的聲音,”O(jiān)mdia的首席分析師Bradley Shimmin說。
“Tabular的創(chuàng)始人加入Databricks可能會提升Delta Lake和Iceberg標準之間的兼容性,這將使Databricks在支持嚴重依賴Snowflake平臺外部數(shù)據(jù)的客戶方面優(yōu)于Snowflake,”Shimmin解釋道。
然而,這位首席分析師指出,此次收購不太可能阻礙Snowflake使用Iceberg,因為Blue和Weeks很久以前就將該項目開源并捐贈給了Apache軟件基金會。
Constellation Research的首席分析師也認為,Apache Iceberg已經(jīng)超越了所有其他標準,而Databricks為創(chuàng)建表格式互操作性而涉足的舉措將進一步推動它成為主導的表標準。
此外,分析師還指出,這場競爭不僅僅是在兩種開放的表格式之間,還包括Snowflake和Databricks之間的較量。
“這筆交易的時機顯然是為了搶占Snowflake峰會的部分風頭,并試圖通過暗示其對Iceberg標準和Delta Lake的未來將產(chǎn)生巨大影響,在開放性信息方面超越其競爭對手,”Henschen說。
Snowflake本周也展示了其Polaris Catalog,并表示將在接下來的90天內(nèi)將數(shù)據(jù)目錄開源。
Polaris Catalog是基于Iceberg構(gòu)建的數(shù)據(jù)目錄,旨在滿足企業(yè)對于訪問具有數(shù)據(jù)治理能力且支持可互操作查詢引擎的廠商中立產(chǎn)品的需求。
據(jù)分析師稱,Polaris Catalog的發(fā)布與Databricks的Unity Catalog類似,是Snowflake為吸引數(shù)據(jù)目錄用戶遠離競爭對手Databricks,同時增強自身產(chǎn)品吸引力而采用的一種策略。
Amalgam Insights的首席分析師也支持Henschen的觀點,并表示這兩家數(shù)據(jù)湖倉提供商都在努力證明自己更適合支持跨多種數(shù)據(jù)格式和類型的企業(yè)數(shù)據(jù)環(huán)境。
“Databricks通過此次收購獲得了優(yōu)勢,因為它表明它可以支持Iceberg,這可以說是支持最廣泛的表格式,”Park解釋道,并補充說,雖然Databricks歷來對其自主開發(fā)的項目是良好的開源貢獻者,但Iceberg的貢獻者社區(qū)現(xiàn)在比Tabular大得多,擁有來自許多大型廠商的承諾。
然而,Henschen指出,Iceberg有太多感興趣的參與方,任何一家公司都無法單獨主導它,盡管Tabular的收購可能會讓Databricks在Iceberg領域占據(jù)優(yōu)勢。
3.Databricks與Snowflake之間的收購軍備賽
Databricks最近一直在收購公司,今年早些時候的三月,Databricks收購了波士頓的Lilac AI,以幫助企業(yè)探索和使用非結(jié)構(gòu)化數(shù)據(jù)來構(gòu)建基于生成式AI的應用。
在那之前,Databricks在2023年6月左右以13億美元的價格收購了LLM(大型語言模型)和模型訓練軟件提供商MosaicML,以加強其基于生成式AI的產(chǎn)品。
在收購Lilac AI和MosaicML之前,該公司去年5月以未披露的金額收購了以AI為中心的數(shù)據(jù)治理平臺提供商Okera。
這筆收購預計將提升Databricks在訓練和管理大型語言模型(如其專有開源Dolly 2.0 LLM)方面的數(shù)據(jù)治理能力。
Snowflake同樣激進,其收購特點在于,不僅用于加強其生成式AI產(chǎn)品,還用來加強其數(shù)據(jù)管理能力的公司。
其最近的收購形式是收購了一家名為TruEra的可觀測性平臺提供商的資產(chǎn)——這是一家也專注于提供機器學習和LLM生命周期管理能力的初創(chuàng)公司。
去年5月,這家基于云的數(shù)據(jù)倉庫公司以未披露的金額收購了位于加州山景城的初創(chuàng)公司Neeva,以將其基于生成式AI的搜索功能添加到其Data Cloud平臺上。
2023年2月,Snowflake收購了LeapYear以增強其“data clean room”的能力。
LeapYear的收購僅發(fā)生在Snowflake同意收購基于人工智能的時間序列預測平臺提供商Myst AI的一個月之后,使該公司在三年內(nèi)收購了七家公司。