Databricks決定開(kāi)源其Delta Lake數(shù)據(jù)湖
為了消除 Databricks 競(jìng)爭(zhēng)對(duì)手的疑慮,Databricks 周二表示,它正在開(kāi)源所有 Delta Lake API,作為 Delta Lake 2.0 版本的一部分。該公司還宣布將把 Delta Lake 的所有增強(qiáng)功能貢獻(xiàn)給 Linux 基金會(huì)。
Cloudera、Dremio、谷歌(Big Lake)、微軟、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和 Vertica 等 Databricks的競(jìng)爭(zhēng)對(duì)手對(duì)該公司提出了批評(píng),質(zhì)疑 Delta Lake 是開(kāi)源的還是專(zhuān)有的,因此搶走了一定份額的潛在客戶。
Ventana Research 研究總監(jiān)馬特·阿斯萊特(Matt Aslett)說(shuō):“新公告應(yīng)該為用戶提供連續(xù)性和清晰度,并有助于消除關(guān)于 Delta Lake 是專(zhuān)有還是開(kāi)源的混淆(部分由競(jìng)爭(zhēng)對(duì)手引發(fā))?!?/p>
Constellation Research 首席分析師 Doug Henschen 表示,隨著這些公告的發(fā)布,Databricks 正在消除客戶的擔(dān)憂和競(jìng)爭(zhēng)性批評(píng)。
“在競(jìng)爭(zhēng)性交易中,Snowflake 等競(jìng)爭(zhēng)對(duì)手會(huì)向潛在客戶指出 Delta Lake 的某些方面是專(zhuān)有的,”Henschen 說(shuō),并補(bǔ)充說(shuō) Databricks 客戶可以相信他們的數(shù)據(jù)在一個(gè)開(kāi)放平臺(tái)上,而不是鎖定在 Delta Lake 中。
Databricks 將 Delta Lake 稱為數(shù)據(jù)庫(kù)湖,一種同時(shí)提供存儲(chǔ)和分析功能的數(shù)據(jù)架構(gòu),這與以原生格式存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)湖和存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)(通常以 SQL 格式)的數(shù)據(jù)倉(cāng)庫(kù)的概念形成對(duì)比。
商業(yè)開(kāi)源市場(chǎng)競(jìng)爭(zhēng)加劇
隨著數(shù)據(jù)湖市場(chǎng)上的商業(yè)開(kāi)源項(xiàng)目越來(lái)越多,Databricks 的 Delta Lake 會(huì)發(fā)現(xiàn)自己面臨新的競(jìng)爭(zhēng),包括為超大型分析表提供高性能查詢的 Apache Iceberg。
“還有一些開(kāi)源項(xiàng)目最近開(kāi)始商業(yè)化,例如用于 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他們的 Apache Iceberg 產(chǎn)品,”Amalgam Insights 首席分析師 Hyoun Park 說(shuō)?!半S著這些產(chǎn)品的推出,Delta Lake 面臨著來(lái)自其他開(kāi)源 Lakehouse 格式的壓力,因?yàn)?Lakehouse 市場(chǎng)開(kāi)始分裂并且技術(shù)人員有多種選擇,因此在功能上變得更加強(qiáng)大,”P(pán)ark 補(bǔ)充道。
Ventana 的 Aslett 說(shuō),該領(lǐng)域的許多其他參與者都專(zhuān)注于 Apache Iceberg 作為 Delta Lake 表的替代品。與以行和列存儲(chǔ)數(shù)據(jù)的傳統(tǒng)表相比,Delta 表可以使用 ACID(原子性、一致性、隔離性和持久性)事務(wù)來(lái)存儲(chǔ)元數(shù)據(jù),并幫助加快數(shù)據(jù)導(dǎo)入。
4 月,Google 宣布支持 Big Lake 和 Iceberg,本月早些時(shí)候,Snowflake 宣布在私人預(yù)覽版中支持 Apache Iceberg 表。Henschen 說(shuō),與 Databricks 的開(kāi)源戰(zhàn)略一樣,Iceberg 的公告旨在吸引潛在客戶,這些客戶可能擔(dān)心向一家供應(yīng)商承諾,以及未來(lái)可能無(wú)法訪問(wèn)自己的數(shù)據(jù)。
Gartner 前研究副總裁 Sanjeev Mohan 表示,面對(duì)新的競(jìng)爭(zhēng),Databricks 轉(zhuǎn)向開(kāi)源 Delta Lake 是一個(gè)很好的舉措。
Delta Lake 2.0 提供更快的查詢性能
該公司表示,Databricks 的 Delta Lake 2.0 將于今年晚些時(shí)候全面推出,預(yù)計(jì)將為數(shù)據(jù)分析提供更快的查詢性能。
Databricks 周二還發(fā)布了第二版 MLflow——一個(gè)用于管理端到端機(jī)器學(xué)習(xí)生命周期 (MLOps) 的開(kāi)源平臺(tái)。該公司表示,MLflow 2.0 附帶 MLflow Pipelines,它為數(shù)據(jù)科學(xué)家提供基于他們正在構(gòu)建的模型類(lèi)型的預(yù)定義、生產(chǎn)就緒模板,使他們能夠加速模型開(kāi)發(fā),而無(wú)需生產(chǎn)工程師的干預(yù)。
據(jù)分析師稱,MLflow 2.0 將成為數(shù)據(jù)科學(xué)家更成熟的選擇,因?yàn)闄C(jī)器學(xué)習(xí)生產(chǎn)仍然是一個(gè)具有挑戰(zhàn)性的過(guò)程,并且將算法模型轉(zhuǎn)換為安全管理資源上的生產(chǎn)級(jí)應(yīng)用程序代碼仍然很困難。
“這個(gè)領(lǐng)域有許多供應(yīng)商解決方案,包括 Amazon Sagemaker、Azure 機(jī)器學(xué)習(xí)、谷歌云 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但與超大規(guī)模和 Databricks 的統(tǒng)一方法相比,Databricks 是一個(gè)中立的供應(yīng)商數(shù)據(jù)和模型管理是 MLOps 供應(yīng)商的一個(gè)差異化因素,這些供應(yīng)商專(zhuān)注于模型操作化的編碼和生產(chǎn)挑戰(zhàn),”Amalgam 的 Park 說(shuō)。
Henschen 表示,發(fā)布 MLflow 2.0 的舉措簡(jiǎn)化了將流式傳輸和流式分析引入生產(chǎn)數(shù)據(jù)管道的途徑,并補(bǔ)充說(shuō),許多公司在 MLOps 方面遇到了困難,即使在成功創(chuàng)建機(jī)器學(xué)習(xí)模型后也會(huì)失敗。