用戶超過10人就玩完:Gartner稱,數(shù)據(jù)湖搞不定SQL并發(fā)機制!
Spark的支持者Databricks宣稱,我們正在努力解決這個問題。
據(jù)Gartner聲稱,數(shù)據(jù)湖在試圖執(zhí)行SQL查詢時,很難支持10個以上的用戶,而SQL查詢曾經被視為完全適合數(shù)據(jù)倉庫技術。
處理數(shù)據(jù)湖時,Apache Spark是使用最廣泛的處理引擎,原因在于它是一種單一的框架,既可以處理機器學習和圖形處理,還可以執(zhí)行批處理(能夠支持實時處理)。這家知名調研公司表示,然而,Spark不適合同時試圖使用SQL查詢數(shù)據(jù)的許多企業(yè)用戶。
Gartner的分析師兼高級總監(jiān)Sumit Pal表示:“使用來自數(shù)據(jù)湖的數(shù)據(jù)面臨的一些挑戰(zhàn)在于并發(fā)機制方面。并發(fā)活動密集、甚至并發(fā)用戶數(shù)量達到兩位數(shù),常常會降低數(shù)據(jù)湖的速度,這表現(xiàn)在延遲時間變長。”
數(shù)據(jù)湖技術一直在努力通過支持SQL,使企業(yè)用戶更容易訪問所存儲的續(xù)流數(shù)據(jù)。比如說,去年11月,數(shù)據(jù)管理和機器學習框架廠商Databricks預覽了就為了這個用途的SQL Analytics。Databricks的這個開放格式數(shù)據(jù)引擎基于Delta Lake,旨在為現(xiàn)有的數(shù)據(jù)湖確保規(guī)范和高性能。
與此同時,AWS的數(shù)據(jù)湖:Elastic Map Reduce可以通過SQL Workbench或Presto SQL來處理SQL查詢。Azure在其數(shù)據(jù)湖(HD Insight或Azure Databricks)中支持SQL查詢,而谷歌云平臺(GCP)使用了Bigtable、Dataflow和Bigquery的組合。
但是巨頭們實現(xiàn)的這些系統(tǒng)無法處理“傳統(tǒng)”數(shù)據(jù)倉庫支持的SQL查詢數(shù)量,其中一些可能擴展到成千上萬個并發(fā)用戶。
延遲和并發(fā)是大問題
Pal告訴參加Gartner數(shù)據(jù)暨分析峰會的與會人士:“如今數(shù)據(jù)湖實際上并沒有用于商業(yè)智能(BI)工作負載,尤其是并沒有用于需要高并發(fā)性和低延遲的大型組織。過去在數(shù)據(jù)湖上開發(fā)出來的SQL引擎其實從未真正滿足過并發(fā)性和延遲這兩方面的要求。”
Databricks CEO Ali Ghodsi表示,這家公司已經意識到了并發(fā)問題,正在努力改進。“并發(fā)是Spark之類的技術未能做好的方面。這一直是我們關注的重點。”
他說:“我們已經在超大數(shù)據(jù)倉庫方面處于世界一流水平:我們可以處理數(shù)量眾多的數(shù)據(jù),而且可以比其他任何公司更快速、更出色地處理,但是當數(shù)據(jù)倉庫很小,同一個倉庫上又有許多不同的并發(fā)用戶(比如32個用戶),這未必是我們最擅長處理的。”
Ghodsi表示,最初于去年7月構建的SQL Analytics起初無力支持32個并發(fā)用戶,但是2月份的版本表明,它能夠為一個SQL端點每小時處理來自32個用戶的19000個查詢。他表示,為了支持更多的用戶,客戶可能需要在云端啟動更多的端點。