自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Snowflake的工作負(fù)載優(yōu)化

譯文
大數(shù)據(jù)
事實表明,高效的數(shù)據(jù)管理和查詢性能對于數(shù)據(jù)投資的有效運營性能至關(guān)重要。

譯者 | 李睿

審校 | 重樓

在大數(shù)據(jù)時代,高效的數(shù)據(jù)管理和查詢性能對于希望從數(shù)據(jù)投資中獲得最佳運營性能的企業(yè)來說至關(guān)重要。Snowflake是一個基于云的數(shù)據(jù)平臺,它為企業(yè)提供了一種高效處理大數(shù)據(jù)表的方式,并降低了數(shù)據(jù)環(huán)境的復(fù)雜性,因此受到了廣泛的歡迎。大數(shù)據(jù)表的特點是其巨大的規(guī)模、不斷增加的數(shù)據(jù)集,以及管理和分析大量信息帶來的挑戰(zhàn)。

隨著數(shù)據(jù)以各種格式從各種來源大量涌入,確保數(shù)據(jù)的可靠性和質(zhì)量越來越具有挑戰(zhàn)。從這些多樣化和動態(tài)的數(shù)據(jù)中提取有價值的見解需要可擴展的基礎(chǔ)設(shè)施、強大的分析工具以及對安全和隱私的高度關(guān)注。盡管存在復(fù)雜性,但大數(shù)據(jù)表為明智的決策和創(chuàng)新提供了巨大的潛力,因此企業(yè)必須了解和處理這些數(shù)據(jù)存儲庫的獨特特征,以有效地利用其全部功能。

為了實現(xiàn)最佳性能,Snowflake利用了幾個基本概念,這些概念有助于高效地處理大數(shù)據(jù)。一種是數(shù)據(jù)修剪,它通過在查詢執(zhí)行期間消除不相關(guān)的數(shù)據(jù)起著至關(guān)重要的作用,通過減少掃描的數(shù)據(jù)量來加快響應(yīng)時間。與此同時,Snowflake的微分區(qū)(通常大小為16 MB的不可變的小段)允許跨節(jié)點的無縫可擴展性和高效分布。

微分區(qū)是Snowflake的一個重要功能。這種創(chuàng)新的技術(shù)結(jié)合了靜態(tài)分區(qū)的優(yōu)點,同時避免了其局限性,從而帶來了額外的顯著好處。Snowflake架構(gòu)的美妙之處在于其可擴展的多集群虛擬倉庫技術(shù),該技術(shù)可自動維護微分區(qū)。這一過程確保在后臺高效和自動地執(zhí)行重新集群,從而消除了人工創(chuàng)建、調(diào)整大小或調(diào)整虛擬倉庫大小的需要。計算服務(wù)主動監(jiān)視所有注冊的集群表的集群質(zhì)量,并系統(tǒng)地在集群最少的微分區(qū)上執(zhí)行集群,直到達到最佳集群深度。這種無縫流程優(yōu)化了數(shù)據(jù)存儲和檢索,提高了整體性能和用戶體驗。

微分區(qū)如何改進數(shù)據(jù)存儲和處理

該設(shè)計提高了數(shù)據(jù)存儲和處理效率,進一步提高了查詢性能。此外,Snowflake的集群特性允許用戶定義集群鍵,根據(jù)相似性在微分區(qū)內(nèi)安排數(shù)據(jù)。通過為集群鍵配置具有相似值的數(shù)據(jù),Snowflake減少了查詢期間的數(shù)據(jù)掃描,從而優(yōu)化了性能。總之,這些關(guān)鍵概念使Snowflake能夠在管理大數(shù)據(jù)工作負(fù)載方面具有無與倫比的效率和性能。

不適當(dāng)?shù)拇髷?shù)據(jù)表的布局可能導(dǎo)致長時間運行的查詢,由于更高的數(shù)據(jù)掃描而增加的成本,以及降低的整體性能。應(yīng)對這一挑戰(zhàn),充分利用Snowflake的能力,最大限度地發(fā)揮其潛力是至關(guān)重要的。大數(shù)據(jù)表管理中的一個主要挑戰(zhàn)是數(shù)據(jù)攝取團隊缺乏對消耗工作負(fù)載的認(rèn)識,從而導(dǎo)致各種問題,對系統(tǒng)性能和成本效益產(chǎn)生負(fù)面影響。長時間運行的查詢是一個嚴(yán)重的后果,會導(dǎo)致交付關(guān)鍵見解的延遲,特別是在實時數(shù)據(jù)分析對決策至關(guān)重要的時間敏感應(yīng)用程序中。此外,由于低效的表布局會消耗更多的計算資源和存儲,導(dǎo)致運營成本的增加,隨著時間的推移會使企業(yè)的預(yù)算緊張。

圖1 頻繁訪問的大數(shù)據(jù)表的列表圖1 頻繁訪問的大數(shù)據(jù)表的列表

優(yōu)化Snowflake性能

優(yōu)化Snowflake性能的第一步是徹底分析消費工作負(fù)載。Acceldata的數(shù)據(jù)可觀察性云計算(ADOC)平臺分析這些歷史工作負(fù)載,并在大小、訪問、分區(qū)和集群級別提供表級洞察。

圖2 訪問頻率最高的表的統(tǒng)計信息圖2 訪問頻率最高的表的統(tǒng)計信息

了解最常執(zhí)行的查詢和應(yīng)用的過濾模式可以提供有價值的見解。重點關(guān)注大型且經(jīng)常訪問的表,因為它們對整體性能的影響最大。

圖3 表中大多數(shù)被過濾的列圖3 表中大多數(shù)被過濾的列

ADOC的高級查詢解析技術(shù)能夠檢測通過WHERE或JOIN子句訪問的列。利用可視化和分析工具來確定訪問和過濾最頻繁的列。

圖4 列+表的微分區(qū)和集群視圖圖4 列+表的微分區(qū)和集群視圖

ADOC還通過Snowflake表系統(tǒng)函數(shù)獲取CLUSTERING_INFORMATION,并以簡單易懂的可視化方式顯示表集群元數(shù)據(jù)。這些信息可以指導(dǎo)優(yōu)化表格布局的決策過程。

圖5 Snowflake可視化表集群瀏覽器圖5 Snowflake可視化表集群瀏覽器

了解過濾列的重疊程度和深度。這些信息對于在定義集群鍵時做出明智的決策至關(guān)重要。

最終目標(biāo)是將集群鍵與最常用的過濾列相匹配。這種對齊確保了相關(guān)數(shù)據(jù)聚集在一起,減少了數(shù)據(jù)掃描并提高了查詢性能。

Snowflake在管理大數(shù)據(jù)表方面的能力是無與倫比的,但要充分利用它的優(yōu)勢,通過數(shù)據(jù)修剪和集群來優(yōu)化性能是必不可少的。數(shù)據(jù)攝取團隊和使用數(shù)據(jù)的團隊之間的協(xié)作對于確保表的最佳布局至關(guān)重要。通過了解消費工作負(fù)載并將集群鍵與過濾列匹配,企業(yè)可以實現(xiàn)高效查詢,降低成本,并充分利用Snowflake在高效處理大數(shù)據(jù)方面的能力。

原文標(biāo)題:Snowflake Workload Optimization,作者:Ashwin Rajeeva

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2010-06-12 14:59:34

IBM工作負(fù)載

2018-01-24 15:53:38

2024-12-09 09:31:11

2010-04-15 17:24:56

IBMPureScale數(shù)據(jù)庫

2024-03-18 00:00:04

AIKubernetes機器學(xué)習(xí)

2015-07-28 14:18:21

Ceph性能測試優(yōu)化

2023-12-12 17:12:01

AI數(shù)據(jù)中心

2009-04-15 18:45:39

Vmwareesx虛擬化

2021-07-08 13:33:52

云計算工作負(fù)載云平臺

2023-07-19 10:09:18

架構(gòu)倉庫SSD

2014-08-22 12:47:55

IT基礎(chǔ)架構(gòu)

2011-10-17 09:47:53

應(yīng)用性能工作負(fù)載服務(wù)器

2020-08-10 15:24:05

Snowflake算法開源

2017-10-30 09:03:24

云服務(wù)負(fù)載混合

2012-02-24 15:30:59

ibmdw

2020-02-03 12:02:13

SAN數(shù)據(jù)中心架構(gòu)

2021-09-03 09:21:46

云計算工作負(fù)載云平臺

2016-12-16 10:21:53

Azure匹配公有云

2019-01-15 10:37:52

2010-11-25 10:28:28

MySQL查詢優(yōu)化器
點贊
收藏

51CTO技術(shù)棧公眾號