自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

天穹數(shù)倉(cāng)自治能力在大模型時(shí)代的新實(shí)踐

大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)治理和自治能力的提升變得尤為重要。本次分享題目為“天穹數(shù)倉(cāng)自治能力新實(shí)踐”。

一、大數(shù)據(jù)自治的背景

1. 大數(shù)據(jù)自治涵蓋的范疇

大數(shù)據(jù)自治是一個(gè)廣義的概念,涵蓋從數(shù)據(jù)采集到數(shù)據(jù)接入、計(jì)算、存儲(chǔ)、應(yīng)用等一系列問(wèn)題。它不僅包括數(shù)據(jù)治理,還涉及數(shù)據(jù)研發(fā)和業(yè)務(wù)發(fā)生問(wèn)題的解決。大數(shù)據(jù)自治的目的是管理數(shù)據(jù)的整個(gè)生命周期,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)使用,再到數(shù)據(jù)銷毀。

2. 業(yè)務(wù)、技術(shù)的快速發(fā)展

在過(guò)去的三十年中,數(shù)倉(cāng)的發(fā)展歷程經(jīng)歷了從傳統(tǒng)數(shù)倉(cāng)到大數(shù)據(jù)數(shù)倉(cāng),再到數(shù)字?jǐn)?shù)倉(cāng)的三個(gè)階段。傳統(tǒng)數(shù)倉(cāng)如 Oracle、DB2 等,架構(gòu)單一,主要處理結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)規(guī)模較小,實(shí)時(shí)性較低。

隨著 Google 三篇論文的發(fā)表,開(kāi)始進(jìn)入大數(shù)據(jù)時(shí)代,Hive、Hadoop/MR、Spark 等大數(shù)據(jù)數(shù)倉(cāng)先后問(wèn)世,產(chǎn)生了 Lambda、Kappa 等較為復(fù)雜的架構(gòu),處理的數(shù)據(jù)規(guī)模呈爆炸性增長(zhǎng),結(jié)構(gòu)化、半結(jié)構(gòu)化和異構(gòu)化數(shù)據(jù)并存,實(shí)時(shí)性要求更高,計(jì)算也變得更為復(fù)雜。

從 2020 年至今,處于數(shù)智數(shù)倉(cāng)時(shí)代,實(shí)時(shí)性和計(jì)算復(fù)雜性進(jìn)一步提升,架構(gòu)也更加復(fù)雜,包括流批一體、湖倉(cāng)一體等,大模型也逐漸應(yīng)用到數(shù)倉(cāng)之中。

隨著數(shù)倉(cāng)技術(shù)的發(fā)展,數(shù)據(jù)處理的流程從傳統(tǒng)的 ETL,變?yōu)榇髷?shù)據(jù)時(shí)代的 ELT,當(dāng)前又提出了 EtLT 的概念。

3. 數(shù)倉(cāng)模式演進(jìn):EtLT 崛起

EtLT 是 ELT 的擴(kuò)展,其中 Extract、Load、Transform 的含義并沒(méi)有改變,在此基礎(chǔ)上提出了小 t 和大 T 的區(qū)別。針對(duì)當(dāng)前數(shù)智數(shù)倉(cāng)的技術(shù)生態(tài),小 t 更緊密地結(jié)合湖倉(cāng)技術(shù),偏數(shù)據(jù)底層的工程架構(gòu),而大 T 階段則更貼合業(yè)務(wù),結(jié)合大模型的能力,完成偏數(shù)據(jù)上層應(yīng)用的工作。

二、天穹大數(shù)據(jù)自治能力建設(shè)和落地:雙引擎策略

天穹大數(shù)據(jù)自治平臺(tái)采用雙引擎策略,結(jié)合 SQL 智能體和傳統(tǒng)機(jī)器學(xué)習(xí),推動(dòng)平臺(tái)自治。通過(guò)構(gòu)建感知力、觀測(cè)力、診斷力和優(yōu)化力,實(shí)現(xiàn)對(duì)數(shù)據(jù)相關(guān)進(jìn)程的細(xì)粒度感知和智能優(yōu)化。能力范圍包括從數(shù)據(jù)采集、數(shù)據(jù)接入,到數(shù)據(jù)計(jì)算、存儲(chǔ),再到應(yīng)用的全流程,從資源、計(jì)算、研效等各方面進(jìn)行了優(yōu)化。

最終實(shí)現(xiàn)了包括算子粒度的回放和診斷能力的產(chǎn)品化:支持 40 多個(gè)算子粒度問(wèn)題的診斷,并優(yōu)化了 SQL 粒度算子實(shí)現(xiàn)了自動(dòng) map join 功能,在 Presto 上測(cè)試效果顯著,CPU 和內(nèi)存節(jié)省顯著。SQL 引擎自動(dòng)選擇方面,提升了計(jì)算性能,減少了資源浪費(fèi)。作業(yè)任務(wù)資源優(yōu)化方面,大幅降低了天穹上運(yùn)行作業(yè)的內(nèi)存和 CPU 成本。除此之外還有 SQL 智能體的優(yōu)化改寫等功能,這些功能在實(shí)際應(yīng)用中取得了顯著效果。

圖片

1. 感知力

感知力是數(shù)據(jù)系統(tǒng)的重要部分,決定著上層觀測(cè)力、診斷力、優(yōu)化力等能力體系建設(shè)的深度。天穹平臺(tái)通過(guò) JVM 級(jí)別的數(shù)據(jù)感知,已基本覆蓋所有物理機(jī)和容器,每天感知的數(shù)據(jù)量達(dá)到了萬(wàn)億規(guī)模。

2. 觀測(cè)力

通過(guò)對(duì)采集數(shù)據(jù)進(jìn)行指標(biāo)的聚合和抽象,建立以健康分為核心的數(shù)據(jù)體系,實(shí)現(xiàn)任務(wù)進(jìn)程粒度的數(shù)據(jù)上卷和下鉆操作,使大數(shù)據(jù)生態(tài)的“黑盒”更加透明化,發(fā)現(xiàn)底層指標(biāo)或異常問(wèn)題。

3. 診斷力

(1)全鏈路診斷能力的構(gòu)建

針對(duì)內(nèi)部經(jīng)常遇到的作業(yè)鏈路較長(zhǎng),問(wèn)題定位和診斷工作繁瑣低效的問(wèn)題,天穹平臺(tái)基于組件粒度構(gòu)建了全鏈路診斷能力,使得用戶能夠清晰地了解當(dāng)前問(wèn)題發(fā)生在哪個(gè)組件,并在此基礎(chǔ)上進(jìn)行深入挖掘和對(duì)比。例如,如果問(wèn)題發(fā)生在計(jì)算引擎?zhèn)龋軌蚯逦馗嬷脩糇鳂I(yè)在計(jì)算引擎層是由于資源搶占被 kill,或任務(wù)本身數(shù)據(jù)膨脹、數(shù)據(jù)傾斜等原因?qū)е碌漠惓?,并提供?xì)粒度的判斷。

(2)算子粒度的異常識(shí)別

同時(shí),針對(duì) SQL 任務(wù),推出了算子粒度的診斷,可以將實(shí)際物理執(zhí)行過(guò)程中發(fā)生的異常點(diǎn)與 SQL 邏輯片段對(duì)應(yīng)起來(lái),從而幫助用戶在繁雜的計(jì)算過(guò)程中快速準(zhǔn)確地定位到問(wèn)題的具體原因。

圖片

在實(shí)際應(yīng)用中,我們已經(jīng)將算子粒度的回放和診斷能力產(chǎn)品化。這使得用戶能夠回放 SQL 計(jì)算的過(guò)程,診斷每一個(gè)算子的數(shù)據(jù)規(guī)模和資源占用情況。目前,我們已經(jīng)支持了 40 多個(gè)算子粒度問(wèn)題的診斷。

圖片

4. 優(yōu)化力

針對(duì)在大數(shù)據(jù)計(jì)算過(guò)程中面臨的挑戰(zhàn),如任務(wù)運(yùn)行緩慢、數(shù)據(jù)處理速度不理想以及任務(wù)資源啟動(dòng)困難等問(wèn)題,構(gòu)建了優(yōu)化力能力體系。在資源方面,針對(duì) Spark 和 Flink 進(jìn)行了深入優(yōu)化。在性能方面,引入了 SQL 引擎選擇、智能 SQL Hint 和智能 RSS 等技術(shù)。此外,通過(guò) SQL 智能體的構(gòu)建,實(shí)現(xiàn)了 SQL 優(yōu)化改寫、語(yǔ)法糾錯(cuò)和診斷等功能。

(1)數(shù)據(jù)驅(qū)動(dòng)的資源優(yōu)化

針對(duì) Spark 的資源優(yōu)化,主要構(gòu)建了基于 Spark 歷史運(yùn)行數(shù)據(jù)的方法,采用白盒和黑盒兩種方式進(jìn)行調(diào)整。白盒方法通過(guò)分析歷史運(yùn)行過(guò)程中資源的實(shí)際進(jìn)程粒度占用情況,擬合出適合作業(yè)正確運(yùn)行的資源參數(shù)。我們根據(jù)歷史運(yùn)行曲線自定義計(jì)算彈性因子,并每天為作業(yè)推薦資源參數(shù)。而黑盒方法則無(wú)需用戶感知,算法基于時(shí)間和性能兩個(gè)維度自動(dòng)調(diào)整參數(shù),并每天定時(shí)進(jìn)行迭代。通過(guò)前一周期的運(yùn)行結(jié)果,調(diào)整下一周期的參數(shù),并提交到集群中運(yùn)行。

最終針對(duì)一些應(yīng)用組顯著節(jié)省了超過(guò) 50% 的內(nèi)存成本和 30% 的 CPU成本,在資源優(yōu)化方面取得了顯著的成果,降低了資源的使用。

圖片

(2)SQL 引擎選擇,讓 SQL 計(jì)算更加高效

在 SQL 計(jì)算引擎選擇方面,根據(jù) SQL 計(jì)算邏輯的復(fù)雜度判斷其是 IO 密集型還是 CPU 密集型,并將不同的 SQL 分發(fā)到不同的計(jì)算引擎上以提高性能。同時(shí)從歷史運(yùn)行的 SQL 中提取特征,利用 XGBoost 模型進(jìn)行訓(xùn)練,以優(yōu)化底層的建模過(guò)程。

最終通過(guò)特征化和模型訓(xùn)練,引擎 failover 規(guī)避率有了顯著提升,進(jìn)一步降低了資源浪費(fèi)。

圖片

(3)SQL 算子粒度優(yōu)化,反哺計(jì)算引擎

除了資源優(yōu)化和 SQL 引擎選擇外,還關(guān)注算子粒度的優(yōu)化。從歷史運(yùn)行數(shù)據(jù)中挖掘包含算子粒度信息的數(shù)據(jù)記錄,經(jīng)過(guò)規(guī)劃處理后形成 SQL 算子粒度的數(shù)據(jù)體系。這有助于支持 SQL 的 CBO 代價(jià)模型優(yōu)化。例如,如果提前知道計(jì)算過(guò)程的數(shù)據(jù)量,可以自動(dòng)添加 map join 等提示以提升效率。此外,對(duì)于每天定時(shí)調(diào)度的數(shù)據(jù)計(jì)算任務(wù),由于 SQL 邏輯和數(shù)據(jù)量相似,可以通過(guò)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)和優(yōu)化。

圖片

最終通過(guò)算子粒度的數(shù)據(jù)挖掘,將運(yùn)行過(guò)程中的數(shù)據(jù)量大小和數(shù)據(jù)記錄數(shù)喂給 SQL 代價(jià)模型,實(shí)現(xiàn)了自動(dòng) map join 的功能,顯著提高了 SQL 計(jì)算的性能。在 TPC-DS 測(cè)試集中,自動(dòng) map join 的占比達(dá)到了 57%,顯著提升了 CPU 和內(nèi)存的使用效率。

圖片

5. SQL 智能體

由于日常機(jī)器計(jì)算類型中 SQL 任務(wù)占比很高,且標(biāo)準(zhǔn)化程度較高,天穹結(jié)合大語(yǔ)言模型對(duì)于 SQL 的理解力,以優(yōu)化 SQL 性能提升作業(yè)效率為目標(biāo),進(jìn)行了 SQL 智能體的構(gòu)建。

騰訊內(nèi)部基于混元大語(yǔ)言模型,設(shè)計(jì)了多輪對(duì)話、問(wèn)診模式的 SQL 智能體,涵蓋了 prompt 知識(shí)庫(kù)、function call 等環(huán)節(jié)。

圖片

下面介紹一下 SQL 智能體的構(gòu)建過(guò)程。首先,通過(guò)現(xiàn)網(wǎng)收集 SQL 優(yōu)化和錯(cuò)誤 SQL,以及 SQL 工單語(yǔ)料庫(kù),在此基礎(chǔ)上建立 SQL 指令集,基于基座模型進(jìn)行指令微調(diào),并結(jié)合 prompt 強(qiáng)化用戶意圖。

圖片

最終通過(guò) SQL 智能體的構(gòu)建,從多方面實(shí)現(xiàn)了 SQL 的優(yōu)化改寫和診斷,顯著提升了 SQL 性能。

(1)正確性解析和轉(zhuǎn)換

它能自動(dòng)將硬查詢中的 SQL 翻譯為為 inner join,并實(shí)時(shí)對(duì)比優(yōu)化前后的 SQL。

SQL 智能體在優(yōu)化改寫方面也取得了顯著的成果。通過(guò)底層的 OLAP 引擎測(cè)試發(fā)現(xiàn),性能提升了 17.19%。這表明 SQL 智能體能夠有效地優(yōu)化 SQL 計(jì)算,提高系統(tǒng)性能。

圖片

(2)SQL 長(zhǎng)度優(yōu)化

大模型能夠理解長(zhǎng) SQL 內(nèi)容,自動(dòng)去除不必要的如 order by 的邏輯片段,提高計(jì)算效率。

圖片

(3)SQL 邏輯簡(jiǎn)化

此外,SQL 智能體還能夠簡(jiǎn)化 SQL 邏輯,借助臨時(shí)表等技術(shù),使得 SQL 計(jì)算邏輯更加簡(jiǎn)潔和高效。

圖片

三、未來(lái)規(guī)劃和展望

在未來(lái)的規(guī)劃中,我們將繼續(xù)優(yōu)化數(shù)據(jù)存儲(chǔ)和研發(fā)能力,不斷豐富和提升大數(shù)據(jù)自治的能力。最終,我們計(jì)劃打造一個(gè)湖倉(cāng)智能自治的解決方案,支撐大數(shù)據(jù)平臺(tái)的智能化應(yīng)用,推動(dòng)大數(shù)據(jù)自治向更高層次發(fā)展。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2025-04-16 04:20:00

2022-06-10 15:21:15

MySQL CDCSqlServer數(shù)據(jù)庫(kù)

2022-08-22 17:46:56

虛擬數(shù)倉(cāng)Impala

2023-09-28 08:19:57

語(yǔ)言模型數(shù)倉(cāng)數(shù)據(jù)

2021-01-31 23:54:23

數(shù)倉(cāng)模型

2021-01-04 05:42:48

數(shù)倉(cāng)模型設(shè)計(jì)

2023-10-11 07:20:17

2024-06-11 07:46:23

2025-04-02 01:25:00

2022-12-06 17:52:57

離線數(shù)倉(cāng)治理

2023-05-10 14:40:40

AI模型算力

2023-08-30 07:14:27

MaxCompute湖倉(cāng)一體

2023-12-08 07:44:20

2022-12-08 10:16:58

數(shù)據(jù)模型

2022-09-15 09:32:42

數(shù)據(jù)倉(cāng)處理

2024-04-09 07:28:05

2023-08-15 08:12:12

數(shù)倉(cāng)建模數(shù)倉(cāng)建設(shè)

2024-09-09 13:55:35

2021-09-01 07:21:41

數(shù)倉(cāng)RFM模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)