自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="mrg1n"><rt id="mrg1n"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為什么ETL和AI不是競爭對手，而是數(shù)據(jù)未來的合作伙伴

作者：晶顏 2024-12-13 08:00:00

支撐數(shù)據(jù)處理數(shù)十年的ETL框架終將被AI取代？也許未必！

譯者 | 晶顏

審校 | 重樓

去年，大模型經(jīng)歷了爆炸式增長，進(jìn)一步完善了人工智能解決問題的能力。今年，隨著炒作的熱度消退，大模型進(jìn)入了更深層次的階段，旨在重塑各行業(yè)的基礎(chǔ)邏輯。在大數(shù)據(jù)處理中，大模型與傳統(tǒng)ETL （即提取Extract、轉(zhuǎn)換Transform、加載Load）過程之間的沖突引發(fā)了新的爭論。大模型以“Transformers”（一種基于自注意力機(jī)制的深度學(xué)習(xí)模型）為特征，而ETL則依賴于“Transform（轉(zhuǎn)換）”過程——相似的名稱代表了截然不同的范式。

一些聲音大膽地預(yù)測：“ETL將在未來被完全取代，因?yàn)榇竽Ｐ涂梢蕴幚硭袛?shù)據(jù)！”這是否標(biāo)志著支撐數(shù)據(jù)處理數(shù)十年的ETL框架的終結(jié)？或者這僅僅是一個被誤解的預(yù)測？這種沖突的背后是對科技未來的更深層次的思考。

大數(shù)據(jù)處理（ETL）會消失嗎？

隨著大模型的快速發(fā)展，一些人開始猜測，包括ETL在內(nèi)的傳統(tǒng)大數(shù)據(jù)處理方法是否仍然有存在的必要。能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大模型無疑令人印象深刻。然而，我的答案很明確：ETL不會消失！原因在于大模型仍然無法解決下述幾個核心數(shù)據(jù)挑戰(zhàn)：

1. 效率問題

盡管大模型在特定任務(wù)中表現(xiàn)出色，但它們會產(chǎn)生巨大的計算成本。訓(xùn)練一個大型的Transformer模型可能需要數(shù)周的時間，并消耗大量的能源和金錢。相比之下，ETL依賴于預(yù)定義的規(guī)則和邏輯，效率高，消耗資源少，并且擅長處理結(jié)構(gòu)化數(shù)據(jù)。

對于日常的企業(yè)數(shù)據(jù)任務(wù)，許多操作仍然是規(guī)則驅(qū)動的，例如：

數(shù)據(jù)清洗：使用清晰的規(guī)則或正則表達(dá)式清除異常。
格式轉(zhuǎn)換：標(biāo)準(zhǔn)化格式，方便跨系統(tǒng)的數(shù)據(jù)傳輸和集成。
聚合和統(tǒng)計：對每日、每周或每月的數(shù)據(jù)進(jìn)行分類、聚合和計算。

這些任務(wù)可以由ETL工具快速處理，而無需大模型的復(fù)雜推理能力。

2. 自然語言中的歧義

大模型在自然語言處理（NLP）方面表現(xiàn)出色，但也暴露了人類語言的歧義性和模糊性這一固有挑戰(zhàn)。例如：

單個輸入查詢可能根據(jù)上下文產(chǎn)生不同的解釋，不能保證準(zhǔn)確性。
數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型生成的結(jié)果與實(shí)際需求不一致。

相比之下，ETL是確定性的，它根據(jù)預(yù)定義的規(guī)則處理數(shù)據(jù)，以產(chǎn)生可預(yù)測的標(biāo)準(zhǔn)化輸出。在金融和醫(yī)療保健等高需求行業(yè)，ETL的可靠性和精度仍然是關(guān)鍵優(yōu)勢。

3. 對結(jié)構(gòu)化數(shù)據(jù)有很強(qiáng)的適應(yīng)性

大模型擅長從非結(jié)構(gòu)化數(shù)據(jù)（例如，文本、圖像、視頻）中提取見解，但它們通常難以處理結(jié)構(gòu)化數(shù)據(jù)任務(wù)。例如：

傳統(tǒng)的ETL能夠有效地處理關(guān)系數(shù)據(jù)庫，處理復(fù)雜的操作，如JOINs和GROUP BYs。
大模型需要在處理之前將數(shù)據(jù)轉(zhuǎn)換為特定格式，從而導(dǎo)致冗余和延遲。

在由結(jié)構(gòu)化數(shù)據(jù)（例如表、JSON）主導(dǎo)的場景中，ETL仍然是最佳選擇。

4. 可解釋性和遵從性

大模型通常被稱為“黑匣子”。即使數(shù)據(jù)處理完成，它們的內(nèi)部運(yùn)作和決策機(jī)制仍然不透明。具體表現(xiàn)為以下方面：

無法解釋的結(jié)果：在金融和醫(yī)療等受監(jiān)管的行業(yè)中，由于缺乏透明度，大模型的預(yù)測可能無法使用。
遵從性挑戰(zhàn)：許多行業(yè)需要對數(shù)據(jù)流和處理邏輯進(jìn)行全面審計。大模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計挑戰(zhàn)。

相比之下，ETL提供了高度透明的過程，每個數(shù)據(jù)處理步驟都有文檔記錄和可審計，確保符合公司和行業(yè)標(biāo)準(zhǔn)。

5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化

大模型對數(shù)據(jù)質(zhì)量非常敏感。噪音、異?；蚍菢?biāo)準(zhǔn)化輸入都會嚴(yán)重影響其性能：

數(shù)據(jù)噪音：大模型無法自動識別錯誤數(shù)據(jù)，可能會將其用作“學(xué)習(xí)材料”并產(chǎn)生有偏見的預(yù)測。
缺乏標(biāo)準(zhǔn)化：將原始的、未經(jīng)清理的數(shù)據(jù)輸入大模型可能導(dǎo)致不一致和缺失值，這需要像ETL這樣的預(yù)處理工具。

ETL確保在將數(shù)據(jù)輸入大型模型之前對數(shù)據(jù)進(jìn)行清理、重復(fù)數(shù)據(jù)刪除和標(biāo)準(zhǔn)化，從而保持?jǐn)?shù)據(jù)質(zhì)量高。

盡管大模型在許多領(lǐng)域表現(xiàn)出色，但它們的復(fù)雜性、對高質(zhì)量數(shù)據(jù)的依賴、硬件需求和實(shí)際限制都說明它們無法完全取代ETL。作為一種確定性的、高效的和透明的工具，ETL將繼續(xù)與大模型共存，為數(shù)據(jù)處理提供雙重保障。

CPU vs. GPU：等同于ETL vs.大模型

雖然ETL是不可替代的，但大模型在數(shù)據(jù)處理領(lǐng)域的興起也是必然趨勢。幾十年來，計算系統(tǒng)以CPU為中心，其他組件被視為外圍設(shè)備。GPU主要用于游戲，但今天，數(shù)據(jù)處理依賴于CPU和GPU（或NPU）的協(xié)同作用。這種模式的轉(zhuǎn)變反映了更廣泛的變化，反映在英特爾和英偉達(dá)的股票趨勢上。

從單中心到多中心計算

從歷史上看，數(shù)據(jù)處理架構(gòu)從“以CPU為中心”演變?yōu)?/span>“CPU+GPU（甚至NPU）協(xié)作”。這種由計算性能需求的變化所驅(qū)動的轉(zhuǎn)變深刻地影響了數(shù)據(jù)處理工具的選擇。

在以CPU為中心的時代，早期的ETL進(jìn)程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。

然而，復(fù)雜數(shù)據(jù)格式（音頻、視頻、文本）的興起和存儲的指數(shù)級增長揭示了CPU能力的局限性。GPU以其無與倫比的并行處理能力，在訓(xùn)練大型Transformer模型等數(shù)據(jù)密集型任務(wù)中占據(jù)了中心位置。

從傳統(tǒng)ETL到大模型

傳統(tǒng)的ETL流程，針對“以CPU為中心”的計算進(jìn)行了優(yōu)化，擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。具體例子包括：

數(shù)據(jù)驗(yàn)證和清理。
格式標(biāo)準(zhǔn)化。
聚合和報告。

相比之下，大模型需要GPU能力來進(jìn)行高維矩陣計算和大規(guī)模參數(shù)優(yōu)化。具體例子包括：

預(yù)處理：實(shí)時標(biāo)準(zhǔn)化和數(shù)據(jù)分割。
模型訓(xùn)練：涉及浮點(diǎn)運(yùn)算的計算繁重任務(wù)。
推理服務(wù)：優(yōu)化批處理，實(shí)現(xiàn)低延遲和高吞吐量。

這反映了從邏輯計算到神經(jīng)推理的轉(zhuǎn)變，將數(shù)據(jù)處理擴(kuò)展到包括推理和知識提取。

面向大模型的新一代ETL架構(gòu)

大模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理的低效率，需要更先進(jìn)、更統(tǒng)一的架構(gòu)。

當(dāng)前數(shù)據(jù)處理中的痛點(diǎn)

復(fù)雜、碎片化的流程：數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手工化和孤立的。
低可重用性：團(tuán)隊經(jīng)常重新創(chuàng)建數(shù)據(jù)管道，導(dǎo)致效率低下。
質(zhì)量不一致：缺乏標(biāo)準(zhǔn)化的工具會導(dǎo)致數(shù)據(jù)質(zhì)量的變化。
高成本：每個團(tuán)隊獨(dú)立的開發(fā)和維護(hù)會增加成本。

解決方案：AI增強(qiáng)ETL工具

未來的ETL工具將嵌入人工智能功能，將傳統(tǒng)優(yōu)勢與現(xiàn)代智能相結(jié)合。具體包括以下幾點(diǎn)：

嵌入生成：內(nèi)置支持文本、圖像和音頻矢量化。
LLM知識提取：非結(jié)構(gòu)化數(shù)據(jù)的自動結(jié)構(gòu)化。
動態(tài)清理規(guī)則：數(shù)據(jù)清理策略的上下文感知優(yōu)化。
非結(jié)構(gòu)化數(shù)據(jù)處理：支持關(guān)鍵幀提取、OCR和語音到文本。
自動增強(qiáng)：智能數(shù)據(jù)生成和增強(qiáng)。

終極趨勢：Transformers + Transform

隨著技術(shù)的不斷進(jìn)步，大模型與傳統(tǒng)ETL技術(shù)逐漸融合。下一代ETL架構(gòu)有望將大模型的智能與ETL的效率結(jié)合起來，創(chuàng)建一個能夠處理各種數(shù)據(jù)類型的綜合框架。

硬件：數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎(chǔ)正在從以CPU為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPU的協(xié)作方法：

CPU用于基礎(chǔ)任務(wù)：CPU擅長基本操作（如初步數(shù)據(jù)清理、集成）和基于規(guī)則的處理（如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)）。
GPU用于高級分析：GPU具有強(qiáng)大的并行計算能力，可以處理預(yù)處理數(shù)據(jù)上的大模型訓(xùn)練和推理任務(wù)。

這一趨勢不僅體現(xiàn)在技術(shù)創(chuàng)新上，也體現(xiàn)在行業(yè)動態(tài)上：英特爾正在推進(jìn)用于CPU-AI協(xié)作的人工智能加速器，而英偉達(dá)正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場景。CPU和GPU之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件：數(shù)據(jù)處理架構(gòu)的集成

隨著ETL和大模型功能日益交織在一起，數(shù)據(jù)處理正在演變成一個多功能的協(xié)作平臺，其中ETL作為大模型的數(shù)據(jù)準(zhǔn)備工具。

大模型在訓(xùn)練過程中需要高質(zhì)量的輸入數(shù)據(jù)，ETL為其提供了初步處理，創(chuàng)造了理想的條件。具體表現(xiàn)為以下方面：

噪聲去除和清洗：消除噪聲數(shù)據(jù)，提高數(shù)據(jù)集質(zhì)量。
格式化和標(biāo)準(zhǔn)化：將多種數(shù)據(jù)格式轉(zhuǎn)換為適合大模型的統(tǒng)一結(jié)構(gòu)。
數(shù)據(jù)增強(qiáng)：通過預(yù)處理和基于規(guī)則的增強(qiáng)來擴(kuò)展數(shù)據(jù)規(guī)模和多樣性。

AI增強(qiáng)ETL架構(gòu)的出現(xiàn)

ETL工具的未來在于嵌入AI功能，以實(shí)現(xiàn)更智能的數(shù)據(jù)處理：

1.嵌入功能

集成用于生成嵌入的模塊以支持基于向量的數(shù)據(jù)處理。
生成文本、圖像和音頻的高維表示；在下游任務(wù)中使用預(yù)訓(xùn)練模型進(jìn)行語義嵌入。
直接在ETL工作流中執(zhí)行嵌入計算，減少對外部推理服務(wù)的依賴。

2.LLM知識提取

利用大語言模型（LLM）有效地處理非結(jié)構(gòu)化數(shù)據(jù)，提取實(shí)體和事件等結(jié)構(gòu)化信息。
完成和推斷復(fù)雜的字段，例如填充缺失值或預(yù)測未來趨勢。
在數(shù)據(jù)集成期間支持多語言數(shù)據(jù)翻譯和語義對齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識別和關(guān)鍵幀提取

原生支持視頻、圖像和音頻數(shù)據(jù)，支持注釋或訓(xùn)練數(shù)據(jù)集的自動關(guān)鍵幀提取。
從圖像中提取特征（例如，對象檢測，OCR）并執(zhí)行音頻到文本的轉(zhuǎn)換，情感分析等等。

4.動態(tài)清理規(guī)則

根據(jù)數(shù)據(jù)上下文動態(tài)調(diào)整清理和增強(qiáng)策略，以提高效率和相關(guān)性。
實(shí)時檢測異常并生成自適應(yīng)清理規(guī)則。
優(yōu)化特定領(lǐng)域（例如，金融、醫(yī)療保?。┑那鍧嵅呗?。

5.自動數(shù)據(jù)增強(qiáng)和生成

通過人工智能模型動態(tài)增強(qiáng)數(shù)據(jù)集，例如同義詞替換、數(shù)據(jù)反翻譯、對抗性樣本生成等。
擴(kuò)展低樣本場景的數(shù)據(jù)集，支持跨語言或跨領(lǐng)域的數(shù)據(jù)生成。

AI增強(qiáng)的ETL代表了傳統(tǒng)ETL的轉(zhuǎn)型飛躍，提供嵌入生成、基于LLM的知識提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動態(tài)規(guī)則生成，以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究：Apache seattunnel——新一代AI增強(qiáng)ETL架構(gòu)

例如，開源Apache SeaTunnel項(xiàng)目通過支持創(chuàng)新的數(shù)據(jù)格式和先進(jìn)的處理能力，打破了傳統(tǒng)的ETL限制，展示了數(shù)據(jù)處理的未來：

原生支持非結(jié)構(gòu)化數(shù)據(jù)：SeaTunnel引擎支持文本、視頻和音頻處理，以滿足不同的模型訓(xùn)練需求。
向量化數(shù)據(jù)支持：實(shí)現(xiàn)深度學(xué)習(xí)和大模型推理任務(wù)的無縫兼容。
嵌入大模型功能：SeaTunnel v2.3.8支持嵌入生成和LLM轉(zhuǎn)換，將傳統(tǒng)的ETL與AI推理工作流連接起來。
“Any-to-Any”轉(zhuǎn)換：將數(shù)據(jù)從任何來源（例如，數(shù)據(jù)庫、binlogs、pdf、SaaS、視頻）轉(zhuǎn)換為任何目標(biāo)格式，提供無與倫比的多功能性。

SeaTunnel等工具說明了現(xiàn)代數(shù)據(jù)處理如何演變?yōu)槿斯ぶ悄?/span>+大數(shù)據(jù)全棧協(xié)作系統(tǒng)，成為企業(yè)人工智能和數(shù)據(jù)戰(zhàn)略的核心。

結(jié)語

大模型Transformers和大數(shù)據(jù)Transforms不是競爭對手，而是盟友。數(shù)據(jù)處理的未來在于ETL與大模型的深度融合，具體如下所示：

協(xié)作數(shù)據(jù)處理單元：利用CPU-GPU協(xié)同進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。
動態(tài)數(shù)據(jù)處理架構(gòu)：將AI功能嵌入ETL，用于嵌入生成、LLM知識提取和智能決策。
下一代工具：像Apache SeaTunnel這樣的開源解決方案突出了這一趨勢，實(shí)現(xiàn)了“Any-to-Any”的數(shù)據(jù)轉(zhuǎn)換，并重新定義了ETL邊界。

大模型與ETL的融合，將推動數(shù)據(jù)處理進(jìn)入智能化、標(biāo)準(zhǔn)化、開放的新時代。通過滿足企業(yè)需求，這種演變將推動業(yè)務(wù)創(chuàng)新和智能決策，成為未來數(shù)據(jù)驅(qū)動型企業(yè)的核心引擎。

原文標(biāo)題：Why ETL and AI Aren’t Rivals, but Partners in Data’s Future，作者：William Guo

責(zé)任編輯：華軒來源： 51CTO

人工智能 ETL 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營