自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么ETL和AI不是競爭對手,而是數(shù)據(jù)未來的合作伙伴

譯文 精選
人工智能
支撐數(shù)據(jù)處理數(shù)十年的ETL框架終將被AI取代?也許未必!

譯者 | 晶顏

審校 | 重樓

去年,大模型經(jīng)歷了爆炸式增長,進(jìn)一步完善了人工智能解決問題的能力。今年,隨著炒作的熱度消退,大模型進(jìn)入了更深層次的階段,旨在重塑各行業(yè)的基礎(chǔ)邏輯。在大數(shù)據(jù)處理中,大模型與傳統(tǒng)ETL (即提取Extract、轉(zhuǎn)換Transform、加載Load)過程之間的沖突引發(fā)了新的爭論。大模型以Transformers”(一種基于自注意力機(jī)制的深度學(xué)習(xí)模型)為特征,而ETL依賴于Transform轉(zhuǎn)換)”過程——相似的名稱代表了截然不同的范式。

一些聲音大膽地預(yù)測:ETL將在未來被完全取代,因?yàn)榇竽P涂梢蕴幚硭袛?shù)據(jù)!這是否標(biāo)志著支撐數(shù)據(jù)處理數(shù)十年的ETL框架的終結(jié)或者這僅僅是一個被誤解的預(yù)測?這種沖突的背后是對科技未來的更深層次的思考。

大數(shù)據(jù)處理(ETL)會消失嗎?

隨著大模型的快速發(fā)展,一些人開始猜測,包括ETL在內(nèi)的傳統(tǒng)大數(shù)據(jù)處理方法是否仍然有存在的必要。能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大模型無疑令人印象深刻。然而,我的答案很明確:ETL不會消失!原因在于大模型仍然無法解決下述幾個核心數(shù)據(jù)挑戰(zhàn)

1. 效率問題

盡管大模型在特定任務(wù)中表現(xiàn)出色,但它們會產(chǎn)生巨大的計算成本。訓(xùn)練一個大型的Transformer模型可能需要數(shù)周的時間,并消耗大量的能源和金錢。相比之下,ETL依賴于預(yù)定義的規(guī)則和邏輯,效率高,消耗資源少,并且擅長處理結(jié)構(gòu)化數(shù)據(jù)。

對于日常的企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是規(guī)則驅(qū)動的,例如

  • 數(shù)據(jù)清洗:使用清晰的規(guī)則或正則表達(dá)式清除異常。
  • 格式轉(zhuǎn)換:標(biāo)準(zhǔn)化格式,方便跨系統(tǒng)的數(shù)據(jù)傳輸和集成。
  • 聚合和統(tǒng)計:對每日、每周或每月的數(shù)據(jù)進(jìn)行分類、聚合和計算。

這些任務(wù)可以由ETL工具快速處理,而需大模型的復(fù)雜推理能力。

2. 自然語言中的歧義

大模型在自然語言處理(NLP)方面表現(xiàn)出色,但也暴露了人類語言的歧義性和模糊性這一固有挑戰(zhàn)。例如

  • 單個輸入查詢可能根據(jù)上下文產(chǎn)生不同的解釋,不能保證準(zhǔn)確性。
  • 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型生成的結(jié)果與實(shí)際需求不一致。

相比之下,ETL是確定性的,它根據(jù)預(yù)定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測的標(biāo)準(zhǔn)化輸出。在金融和醫(yī)療保健等高需求行業(yè),ETL的可靠性和精度仍然是關(guān)鍵優(yōu)勢。

3. 對結(jié)構(gòu)化數(shù)據(jù)有很強(qiáng)的適應(yīng)性

大模型擅長從非結(jié)構(gòu)化數(shù)據(jù)(例如,文本、圖像、視頻)中提取見解,但它們通常難以處理結(jié)構(gòu)化數(shù)據(jù)任務(wù)。例如

  • 傳統(tǒng)的ETL能夠有效地處理關(guān)系數(shù)據(jù)庫,處理復(fù)雜的操作,如JOINsGROUP BYs。
  • 大模型需要在處理之前將數(shù)據(jù)轉(zhuǎn)換為特定格式,從而導(dǎo)致冗余和延遲。

在由結(jié)構(gòu)化數(shù)據(jù)(例如表、JSON)主導(dǎo)的場景中,ETL仍然是最佳選擇。

4. 可解釋性和遵從性

大模型通常被稱為匣子”。即使數(shù)據(jù)處理完成,它們的內(nèi)部運(yùn)作和決策機(jī)制仍然不透明。具體表現(xiàn)為以下方面:

  • 無法解釋的結(jié)果:在金融和醫(yī)療等受監(jiān)管的行業(yè)中,由于缺乏透明度,大模型的預(yù)測可能無法使用。
  • 遵從性挑戰(zhàn):許多行業(yè)需要對數(shù)據(jù)流和處理邏輯進(jìn)行全面審計。大模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計挑戰(zhàn)。

相比之下,ETL提供了高度透明的過程,每個數(shù)據(jù)處理步驟都有文檔記錄和可審計,確保符合公司和行業(yè)標(biāo)準(zhǔn)。

5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化

大模型對數(shù)據(jù)質(zhì)量非常敏感。噪音、異?;蚍菢?biāo)準(zhǔn)化輸入會嚴(yán)重影響其性能

  • 數(shù)據(jù)噪音:大模型無法自動識別錯誤數(shù)據(jù),可能會將其用作學(xué)習(xí)材料并產(chǎn)生有偏見的預(yù)測。
  • 缺乏標(biāo)準(zhǔn)化:將原始的、未經(jīng)清理的數(shù)據(jù)輸入大模型可能導(dǎo)致不一致和缺失值,這需要像ETL這樣的預(yù)處理工具。

ETL確保在將數(shù)據(jù)輸入大型模型之前對數(shù)據(jù)進(jìn)行清理、重復(fù)數(shù)據(jù)刪除和標(biāo)準(zhǔn)化,從而保持?jǐn)?shù)據(jù)質(zhì)量高。

盡管大模型在許多領(lǐng)域表現(xiàn)出色,但它們的復(fù)雜性、對高質(zhì)量數(shù)據(jù)的依賴、硬件需求和實(shí)際限制都說明它們無法完全取代ETL。作為一種確定性的、高效的和透明的工具,ETL將繼續(xù)與大模型共存,為數(shù)據(jù)處理提供雙重保障。

CPU vs. GPU:等同于ETL vs.大模型

雖然ETL是不可替代的,但大模型在數(shù)據(jù)處理領(lǐng)域的興起是必然趨勢。幾十年來,計算系統(tǒng)以CPU為中心,其他組件被視為外圍設(shè)備。GPU主要用于游戲,但今天,數(shù)據(jù)處理依賴于CPUGPU(或NPU)的協(xié)同作用。這種模式的轉(zhuǎn)變反映了更廣泛的變化,反映在英特爾和英偉達(dá)的股票趨勢上。

從單中心到多中心計算

從歷史上看,數(shù)據(jù)處理架構(gòu)從以CPU為中心演變?yōu)?/span>CPU+GPU(甚至NPU)協(xié)作。這種由計算性能需求的變化所驅(qū)動的轉(zhuǎn)變深刻地影響了數(shù)據(jù)處理工具的選擇。

在以CPU為中心的時代,早期的ETL進(jìn)程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。

然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的興起和存儲的指數(shù)級增長揭示了CPU能力的局限性。GPU以其無與倫比的并行處理能力,在訓(xùn)練大型Transformer模型等數(shù)據(jù)密集型任務(wù)中占據(jù)了中心位置。

從傳統(tǒng)ETL到大模型

傳統(tǒng)的ETL流程,針對CPU為中心的計算進(jìn)行了優(yōu)化,擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。具體例子包括

  • 數(shù)據(jù)驗(yàn)證和清理。
  • 格式標(biāo)準(zhǔn)化。
  • 聚合和報告。

相比之下,大模型需要GPU能力來進(jìn)行高維矩陣計算和大規(guī)模參數(shù)優(yōu)化。具體例子包括

  • 預(yù)處理:實(shí)時標(biāo)準(zhǔn)化和數(shù)據(jù)分割。
  • 模型訓(xùn)練:涉及浮點(diǎn)運(yùn)算的計算繁重任務(wù)。
  • 推理服務(wù):優(yōu)化批處理,實(shí)現(xiàn)低延遲和高吞吐量。

這反映了從邏輯計算到神經(jīng)推理的轉(zhuǎn)變,將數(shù)據(jù)處理擴(kuò)展到包括推理和知識提取。

面向大模型的新一代ETL架構(gòu)

大模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理的低效率,需要更先進(jìn)、更統(tǒng)一的架構(gòu)。

當(dāng)前數(shù)據(jù)處理中的痛點(diǎn)

  1. 復(fù)雜、碎片化的流程:數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手工化和孤立的。
  2. 低可重用性:團(tuán)隊經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。
  3. 質(zhì)量不一致:缺乏標(biāo)準(zhǔn)化的工具會導(dǎo)致數(shù)據(jù)質(zhì)量的變化。
  4. 高成本:每個團(tuán)隊獨(dú)立的開發(fā)和維護(hù)會增加成本。

解決方案:AI增強(qiáng)ETL工具

未來的ETL工具將嵌入人工智能功能,將傳統(tǒng)優(yōu)勢與現(xiàn)代智能相結(jié)合。具體包括以下幾點(diǎn):

  • 嵌入生成:內(nèi)置支持文本、圖像和音頻矢量化。
  • LLM知識提取:非結(jié)構(gòu)化數(shù)據(jù)的自動結(jié)構(gòu)化。
  • 動態(tài)清理規(guī)則:數(shù)據(jù)清理策略的上下文感知優(yōu)化。
  • 非結(jié)構(gòu)化數(shù)據(jù)處理:支持關(guān)鍵幀提取、OCR和語音到文本。
  • 自動增強(qiáng):智能數(shù)據(jù)生成和增強(qiáng)。

終極趨勢:Transformers + Transform

隨著技術(shù)的不斷進(jìn)步,大模型與傳統(tǒng)ETL技術(shù)逐漸融合。下一代ETL架構(gòu)有望將大模型的智能與ETL的效率結(jié)合起來,創(chuàng)建一個能夠處理各種數(shù)據(jù)類型的綜合框架。

硬件:數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎(chǔ)正在從以CPU為中心的系統(tǒng)轉(zhuǎn)向涉及CPUGPU的協(xié)作方法

  • CPU用于基礎(chǔ)任務(wù):CPU擅長基本操作如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)
  • GPU用于高級分析:GPU具有強(qiáng)大的并行計算能力,可以處理預(yù)處理數(shù)據(jù)上的大模型訓(xùn)練和推理任務(wù)。

這一趨勢不僅體現(xiàn)在技術(shù)創(chuàng)新上,也體現(xiàn)在行業(yè)動態(tài)上:英特爾正在推進(jìn)用于CPU-AI協(xié)作的人工智能加速器,而英偉達(dá)正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場景。CPUGPU之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件:數(shù)據(jù)處理架構(gòu)的集成

隨著ETL和大模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個多功能的協(xié)作平臺,其中ETL作為大模型的數(shù)據(jù)準(zhǔn)備工具。

大模型在訓(xùn)練過程中需要高質(zhì)量的輸入數(shù)據(jù),ETL為其提供了初步處理,創(chuàng)造了理想的條件。具體表現(xiàn)為以下方面:

  • 噪聲去除和清洗:消除噪聲數(shù)據(jù),提高數(shù)據(jù)集質(zhì)量。
  • 格式化和標(biāo)準(zhǔn)化:將多種數(shù)據(jù)格式轉(zhuǎn)換為適合大模型的統(tǒng)一結(jié)構(gòu)。
  • 數(shù)據(jù)增強(qiáng):通過預(yù)處理和基于規(guī)則的增強(qiáng)來擴(kuò)展數(shù)據(jù)規(guī)模和多樣性。

AI增強(qiáng)ETL架構(gòu)的出現(xiàn)

ETL工具的未來在于嵌入AI功能,以實(shí)現(xiàn)更智能的數(shù)據(jù)處理:

1.嵌入功能

  • 集成用于生成嵌入的模塊以支持基于向量的數(shù)據(jù)處理。
  • 生成文本、圖像和音頻的高維表示;在下游任務(wù)中使用預(yù)訓(xùn)練模型進(jìn)行語義嵌入。
  • 直接在ETL工作流中執(zhí)行嵌入計算,減少對外部推理服務(wù)的依賴。

2.LLM知識提取

  • 利用大語言模型(LLM)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實(shí)體和事件等結(jié)構(gòu)化信息。
  • 完成和推斷復(fù)雜的字段,例如填充缺失值或預(yù)測未來趨勢。
  • 在數(shù)據(jù)集成期間支持多語言數(shù)據(jù)翻譯和語義對齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識別和關(guān)鍵幀提取

  • 原生支持視頻、圖像和音頻數(shù)據(jù),支持注釋或訓(xùn)練數(shù)據(jù)集的自動關(guān)鍵幀提取。
  • 從圖像中提取特征(例如,對象檢測,OCR)并執(zhí)行音頻到文本的轉(zhuǎn)換,情感分析等等。

4.動態(tài)清理規(guī)則

  • 根據(jù)數(shù)據(jù)上下文動態(tài)調(diào)整清理和增強(qiáng)策略,以提高效率和相關(guān)性。
  • 實(shí)時檢測異常并生成自適應(yīng)清理規(guī)則。
  • 優(yōu)化特定領(lǐng)域(例如,金融、醫(yī)療保?。┑那鍧嵅呗?。

5.自動數(shù)據(jù)增強(qiáng)和生成

  • 通過人工智能模型動態(tài)增強(qiáng)數(shù)據(jù)集例如同義詞替換、數(shù)據(jù)反翻譯、對抗性樣本生成。
  • 擴(kuò)展低樣本場景的數(shù)據(jù)集,支持跨語言或跨領(lǐng)域的數(shù)據(jù)生成。

AI增強(qiáng)的ETL代表了傳統(tǒng)ETL的轉(zhuǎn)型飛躍,提供嵌入生成、基于LLM的知識提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究:Apache seattunnel——新一代AI增強(qiáng)ETL架構(gòu)

例如,開源Apache SeaTunnel項(xiàng)目通過支持創(chuàng)新的數(shù)據(jù)格式和先進(jìn)的處理能力,打破了傳統(tǒng)的ETL限制,展示了數(shù)據(jù)處理的未來:

  • 原生支持非結(jié)構(gòu)化數(shù)據(jù):SeaTunnel引擎支持文本、視頻和音頻處理,以滿足不同的模型訓(xùn)練需求。
  • 向量化數(shù)據(jù)支持:實(shí)現(xiàn)深度學(xué)習(xí)和大模型推理任務(wù)的無縫兼容。
  • 嵌入大模型功能:SeaTunnel v2.3.8支持嵌入生成和LLM轉(zhuǎn)換,將傳統(tǒng)的ETL與AI推理工作流連接起來。
  • Any-to-Any轉(zhuǎn)換:將數(shù)據(jù)從任何來源(例如,數(shù)據(jù)庫、binlogs、pdf、SaaS、視頻)轉(zhuǎn)換為任何目標(biāo)格式,提供無與倫比的多功能性。

SeaTunnel等工具說明了現(xiàn)代數(shù)據(jù)處理如何演變?yōu)槿斯ぶ悄?/span>+大數(shù)據(jù)全棧協(xié)作系統(tǒng),成為企業(yè)人工智能和數(shù)據(jù)戰(zhàn)略的核心。

結(jié)語

大模型Transformers和大數(shù)據(jù)Transforms不是競爭對手,而是盟友。數(shù)據(jù)處理的未來在于ETL與大模型的深度融合,具體如下所示:

  • 協(xié)作數(shù)據(jù)處理單元:利用CPU-GPU協(xié)同進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。
  • 動態(tài)數(shù)據(jù)處理架構(gòu):將AI功能嵌入ETL,用于嵌入生成、LLM知識提取和智能決策。
  • 下一代工具:像Apache SeaTunnel這樣的開源解決方案突出了這一趨勢,實(shí)現(xiàn)了Any-to-Any的數(shù)據(jù)轉(zhuǎn)換,并重新定義了ETL邊界。

大模型與ETL的融合,將推動數(shù)據(jù)處理進(jìn)入智能化、標(biāo)準(zhǔn)化、開放的新時代。通過滿足企業(yè)需求,這種演變將推動業(yè)務(wù)創(chuàng)新和智能決策,成為未來數(shù)據(jù)驅(qū)動型企業(yè)的核心引擎。

原文標(biāo)題:Why ETL and AI Aren’t Rivals, but Partners in Data’s Future,作者:William Guo

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2013-10-10 09:34:48

2017-03-16 07:28:35

科技新聞早報

2012-12-25 10:45:12

InstagramPokeFlickr

2011-06-24 08:13:31

SEO

2012-08-22 10:18:05

2011-09-19 13:28:00

思科Juniper華為

2011-06-30 15:27:17

SEO

2022-09-01 12:45:55

代碼

2011-05-05 13:14:33

地產(chǎn)行業(yè)企業(yè)轉(zhuǎn)型

2015-07-27 17:16:56

敏捷網(wǎng)絡(luò)華為

2013-02-28 11:58:31

Polycom全球合作伙伴

2011-05-23 09:30:03

英特爾ARM

2011-03-03 13:06:09

思科合作伙伴計劃專業(yè)協(xié)作服務(wù)

2016-12-13 09:33:13

大數(shù)據(jù)數(shù)據(jù)挖掘數(shù)字化運(yùn)營

2013-06-25 09:46:38

微軟甲骨文云計算競爭對手

2020-01-07 16:08:49

數(shù)據(jù)存儲磁帶藍(lán)光存儲

2012-09-18 13:30:21

2022-12-02 15:29:00

2015-09-23 09:46:26

2019-04-12 09:39:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號