譯者 | 晶顏
審校 | 重樓
去年,大模型經(jīng)歷了爆炸式增長,進(jìn)一步完善了人工智能解決問題的能力。今年,隨著炒作的熱度消退,大模型進(jìn)入了更深層次的階段,旨在重塑各行業(yè)的基礎(chǔ)邏輯。在大數(shù)據(jù)處理中,大模型與傳統(tǒng)ETL (即提取Extract、轉(zhuǎn)換Transform、加載Load)過程之間的沖突引發(fā)了新的爭論。大模型以“Transformers”(一種基于自注意力機(jī)制的深度學(xué)習(xí)模型)為特征,而ETL則依賴于“Transform(轉(zhuǎn)換)”過程——相似的名稱代表了截然不同的范式。
一些聲音大膽地預(yù)測:“ETL將在未來被完全取代,因?yàn)榇竽P涂梢蕴幚硭袛?shù)據(jù)!”這是否標(biāo)志著支撐數(shù)據(jù)處理數(shù)十年的ETL框架的終結(jié)?或者這僅僅是一個被誤解的預(yù)測?這種沖突的背后是對科技未來的更深層次的思考。
大數(shù)據(jù)處理(ETL)會消失嗎?
隨著大模型的快速發(fā)展,一些人開始猜測,包括ETL在內(nèi)的傳統(tǒng)大數(shù)據(jù)處理方法是否仍然有存在的必要。能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大模型無疑令人印象深刻。然而,我的答案很明確:ETL不會消失!原因在于大模型仍然無法解決下述幾個核心數(shù)據(jù)挑戰(zhàn):
1. 效率問題
盡管大模型在特定任務(wù)中表現(xiàn)出色,但它們會產(chǎn)生巨大的計算成本。訓(xùn)練一個大型的Transformer模型可能需要數(shù)周的時間,并消耗大量的能源和金錢。相比之下,ETL依賴于預(yù)定義的規(guī)則和邏輯,效率高,消耗資源少,并且擅長處理結(jié)構(gòu)化數(shù)據(jù)。
對于日常的企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是規(guī)則驅(qū)動的,例如:
- 數(shù)據(jù)清洗:使用清晰的規(guī)則或正則表達(dá)式清除異常。
- 格式轉(zhuǎn)換:標(biāo)準(zhǔn)化格式,方便跨系統(tǒng)的數(shù)據(jù)傳輸和集成。
- 聚合和統(tǒng)計:對每日、每周或每月的數(shù)據(jù)進(jìn)行分類、聚合和計算。
這些任務(wù)可以由ETL工具快速處理,而無需大模型的復(fù)雜推理能力。
2. 自然語言中的歧義
大模型在自然語言處理(NLP)方面表現(xiàn)出色,但也暴露了人類語言的歧義性和模糊性這一固有挑戰(zhàn)。例如:
- 單個輸入查詢可能根據(jù)上下文產(chǎn)生不同的解釋,不能保證準(zhǔn)確性。
- 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型生成的結(jié)果與實(shí)際需求不一致。
相比之下,ETL是確定性的,它根據(jù)預(yù)定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測的標(biāo)準(zhǔn)化輸出。在金融和醫(yī)療保健等高需求行業(yè),ETL的可靠性和精度仍然是關(guān)鍵優(yōu)勢。
3. 對結(jié)構(gòu)化數(shù)據(jù)有很強(qiáng)的適應(yīng)性
大模型擅長從非結(jié)構(gòu)化數(shù)據(jù)(例如,文本、圖像、視頻)中提取見解,但它們通常難以處理結(jié)構(gòu)化數(shù)據(jù)任務(wù)。例如:
- 傳統(tǒng)的ETL能夠有效地處理關(guān)系數(shù)據(jù)庫,處理復(fù)雜的操作,如JOINs和GROUP BYs。
- 大模型需要在處理之前將數(shù)據(jù)轉(zhuǎn)換為特定格式,從而導(dǎo)致冗余和延遲。
在由結(jié)構(gòu)化數(shù)據(jù)(例如表、JSON)主導(dǎo)的場景中,ETL仍然是最佳選擇。
4. 可解釋性和遵從性
大模型通常被稱為“黑匣子”。即使數(shù)據(jù)處理完成,它們的內(nèi)部運(yùn)作和決策機(jī)制仍然不透明。具體表現(xiàn)為以下方面:
- 無法解釋的結(jié)果:在金融和醫(yī)療等受監(jiān)管的行業(yè)中,由于缺乏透明度,大模型的預(yù)測可能無法使用。
- 遵從性挑戰(zhàn):許多行業(yè)需要對數(shù)據(jù)流和處理邏輯進(jìn)行全面審計。大模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計挑戰(zhàn)。
相比之下,ETL提供了高度透明的過程,每個數(shù)據(jù)處理步驟都有文檔記錄和可審計,確保符合公司和行業(yè)標(biāo)準(zhǔn)。
5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化
大模型對數(shù)據(jù)質(zhì)量非常敏感。噪音、異?;蚍菢?biāo)準(zhǔn)化輸入都會嚴(yán)重影響其性能:
- 數(shù)據(jù)噪音:大模型無法自動識別錯誤數(shù)據(jù),可能會將其用作“學(xué)習(xí)材料”并產(chǎn)生有偏見的預(yù)測。
- 缺乏標(biāo)準(zhǔn)化:將原始的、未經(jīng)清理的數(shù)據(jù)輸入大模型可能導(dǎo)致不一致和缺失值,這需要像ETL這樣的預(yù)處理工具。
ETL確保在將數(shù)據(jù)輸入大型模型之前對數(shù)據(jù)進(jìn)行清理、重復(fù)數(shù)據(jù)刪除和標(biāo)準(zhǔn)化,從而保持?jǐn)?shù)據(jù)質(zhì)量高。
盡管大模型在許多領(lǐng)域表現(xiàn)出色,但它們的復(fù)雜性、對高質(zhì)量數(shù)據(jù)的依賴、硬件需求和實(shí)際限制都說明它們無法完全取代ETL。作為一種確定性的、高效的和透明的工具,ETL將繼續(xù)與大模型共存,為數(shù)據(jù)處理提供雙重保障。
CPU vs. GPU:等同于ETL vs.大模型
雖然ETL是不可替代的,但大模型在數(shù)據(jù)處理領(lǐng)域的興起也是必然趨勢。幾十年來,計算系統(tǒng)以CPU為中心,其他組件被視為外圍設(shè)備。GPU主要用于游戲,但今天,數(shù)據(jù)處理依賴于CPU和GPU(或NPU)的協(xié)同作用。這種模式的轉(zhuǎn)變反映了更廣泛的變化,反映在英特爾和英偉達(dá)的股票趨勢上。
從單中心到多中心計算
從歷史上看,數(shù)據(jù)處理架構(gòu)從“以CPU為中心”演變?yōu)?/span>“CPU+GPU(甚至NPU)協(xié)作”。這種由計算性能需求的變化所驅(qū)動的轉(zhuǎn)變深刻地影響了數(shù)據(jù)處理工具的選擇。
在以CPU為中心的時代,早期的ETL進(jìn)程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。
然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的興起和存儲的指數(shù)級增長揭示了CPU能力的局限性。GPU以其無與倫比的并行處理能力,在訓(xùn)練大型Transformer模型等數(shù)據(jù)密集型任務(wù)中占據(jù)了中心位置。
從傳統(tǒng)ETL到大模型
傳統(tǒng)的ETL流程,針對“以CPU為中心”的計算進(jìn)行了優(yōu)化,擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。具體例子包括:
- 數(shù)據(jù)驗(yàn)證和清理。
- 格式標(biāo)準(zhǔn)化。
- 聚合和報告。
相比之下,大模型需要GPU能力來進(jìn)行高維矩陣計算和大規(guī)模參數(shù)優(yōu)化。具體例子包括:
- 預(yù)處理:實(shí)時標(biāo)準(zhǔn)化和數(shù)據(jù)分割。
- 模型訓(xùn)練:涉及浮點(diǎn)運(yùn)算的計算繁重任務(wù)。
- 推理服務(wù):優(yōu)化批處理,實(shí)現(xiàn)低延遲和高吞吐量。
這反映了從邏輯計算到神經(jīng)推理的轉(zhuǎn)變,將數(shù)據(jù)處理擴(kuò)展到包括推理和知識提取。
面向大模型的新一代ETL架構(gòu)
大模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理的低效率,需要更先進(jìn)、更統(tǒng)一的架構(gòu)。
當(dāng)前數(shù)據(jù)處理中的痛點(diǎn)
- 復(fù)雜、碎片化的流程:數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手工化和孤立的。
- 低可重用性:團(tuán)隊經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。
- 質(zhì)量不一致:缺乏標(biāo)準(zhǔn)化的工具會導(dǎo)致數(shù)據(jù)質(zhì)量的變化。
- 高成本:每個團(tuán)隊獨(dú)立的開發(fā)和維護(hù)會增加成本。
解決方案:AI增強(qiáng)ETL工具
未來的ETL工具將嵌入人工智能功能,將傳統(tǒng)優(yōu)勢與現(xiàn)代智能相結(jié)合。具體包括以下幾點(diǎn):
- 嵌入生成:內(nèi)置支持文本、圖像和音頻矢量化。
- LLM知識提取:非結(jié)構(gòu)化數(shù)據(jù)的自動結(jié)構(gòu)化。
- 動態(tài)清理規(guī)則:數(shù)據(jù)清理策略的上下文感知優(yōu)化。
- 非結(jié)構(gòu)化數(shù)據(jù)處理:支持關(guān)鍵幀提取、OCR和語音到文本。
- 自動增強(qiáng):智能數(shù)據(jù)生成和增強(qiáng)。
終極趨勢:Transformers + Transform
隨著技術(shù)的不斷進(jìn)步,大模型與傳統(tǒng)ETL技術(shù)逐漸融合。下一代ETL架構(gòu)有望將大模型的智能與ETL的效率結(jié)合起來,創(chuàng)建一個能夠處理各種數(shù)據(jù)類型的綜合框架。
硬件:數(shù)據(jù)處理單元的集成
數(shù)據(jù)處理的基礎(chǔ)正在從以CPU為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPU的協(xié)作方法:
- CPU用于基礎(chǔ)任務(wù):CPU擅長基本操作(如初步數(shù)據(jù)清理、集成)和基于規(guī)則的處理(如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù))。
- GPU用于高級分析:GPU具有強(qiáng)大的并行計算能力,可以處理預(yù)處理數(shù)據(jù)上的大模型訓(xùn)練和推理任務(wù)。
這一趨勢不僅體現(xiàn)在技術(shù)創(chuàng)新上,也體現(xiàn)在行業(yè)動態(tài)上:英特爾正在推進(jìn)用于CPU-AI協(xié)作的人工智能加速器,而英偉達(dá)正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場景。CPU和GPU之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。
軟件:數(shù)據(jù)處理架構(gòu)的集成
隨著ETL和大模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個多功能的協(xié)作平臺,其中ETL作為大模型的數(shù)據(jù)準(zhǔn)備工具。
大模型在訓(xùn)練過程中需要高質(zhì)量的輸入數(shù)據(jù),ETL為其提供了初步處理,創(chuàng)造了理想的條件。具體表現(xiàn)為以下方面:
- 噪聲去除和清洗:消除噪聲數(shù)據(jù),提高數(shù)據(jù)集質(zhì)量。
- 格式化和標(biāo)準(zhǔn)化:將多種數(shù)據(jù)格式轉(zhuǎn)換為適合大模型的統(tǒng)一結(jié)構(gòu)。
- 數(shù)據(jù)增強(qiáng):通過預(yù)處理和基于規(guī)則的增強(qiáng)來擴(kuò)展數(shù)據(jù)規(guī)模和多樣性。
AI增強(qiáng)ETL架構(gòu)的出現(xiàn)
ETL工具的未來在于嵌入AI功能,以實(shí)現(xiàn)更智能的數(shù)據(jù)處理:
1.嵌入功能
- 集成用于生成嵌入的模塊以支持基于向量的數(shù)據(jù)處理。
- 生成文本、圖像和音頻的高維表示;在下游任務(wù)中使用預(yù)訓(xùn)練模型進(jìn)行語義嵌入。
- 直接在ETL工作流中執(zhí)行嵌入計算,減少對外部推理服務(wù)的依賴。
2.LLM知識提取
- 利用大語言模型(LLM)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實(shí)體和事件等結(jié)構(gòu)化信息。
- 完成和推斷復(fù)雜的字段,例如填充缺失值或預(yù)測未來趨勢。
- 在數(shù)據(jù)集成期間支持多語言數(shù)據(jù)翻譯和語義對齊。
3.非結(jié)構(gòu)化數(shù)據(jù)識別和關(guān)鍵幀提取
- 原生支持視頻、圖像和音頻數(shù)據(jù),支持注釋或訓(xùn)練數(shù)據(jù)集的自動關(guān)鍵幀提取。
- 從圖像中提取特征(例如,對象檢測,OCR)并執(zhí)行音頻到文本的轉(zhuǎn)換,情感分析等等。
4.動態(tài)清理規(guī)則
- 根據(jù)數(shù)據(jù)上下文動態(tài)調(diào)整清理和增強(qiáng)策略,以提高效率和相關(guān)性。
- 實(shí)時檢測異常并生成自適應(yīng)清理規(guī)則。
- 優(yōu)化特定領(lǐng)域(例如,金融、醫(yī)療保?。┑那鍧嵅呗?。
5.自動數(shù)據(jù)增強(qiáng)和生成
- 通過人工智能模型動態(tài)增強(qiáng)數(shù)據(jù)集,例如同義詞替換、數(shù)據(jù)反翻譯、對抗性樣本生成等。
- 擴(kuò)展低樣本場景的數(shù)據(jù)集,支持跨語言或跨領(lǐng)域的數(shù)據(jù)生成。
AI增強(qiáng)的ETL代表了傳統(tǒng)ETL的轉(zhuǎn)型飛躍,提供嵌入生成、基于LLM的知識提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。
案例研究:Apache seattunnel——新一代AI增強(qiáng)ETL架構(gòu)
例如,開源Apache SeaTunnel項(xiàng)目通過支持創(chuàng)新的數(shù)據(jù)格式和先進(jìn)的處理能力,打破了傳統(tǒng)的ETL限制,展示了數(shù)據(jù)處理的未來:
- 原生支持非結(jié)構(gòu)化數(shù)據(jù):SeaTunnel引擎支持文本、視頻和音頻處理,以滿足不同的模型訓(xùn)練需求。
- 向量化數(shù)據(jù)支持:實(shí)現(xiàn)深度學(xué)習(xí)和大模型推理任務(wù)的無縫兼容。
- 嵌入大模型功能:SeaTunnel v2.3.8支持嵌入生成和LLM轉(zhuǎn)換,將傳統(tǒng)的ETL與AI推理工作流連接起來。
- “Any-to-Any”轉(zhuǎn)換:將數(shù)據(jù)從任何來源(例如,數(shù)據(jù)庫、binlogs、pdf、SaaS、視頻)轉(zhuǎn)換為任何目標(biāo)格式,提供無與倫比的多功能性。
SeaTunnel等工具說明了現(xiàn)代數(shù)據(jù)處理如何演變?yōu)槿斯ぶ悄?/span>+大數(shù)據(jù)全棧協(xié)作系統(tǒng),成為企業(yè)人工智能和數(shù)據(jù)戰(zhàn)略的核心。
結(jié)語
大模型Transformers和大數(shù)據(jù)Transforms不是競爭對手,而是盟友。數(shù)據(jù)處理的未來在于ETL與大模型的深度融合,具體如下所示:
- 協(xié)作數(shù)據(jù)處理單元:利用CPU-GPU協(xié)同進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。
- 動態(tài)數(shù)據(jù)處理架構(gòu):將AI功能嵌入ETL,用于嵌入生成、LLM知識提取和智能決策。
- 下一代工具:像Apache SeaTunnel這樣的開源解決方案突出了這一趨勢,實(shí)現(xiàn)了“Any-to-Any”的數(shù)據(jù)轉(zhuǎn)換,并重新定義了ETL邊界。
大模型與ETL的融合,將推動數(shù)據(jù)處理進(jìn)入智能化、標(biāo)準(zhǔn)化、開放的新時代。通過滿足企業(yè)需求,這種演變將推動業(yè)務(wù)創(chuàng)新和智能決策,成為未來數(shù)據(jù)驅(qū)動型企業(yè)的核心引擎。
原文標(biāo)題:Why ETL and AI Aren’t Rivals, but Partners in Data’s Future,作者:William Guo