AI多模態(tài)場景對數(shù)據(jù)管理帶來的挑戰(zhàn)有哪些?
在數(shù)據(jù)應(yīng)用場景中,數(shù)據(jù)源屬于數(shù)據(jù)管理是非常的一個環(huán)節(jié),包括數(shù)據(jù)源、數(shù)據(jù)集成、生命周期、數(shù)據(jù)地圖、數(shù)據(jù)標注、數(shù)據(jù)安全、主數(shù)據(jù)等等等,數(shù)據(jù)管理也是整個數(shù)據(jù)治理體系中最核心的部分之一,面向智算領(lǐng)域的數(shù)據(jù)能力,對于AI數(shù)據(jù)治理會有一些新的挑戰(zhàn)。
在過去數(shù)十年的大數(shù)據(jù)領(lǐng)域發(fā)展過程中,結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)處理都是其中絕對的主角,結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)由業(yè)務(wù)流程產(chǎn)生,與商業(yè)價值高度相關(guān),這些數(shù)據(jù)與企業(yè)的流程業(yè)務(wù)及商業(yè)化息息相關(guān),SAAS軟件領(lǐng)域也逐漸演化出了非常成熟的產(chǎn)品及處理能力。
關(guān)于數(shù)據(jù)類型的對比
根據(jù) Gartner 的數(shù)據(jù)顯示,結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)僅僅占到全世界數(shù)據(jù)比例的不到 20%,其他 80%以上均是非結(jié)構(gòu)化數(shù)據(jù)。在過去的技術(shù)能力下,非結(jié)構(gòu)化數(shù)據(jù)難以處理,價值難以被挖掘和衡量,有研究顯示大量辦公文檔類的數(shù)據(jù)在整個生命周期內(nèi)最多只被使用過 2 次,相比較其被努力創(chuàng)造出來的投入相比產(chǎn)生的價值極為有限。
過去數(shù)據(jù)分析場景的數(shù)據(jù)大多是結(jié)構(gòu)化的數(shù)據(jù)為主,AI多模態(tài)場景中的數(shù)據(jù)大多數(shù)是非結(jié)構(gòu)化數(shù)據(jù)為主。
數(shù)據(jù)分析場景和 AI 多模態(tài)場景中數(shù)據(jù)來源特點
- 絕?部分是?結(jié)構(gòu)化數(shù)據(jù)(例如?本、語? / 視頻、HTML ??)
- 更多樣性的數(shù)據(jù)源,事務(wù)性關(guān)系型數(shù)據(jù)源、OLAP 類型、向量化類型、K/V 類型、對象存儲類型
- 數(shù)據(jù)體量更加龐?,AI 預處理數(shù)據(jù)和訓推數(shù)據(jù)少則???百 TB 多則 PB 級別,相??數(shù)據(jù)分析型?出數(shù)倍。
AI場景數(shù)據(jù)來源
- 開源數(shù)據(jù)集(例如從AI Gallery、 HuggingFace 、OpenDataLab 等等)
- 對象存儲
- 其它SAAS類的第三方公司
- 企業(yè)自身積累數(shù)據(jù)
從數(shù)據(jù)管理角度來說,針對數(shù)據(jù)層面后續(xù)會有更多的場景能力需要支持,例如
- 外部海量數(shù)據(jù)拉取能力(數(shù)據(jù)源管理)
- 數(shù)據(jù)預處理(清洗、標簽)
- 數(shù)據(jù)質(zhì)量評估(固定策略、模型檢測)
- 數(shù)據(jù)標注能力(自動標注、人工標注)
- 數(shù)據(jù)分享(內(nèi)外部)
典型大語言模型所需數(shù)據(jù)類型分布情況
大體上來看,可以分為如下幾種類型:
- 通用型數(shù)據(jù)(網(wǎng)頁、書籍、論文、百科全書、代碼等)
- 領(lǐng)域型數(shù)據(jù)(金融、法律、醫(yī)療、教育等等)
- 對話類型(多語言識別轉(zhuǎn)化)
從數(shù)據(jù)流轉(zhuǎn)到模型訓練的過程
流程說明
1. 原數(shù)據(jù)集
原數(shù)據(jù)可以是企業(yè)數(shù)據(jù)、外部數(shù)據(jù)、開源數(shù)據(jù)等等,也由于數(shù)據(jù)的多樣性,在后續(xù)的數(shù)據(jù)流轉(zhuǎn)中每個環(huán)節(jié)可能接觸使用的數(shù)據(jù)是不同的, 所以對于數(shù)據(jù)安全、數(shù)據(jù)審計、數(shù)據(jù)質(zhì)量、數(shù)據(jù)存儲、數(shù)據(jù)影響分析、數(shù)據(jù)可信、數(shù)據(jù)合法性、第三方數(shù)據(jù)集(“有毒”數(shù)據(jù))驗證等等方面都要有相關(guān)的能力支持,才能降低平臺型風險。
2. 數(shù)據(jù)集成
數(shù)據(jù)集成能力是數(shù)據(jù)流入/流出的核心能力,其次在數(shù)據(jù)集成中也可以進行數(shù)據(jù)校驗、規(guī)則檢查、安全檢測等等基礎(chǔ)性動作。
在AI模型中,過去數(shù)據(jù)分析場景的數(shù)據(jù)集成管道的邏輯可能不太能通用,數(shù)據(jù)管道是連接原始非結(jié)構(gòu)化數(shù)據(jù)和完全訓練好的LLM的通道,它們確保數(shù)據(jù)得到適當?shù)氖占?、處理和準備,使其準備好進入LLM構(gòu)建過程的訓練和驗證階段
- 數(shù)據(jù)提取:數(shù)據(jù)從其來源提取,來源可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫,甚至是外部 API。
- 數(shù)據(jù)轉(zhuǎn)換:原始數(shù)據(jù)需要被清理并轉(zhuǎn)換為適合分析的形式。轉(zhuǎn)換包括處理缺失值、糾正不一致的數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)類型或?qū)Ψ诸愖兞窟M行獨熱編碼。
- 數(shù)據(jù)加載:轉(zhuǎn)換后的數(shù)據(jù)被加載到存儲系統(tǒng),如數(shù)據(jù)庫或數(shù)據(jù)倉庫。然后這些數(shù)據(jù)就可以在機器學習模型中使用。
特性:
- 異構(gòu)數(shù)據(jù)同步
- 跨云、跨環(huán)境、跨源數(shù)據(jù)同步
3. 數(shù)據(jù)準備
機器學習算法需要將原始輸入數(shù)據(jù)轉(zhuǎn)換為表示數(shù)據(jù)他們可以理解的形式。此數(shù)據(jù)準備步驟可能會影響安全性和ML系統(tǒng)的可解釋性,因為數(shù)據(jù)在安全性中起著關(guān)鍵作用。數(shù)據(jù)準備包括如下幾類:
數(shù)據(jù)清洗和格式化
- 數(shù)據(jù)清洗和格式化包括處理缺失值或異常值,確保數(shù)據(jù)格式正確,并刪除不需要的列。例如,填補缺失值、移除異常值以及將數(shù)據(jù)轉(zhuǎn)換為所需的格式。
數(shù)據(jù)預處理
- 數(shù)據(jù)預處理包括數(shù)值轉(zhuǎn)換、數(shù)據(jù)聚合、文本或圖像數(shù)據(jù)編碼以及創(chuàng)建新特征等任務(wù)。這些步驟有助于將原始數(shù)據(jù)轉(zhuǎn)換為適合機器學習模型的形式,提高模型的性能。
數(shù)據(jù)合并
- 數(shù)據(jù)合并包括連接表格或合并數(shù)據(jù)集等任務(wù)。通過合并不同來源的數(shù)據(jù),可以整合更多信息,從而更好地支持分析和建模工作。
4. 數(shù)據(jù)標注
- 數(shù)據(jù)標注包括識別原始數(shù)據(jù)(如圖像、文本文件、視頻等)并添加一個或多個有意義且信息豐富的標簽,以提供上下文,使機器學習模型能夠從中學習。例如,在圖像分類中為每張圖像添加類別標簽。
數(shù)據(jù)驗證和可視化
- 數(shù)據(jù)驗證和可視化包括探索性數(shù)據(jù)分析,以確保數(shù)據(jù)正確且準備好用于機器學習。直方圖、散點圖、箱線圖、折線圖和條形圖等可視化工具都是確認數(shù)據(jù)正確性的有用工具。這些可視化方法可以幫助識別潛在問題,并確保數(shù)據(jù)的質(zhì)量和一致性。
5. 數(shù)據(jù)集
數(shù)據(jù)準備完成之后分為不同的數(shù)據(jù)集:訓練集、驗證集/保留集、測試集。
- 訓練集用作機器學習算法的輸入。
- 驗證集用于調(diào)整超參數(shù)并監(jiān)視機器學習算法過擬合。
- 在學習完成后使用測試集來評估性能。
6. 數(shù)據(jù)目錄
- 數(shù)據(jù)組織資產(chǎn)的工具(多種數(shù)據(jù)源服務(wù))
- 審計跟蹤
- 端到端的機器學習生命周期機制
- 模型數(shù)據(jù)的可追溯和資產(chǎn)透明
AI多模態(tài)對數(shù)據(jù)方面的挑戰(zhàn)有哪些?
一方面 AI 大模型本身即是由海量非結(jié)構(gòu)化的文檔及多模態(tài)數(shù)據(jù)訓練而成,企業(yè)可以應(yīng)用自身沉淀的大量非結(jié)構(gòu)化數(shù)據(jù)進行,模型訓練及精調(diào)。另一方面在如 RAG 類型的技術(shù)框架的幫助下,非結(jié)構(gòu)化數(shù)據(jù)可以通過AI 解析及外掛向量數(shù)據(jù)庫的方式得以實現(xiàn)解析及結(jié)構(gòu)化,用戶可以輕松實現(xiàn)如ChatWithPdf 等類型的業(yè)務(wù)。
隨著GenAI的廣泛應(yīng)用,非結(jié)構(gòu)化和多模態(tài)數(shù)據(jù)的價值開始被重視,但是這些數(shù)據(jù)的管理和利用是目前AI系統(tǒng)還有很多難點:
本文轉(zhuǎn)載自??DataForAI??,作者:易程Date
