大模型與大數(shù)據(jù)雙向賦能,“WeData+AI”智能化升級(jí)
一、大模型面臨的機(jī)遇與挑戰(zhàn)
如今大模型已在全球范圍內(nèi)各行各業(yè)中得到了快速應(yīng)用和發(fā)展,在智能對(duì)話、醫(yī)療健康、內(nèi)容生成和教育賦能等關(guān)鍵領(lǐng)域呈現(xiàn)出了爆發(fā)式的增長態(tài)勢(shì)。這一發(fā)展不僅推動(dòng)了相關(guān)行業(yè)的智能化轉(zhuǎn)型,還促進(jìn)了技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí)。
然而,在享受大模型帶來的便利與效益的同時(shí),我們也必須正視其所面臨的諸多數(shù)據(jù)問題和挑戰(zhàn),例如數(shù)據(jù)幻覺問題、數(shù)據(jù)不一致、數(shù)據(jù)安全問題以及數(shù)據(jù)多樣性不足等問題。這些問題揭示出高質(zhì)量數(shù)據(jù)對(duì)大模型發(fā)展起著至關(guān)重要的作用。那么如何才能獲得高質(zhì)量的數(shù)據(jù)呢?
二、WeData+AI
WeData平臺(tái)將大模型與大數(shù)據(jù)相互驅(qū)動(dòng)與共融,一方面利用 AI 技術(shù)加速企業(yè)專屬數(shù)據(jù)資產(chǎn)的構(gòu)建,同時(shí)這些數(shù)據(jù)資產(chǎn)又為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù),兩者相輔相成,加速企業(yè)的數(shù)據(jù)價(jià)值釋放。接下來就將介紹如何利用 WeData 平臺(tái),實(shí)現(xiàn) Data+AI “雙輪驅(qū)動(dòng)”。
WeData 是騰訊云推出的一站式數(shù)據(jù)開發(fā)治理平臺(tái),融合了數(shù)據(jù)集成、開發(fā)、測(cè)試、運(yùn)維的全鏈路 DataOps 數(shù)據(jù)開發(fā)能力,以及數(shù)據(jù)建模、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)服務(wù)等一系列數(shù)據(jù)管理和治理能力,并與騰訊云大數(shù)據(jù)基礎(chǔ)引擎(如 TBDS、EMR、DLC、TCHouse 等)結(jié)合,致力于為企業(yè)提供穩(wěn)定、高效、開放、安全的大數(shù)據(jù)解決方案。WeData 自推出以來,已持續(xù)為數(shù)百家企業(yè)客戶基于大數(shù)據(jù)進(jìn)行的數(shù)字化轉(zhuǎn)型項(xiàng)目提供相應(yīng)的一站式服務(wù)。
下面將從 Data for AI 和 AI for Data 兩個(gè)方面詳細(xì)介紹如何將大數(shù)據(jù)與 AI 結(jié)合起來。
三、Data for AI - 為大模型提供高質(zhì)量數(shù)據(jù)
大數(shù)據(jù)與 AI 在數(shù)據(jù)處理流程中通常是獨(dú)立存在的,為實(shí)現(xiàn)利用大數(shù)據(jù)為 AI 提供高質(zhì)量的數(shù)據(jù),并持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量,就需要構(gòu)建一個(gè)一站式數(shù)據(jù)平臺(tái)將大數(shù)據(jù)與 AI 緊密結(jié)合起來。Data for AI 部分的核心目標(biāo)是讓平臺(tái)覆蓋數(shù)據(jù)的全生命周期,并且通過數(shù)據(jù)治理措施,協(xié)助企業(yè)構(gòu)建專屬的數(shù)據(jù)資產(chǎn)。
通常整個(gè)數(shù)據(jù)的全生命周期,涵蓋了從需求的提出,到數(shù)據(jù)工程師對(duì)數(shù)據(jù)的集成、加工、清洗和轉(zhuǎn)換,并提供對(duì)外的數(shù)據(jù)服務(wù),再到數(shù)據(jù)科學(xué)家使用這些數(shù)據(jù)進(jìn)行模型訓(xùn)練、參數(shù)調(diào)整,最終生成模型服務(wù),進(jìn)而為各式各樣的業(yè)務(wù)應(yīng)用賦能。
在此過程中,平臺(tái)針對(duì)數(shù)據(jù)科學(xué)家及分析師類用戶,新增了 Notebook 數(shù)據(jù)探索功能,以支持輕量化的模型訓(xùn)練和增強(qiáng)分析功能。此外,平臺(tái)還與騰訊云機(jī)器學(xué)習(xí)平臺(tái) Ti-One 進(jìn)行了集成,用于支持模型的訓(xùn)練任務(wù)。最后,通過平臺(tái)統(tǒng)一的數(shù)據(jù)調(diào)度編排機(jī)制,將大數(shù)據(jù)處理任務(wù)與機(jī)器學(xué)習(xí)任務(wù)串聯(lián)起來,構(gòu)建起完整的數(shù)據(jù)鏈路,確保數(shù)據(jù)流暢傳輸,促進(jìn)組織內(nèi)不同角色間的緊密協(xié)作,進(jìn)而加快數(shù)據(jù)價(jià)值的轉(zhuǎn)化過程。
另外,平臺(tái)還針對(duì)泛互、金融等行業(yè)客戶的業(yè)務(wù)實(shí)際場(chǎng)景,結(jié)合混元和一些開源技術(shù),提供針對(duì)于行業(yè)的精調(diào)服務(wù),并為企業(yè)快速搭建全面而精準(zhǔn)的知識(shí)庫體系,構(gòu)建結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建向量存儲(chǔ),提升大模型在行業(yè)的問答準(zhǔn)確率。
以騰訊內(nèi)部的游戲部門為例,平臺(tái)通過混元大模型為其打造了專屬的知識(shí)庫,方便業(yè)務(wù)人員直接通過自然語言的方式查詢運(yùn)營數(shù)據(jù),還實(shí)現(xiàn)了針對(duì)不同業(yè)務(wù)推薦的庫表服務(wù),極大地提升了用數(shù)效率。
在數(shù)據(jù)質(zhì)量方面,平臺(tái)通過覆蓋數(shù)據(jù)的全生命周期,從事前、事中到事后的數(shù)據(jù)治理流程,解決數(shù)據(jù)不規(guī)范、不一致、不準(zhǔn)確等問題,確保企業(yè)能夠?yàn)榇竽P吞峁└哔|(zhì)量的數(shù)據(jù)。
在事前階段,我們嚴(yán)格遵循數(shù)據(jù)標(biāo)準(zhǔn)來規(guī)范數(shù)據(jù)建模過程,通過落標(biāo)檢測(cè)和標(biāo)準(zhǔn)稽核機(jī)制,來保障數(shù)據(jù)標(biāo)準(zhǔn)能夠落到數(shù)據(jù)模型中去。隨后,利用高效的模型發(fā)布功能,將模型發(fā)布至數(shù)據(jù)倉庫或數(shù)據(jù)湖中,使其能夠?yàn)楹罄m(xù)的數(shù)據(jù)資產(chǎn)管理和多樣化的數(shù)據(jù)應(yīng)用提供服務(wù)。
在事中階段,平臺(tái)上提供了全鏈路的數(shù)據(jù)質(zhì)量監(jiān)測(cè)與檢查,可以嚴(yán)格遵循業(yè)界標(biāo)準(zhǔn),對(duì)數(shù)據(jù)的六大核心維度——準(zhǔn)確性、唯一性、完整性、一致性、及時(shí)性與有效性——進(jìn)行詳盡而全面的質(zhì)量評(píng)估。為確保評(píng)估的精準(zhǔn)與高效,平臺(tái)針對(duì)每一維度均設(shè)定了詳盡的質(zhì)量保障規(guī)則,并配置了相應(yīng)的任務(wù)執(zhí)行計(jì)劃。通過這一體系,平臺(tái)能夠?qū)崟r(shí)捕捉數(shù)據(jù)質(zhì)量問題,及時(shí)采取糾正措施,從而確保數(shù)據(jù)的整體質(zhì)量符合業(yè)務(wù)需求與合規(guī)要求。同時(shí),該體系還具備高度的靈活性,能夠根據(jù)不同業(yè)務(wù)需求與數(shù)據(jù)特點(diǎn)進(jìn)行定制化調(diào)整,以滿足多樣化的數(shù)據(jù)治理需求。
在數(shù)據(jù)治理的事后階段,平臺(tái)提供了全面的數(shù)據(jù)資產(chǎn)健康評(píng)價(jià)體系,從數(shù)據(jù)規(guī)范、成本、安全等多個(gè)維度,對(duì)數(shù)據(jù)的健康狀況進(jìn)行詳盡、客觀的評(píng)估,從而精準(zhǔn)識(shí)別問題,并據(jù)此設(shè)定清晰、合理的治理目標(biāo)。通過實(shí)施這一評(píng)價(jià)體系,驅(qū)動(dòng)組織及個(gè)人進(jìn)行持續(xù)的改進(jìn),進(jìn)而依托有效的運(yùn)營手段,推動(dòng)形成數(shù)據(jù)質(zhì)量不斷提升的正向循環(huán)機(jī)制,確保數(shù)據(jù)資產(chǎn)的長遠(yuǎn)價(jià)值與穩(wěn)健發(fā)展。
通過數(shù)據(jù)治理,可以幫助企業(yè)獲得高質(zhì)量的專屬數(shù)據(jù),而企業(yè)要用好數(shù)、管好數(shù),還需要數(shù)據(jù)資產(chǎn)管理。
在數(shù)據(jù)資產(chǎn)管理中,提供了數(shù)據(jù)的全生命周期管理,可以幫助 AI 系統(tǒng)有效管理并處理過期的數(shù)據(jù)。同時(shí),成本優(yōu)化措施的實(shí)施可以幫助企業(yè)降低數(shù)據(jù)存儲(chǔ)和計(jì)算的成本。此外,數(shù)據(jù)血源分析功能則能夠支持 AI 在分析過程中獲取更準(zhǔn)確的數(shù)據(jù)上下文,從而提高分析結(jié)果的準(zhǔn)確率。
平臺(tái)還提供了全方位的數(shù)據(jù)安全防護(hù),通過對(duì)數(shù)據(jù)分級(jí)分類和敏感數(shù)據(jù)識(shí)別,可以全面掌握數(shù)據(jù)安全狀況。例如,了解數(shù)據(jù)分類分級(jí)的分布情況,明確敏感數(shù)據(jù)到底都在哪里。根據(jù)這些分類分級(jí)結(jié)果,我們可以針對(duì)不同類型及不同分類的數(shù)據(jù),制定相應(yīng)的數(shù)據(jù)安全策略,以確保大模型所提供的數(shù)據(jù)滿足合規(guī)要求。同時(shí),對(duì)所有數(shù)據(jù)訪問行為進(jìn)行審計(jì)與監(jiān)控,從而全方位地保護(hù)數(shù)據(jù)安全。
四、AI for Data - 提升數(shù)據(jù)開發(fā)治理效率及用戶體驗(yàn)
接下來是 AI for Data 的部分,將從四個(gè)方面介紹在 WeData 中如何利用大模型提高數(shù)據(jù)開發(fā)治理效率以及用戶體驗(yàn)。
1. WeData+AI 智能助手
在數(shù)據(jù)開發(fā)方面,我們推出了與混元大模型相融合的 AI 智能助手。智能助手展現(xiàn)出了卓越的 SQL 排錯(cuò)能力,其錯(cuò)誤修復(fù)準(zhǔn)確率高達(dá) 90% 以上。此外,它還提供了 SQL 解釋功能,該功能在審視歷史代碼或他人編寫的代碼時(shí),能夠迅速且精確地解析代碼邏輯,并給出詳盡的解讀,顯著減輕了開發(fā)人員在此類任務(wù)上的負(fù)擔(dān)。同時(shí),SQL 注釋輔助功能也進(jìn)一步優(yōu)化了開發(fā)流程,減少了繁瑣的細(xì)節(jié)工作,從而提升了數(shù)據(jù)開發(fā)的整體效率。
2. 血緣分析能力增強(qiáng)
在血緣分析模塊中,結(jié)合大型模型的技術(shù)優(yōu)勢(shì),能夠顯著提高 SQL 語句解析的準(zhǔn)確性與系統(tǒng)穩(wěn)定性。在處理復(fù)雜 SQL 語句時(shí),例如涉及自定義函數(shù)、特定方言等情況,傳統(tǒng)方法往往容易出現(xiàn)解析錯(cuò)誤,影響程序正常運(yùn)行并導(dǎo)致數(shù)據(jù)血緣信息缺失。通過混元和技術(shù)元數(shù)據(jù)相結(jié)合,不僅減少了錯(cuò)誤發(fā)生的頻率,而且增強(qiáng)了對(duì) SQL 語句血緣解析的準(zhǔn)確性,確保了整個(gè)平臺(tái)運(yùn)行的穩(wěn)定性。
此外,在數(shù)據(jù)血緣解析的通用能力方面,融合大型模型技術(shù)后,不僅能夠解析常見的 SQL 語句,還能夠?qū)?Python 腳本、Shell 腳本,甚至 Elasticsearch 中的 SQL 語句進(jìn)行解析,極大地提升了血緣信息的通用解析能力。大型模型還能夠輔助修正血緣分析過程中出現(xiàn)的異?;蛐畔⑷笔栴},例如處理運(yùn)行失效的節(jié)點(diǎn)、自動(dòng)修復(fù)受損數(shù)據(jù)等,從而進(jìn)一步提高數(shù)據(jù)血緣的準(zhǔn)確性。
3. 數(shù)據(jù)資產(chǎn)智能化
在數(shù)據(jù)資產(chǎn)管理領(lǐng)域,通過采集與管理元數(shù)據(jù),對(duì)基礎(chǔ)信息、管理元數(shù)據(jù)以及業(yè)務(wù)信息等多個(gè)維度的完善度進(jìn)行評(píng)估,實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的智能化輔助盤點(diǎn),從而降低了人工標(biāo)注的依賴,減少了人力資源的投入,顯著提升了資產(chǎn)盤點(diǎn)效率。
在此過程中,傳統(tǒng)技術(shù)方案在處理圖片、影視頻及文件等非結(jié)構(gòu)化數(shù)據(jù)方面存在一定的局限性,元數(shù)據(jù)信息獲取不足,準(zhǔn)確率較低。借助大模型技術(shù),支持多模態(tài)實(shí)體提取及元數(shù)據(jù)自動(dòng)補(bǔ)齊功能。例如,能夠在視頻數(shù)據(jù)中提取到飛機(jī)、事件、政治人物等實(shí)體信息,識(shí)別敏感數(shù)據(jù),并補(bǔ)齊元數(shù)據(jù)信息,從而顯著提高了元數(shù)據(jù)信息的提取能力。最終,將這些信息整合至數(shù)據(jù)資產(chǎn)中,并提供基于自然語言處理的數(shù)據(jù)資產(chǎn)建設(shè)功能,用戶僅需輸入自然語言的查詢問題,無需編寫復(fù)雜的 SQL 語句,亦無需具備技術(shù)背景知識(shí),即可迅速獲取所需數(shù)據(jù)。
通過大型模型技術(shù)構(gòu)建企業(yè)智能化數(shù)據(jù)資產(chǎn)知識(shí)庫,不僅提升了檢索效率與準(zhǔn)確性,還顯著降低了組織內(nèi)部不同角色查詢數(shù)據(jù)的門檻。
4. 數(shù)據(jù)安全智能化
在數(shù)據(jù)安全領(lǐng)域,我們通過向平臺(tái)輸入業(yè)務(wù)數(shù)據(jù)樣本、接口信息及用戶行為數(shù)據(jù),并且利用 AI 相關(guān)技術(shù)訓(xùn)練了安全敏感數(shù)據(jù)識(shí)別模型,以及異常風(fēng)險(xiǎn)預(yù)判模型。與傳統(tǒng)檢測(cè)技術(shù)相比,基于 AI 的能力能夠更有效地降低誤報(bào)率。例如,如何識(shí)別密碼的問題,同時(shí)還能夠解決檢測(cè)對(duì)象難以窮盡的問題,如公司名稱存在多種表述方式的情況。此外,通過智能化改造,平臺(tái)實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的方式,持續(xù)地優(yōu)化與改進(jìn),突破了傳統(tǒng)限制,不僅減少了人工投入,還實(shí)現(xiàn)了分類分級(jí)識(shí)別的高準(zhǔn)確率,達(dá)到了 98.57%。
通過圖表分析可見,采用預(yù)先訓(xùn)練成熟的模型,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)實(shí)施自動(dòng)化掃描與識(shí)別,同時(shí)針對(duì)各類數(shù)據(jù)訪問和請(qǐng)求日志進(jìn)行風(fēng)險(xiǎn)監(jiān)控。通過敏感數(shù)據(jù)識(shí)別引擎及預(yù)先設(shè)定的分類分級(jí)方案,能夠準(zhǔn)確獲取敏感數(shù)據(jù)的分布情況、敏感數(shù)據(jù)資產(chǎn)目錄以及安全風(fēng)險(xiǎn)分布結(jié)果,從而協(xié)助企業(yè)明確數(shù)據(jù)安全的問題所在,為進(jìn)一步的安全措施提供依據(jù)。