數(shù)據(jù)治理與大模型一體化實(shí)踐
降本增效方面,以機(jī)器學(xué)習(xí)團(tuán)隊(duì)的構(gòu)成為例,滴普科技Deepexi產(chǎn)品線總裁柏海峰介紹道:“傳統(tǒng)機(jī)器學(xué)習(xí)或者說小模型的技術(shù)落地,對(duì)人才的要求很高,但企業(yè)往往沒有意識(shí)到這個(gè)問題。具體來說,一般需要構(gòu)建一個(gè)綜合性的團(tuán)隊(duì)即數(shù)據(jù)科學(xué)團(tuán)隊(duì),團(tuán)隊(duì)中需要數(shù)據(jù)開發(fā)工程師、BI工程師、商業(yè)分析師、數(shù)據(jù)科學(xué)家、算法工程師等崗位,人力成本很高,除了互聯(lián)網(wǎng)、金融行業(yè)的大型企業(yè),傳統(tǒng)企業(yè)或中小型企業(yè)很難組建這樣的團(tuán)隊(duì)?!?/span>
人才要求高的原因在于,不同崗位的技能差異非常大,相關(guān)工具和技術(shù)棧也比較分散,比如在某個(gè)具體應(yīng)用領(lǐng)域的AI模型也是采用不同的算法,數(shù)據(jù)處理層面的pipeline,很多時(shí)候自動(dòng)化的實(shí)現(xiàn)也不夠完善??傊?,不同的釘子只能用不同的錘子,而每一把錘子都不便宜。
因此,盡管小模型對(duì)算力、數(shù)據(jù)要求沒有那么高,但要調(diào)出好的效果,復(fù)雜度還是很高的。除了技術(shù)因素,在團(tuán)隊(duì)協(xié)作和業(yè)務(wù)適配方面,也還有很多難題。
“大模型帶來的首要好處就是,它一下子把技術(shù)門檻拉低了,把整個(gè)技術(shù)棧從輸入到輸出的鏈條變得很短,原本需要很多人的數(shù)據(jù)科學(xué)團(tuán)隊(duì),變成只需要一個(gè)人加多個(gè)Copilot就可以完成,這個(gè)人甚至可以是業(yè)務(wù)部門的,這是非常有想象力的?!?/span>
訓(xùn)練技術(shù)方面,大模型一般都是先進(jìn)行self supervised learning,構(gòu)建通用大模型,然后經(jīng)過supervised fine-tuning訓(xùn)練,針對(duì)特定任務(wù),構(gòu)建領(lǐng)域大模型初版,最后通過RLHF訓(xùn)練,對(duì)齊人類價(jià)值,完成類似于人類學(xué)習(xí)成長(zhǎng)的解題、實(shí)習(xí)、社會(huì)工作三步曲。
其中后兩步是大模型微調(diào)并構(gòu)建領(lǐng)域大模型的主要步驟,可以把訓(xùn)練前回答問題很散漫的通用大模型Llama 2 13B,訓(xùn)練成專業(yè)性很強(qiáng)的chatbot——Llama 2 13B-chat。
微調(diào)可以減少大模型的幻覺,增加模型輸出的一致性、專業(yè)性,并且只需要通用模型訓(xùn)練的千分之一或者萬分之一的數(shù)據(jù)量。
需求端和供給端條件具備,商業(yè)模式就有了雛形,那么,企業(yè)要發(fā)揮的作用就是,效能建設(shè)。
一、效能建設(shè):數(shù)據(jù)為道、模型為術(shù)
效能建設(shè)的核心變量,在于數(shù)據(jù)治理。但這個(gè)“數(shù)據(jù)”,和大數(shù)據(jù)時(shí)代的“數(shù)據(jù)”,內(nèi)涵又有很大不同。
傳統(tǒng)的數(shù)據(jù)治理,針對(duì)數(shù)據(jù)分析場(chǎng)景,主要面向結(jié)構(gòu)化數(shù)據(jù),包括主動(dòng)元數(shù)據(jù)、AI增強(qiáng)治理等技術(shù),已成比較成熟的體系。
而數(shù)據(jù)治理的新內(nèi)涵,面向大模型訓(xùn)練常見的非結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)治理的首要難題是,高質(zhì)量的領(lǐng)域數(shù)據(jù)獲取的成本。
大模型微調(diào)的典型方法是instruction fine tuning,也就是指令微調(diào),ChatGPT和Llama 2都是指令微調(diào)的產(chǎn)物。指令微調(diào)采用的數(shù)據(jù),就是prompt加上response的問答對(duì),要么由更強(qiáng)大的大模型比如GPT-4生成,要么由人工生成。
進(jìn)一步的微調(diào)強(qiáng)化還可以采用Explanation Tuning——解釋微調(diào),這是一種數(shù)據(jù)增強(qiáng)技術(shù),主要是通過成熟的大模型將對(duì)prompt的回答進(jìn)行step by step的拆解,從而獲得更容易理解的數(shù)據(jù)。這主要是基于這樣的經(jīng)驗(yàn),即提示大模型一步一步拆解問題并解答,可以顯著提高準(zhǔn)確率。此外,還存在像Neftune這種通過將數(shù)據(jù)經(jīng)過模型添加噪聲之后再進(jìn)行訓(xùn)練,就能顯著增加推理準(zhǔn)確率的魔法一般的數(shù)據(jù)增強(qiáng)技術(shù)。
除了增強(qiáng),AI模型也可以反過來幫助將雜亂的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行壓縮提煉,提取知識(shí)。一般來說,可以在公網(wǎng)中使用Claude2、GPT-4、GPT-3.5(ChatGPT),以prompt的形式將數(shù)據(jù)進(jìn)行信息提取,就可以把大量的文檔數(shù)據(jù)變成結(jié)構(gòu)化的知識(shí)。如果企業(yè)考慮到數(shù)據(jù)安全的問題,就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型,來處理這些文檔。
也就是說,非結(jié)構(gòu)化數(shù)據(jù)其實(shí)在很大程度上正在借助已有的成熟模型來處理,其中包括了小模型和大模型。
“比如說在石化行業(yè)的數(shù)據(jù)有很大部分都是多模態(tài)的,包括勘探鉆井時(shí)收集的圖像數(shù)據(jù)、地震探測(cè)中收集的地理數(shù)據(jù)、安全監(jiān)控視頻的數(shù)據(jù)、物聯(lián)網(wǎng)IoT數(shù)據(jù)等等,非常復(fù)雜。這些數(shù)據(jù)要得到利用,就要通過小模型、大模型的技術(shù)從里面提取出顯性的、隱性的知識(shí),從而能夠讓被訓(xùn)練的大模型也能夠看懂,這就是非結(jié)構(gòu)化數(shù)據(jù)的治理方法?!?/span>
采用大模型、小模型來代替人力從非結(jié)構(gòu)化數(shù)據(jù)中提取高質(zhì)量數(shù)據(jù),可以極大降低人力處理的成本。
業(yè)內(nèi)對(duì)大模型一直有著這樣的質(zhì)疑聲音,認(rèn)為現(xiàn)在的大模型就是把小模型做過的事情重做一遍,“但實(shí)際上,大模型和小模型形成了層次更豐富的模型棧,各自發(fā)揮所長(zhǎng),才能把效率最大化?!?/span>
不同規(guī)模、不同能力的AI模型,仿佛構(gòu)成了一個(gè)內(nèi)部生態(tài)。在訓(xùn)練時(shí),它們之間使用數(shù)據(jù)進(jìn)行交流,增強(qiáng)終端大模型的能力。在推理時(shí),大模型又成了決策樞紐,通過prompt的交流來規(guī)劃任務(wù)。
二、數(shù)據(jù)集的平衡:準(zhǔn)確率 vs 多樣性
數(shù)據(jù)集質(zhì)量的評(píng)估是多維度的,需要平衡幾項(xiàng)因素:靈活性、多樣性和準(zhǔn)確率。
其中,靈活性、多樣性是指模型面對(duì)變化多樣的prompt也能給出一致的回答,這在通用大模型應(yīng)用中很常見。而領(lǐng)域數(shù)據(jù)之所以對(duì)質(zhì)量要求高,也是因?yàn)閷?duì)準(zhǔn)確率要求很高。
“比如Text to SQL這樣的場(chǎng)景,行業(yè)屬性很強(qiáng),對(duì)準(zhǔn)確率要求也很高。目前行業(yè)相關(guān)應(yīng)用的準(zhǔn)確率普遍不高,ChatGPT也不到80%。而準(zhǔn)確率不超過80%,在生產(chǎn)環(huán)境是不能應(yīng)用的。“
此外,考慮到通用大模型的訓(xùn)練數(shù)據(jù)在靈活性、多樣性上最高,準(zhǔn)確率最低,小模型則相反,領(lǐng)域大模型其實(shí)處于兩者之間,因此必須對(duì)這幾項(xiàng)因素進(jìn)行平衡。
滴普科技在實(shí)踐中發(fā)現(xiàn),在訓(xùn)練數(shù)據(jù)集中如果領(lǐng)域數(shù)據(jù)集占30%,通用數(shù)據(jù)集占70%,訓(xùn)練出來的領(lǐng)域大模型更能夠兼顧靈活性、多樣性和準(zhǔn)確性。這個(gè)平衡又進(jìn)一步降低了數(shù)據(jù)的總體獲取成本。
三、數(shù)據(jù)類型:另一個(gè)維度
數(shù)據(jù)類型的劃分,除了質(zhì)量,還可以從知識(shí)表示的形式進(jìn)行劃分,不同形式對(duì)應(yīng)不同的訓(xùn)練方法。
數(shù)據(jù)或任務(wù)通常包含兩大類型,第一種屬于重表示型,比如把對(duì)Java線程的解釋進(jìn)行重新表述,第二種屬于知識(shí)問答型,比如如果不知道授信額度的準(zhǔn)確定義,就無法回答一些相關(guān)知識(shí)問答。
相比之下,第二種任務(wù)對(duì)模型的要求更高,因?yàn)橛兄R(shí)增量,需要對(duì)模型參數(shù)進(jìn)行較大的調(diào)整。
針對(duì)第一種任務(wù),模型微調(diào)常采用高效微調(diào)的方式,比如LoRA、QLoRA、P-tuning等,保留大模型原有參數(shù),在模型前方或后方添加新的神經(jīng)網(wǎng)絡(luò)層以改善推理,成本更低;針對(duì)第二種任務(wù),則采用全參微調(diào)的方式,對(duì)硬件要求高,主要在于內(nèi)存量,比如Llama 2 13B的全參微調(diào)至少需要一塊80G內(nèi)存的A800,Llama 2 7B則至少需要一塊24G內(nèi)存的RTX4090,才能完成訓(xùn)練,并且為防止過擬合,對(duì)數(shù)據(jù)集的要求也更高。
領(lǐng)域大模型偏重知識(shí)型任務(wù),一般而言全參微調(diào)是必不可少的。但任務(wù)本身也分層次,底層是統(tǒng)計(jì)分析型,頂層是預(yù)測(cè)型。統(tǒng)計(jì)分析型任務(wù)更基礎(chǔ),對(duì)準(zhǔn)確性要求高,比如文本分類、意圖識(shí)別、實(shí)體關(guān)系提取等,預(yù)測(cè)型相比之下對(duì)準(zhǔn)確性要求更低一些。
這在Text to SQL任務(wù)中也有體現(xiàn),“統(tǒng)計(jì)分析是what happen,預(yù)測(cè)分析是why happen,后者的準(zhǔn)確率一般沒法達(dá)到100%?!?/span>
當(dāng)然,要求是一方面,收益是另一方面,如果在高級(jí)任務(wù)中能獲得更強(qiáng)的能力,也將成為領(lǐng)域大模型的技術(shù)壁壘,為此,在滴普科技的5維模型基礎(chǔ)能力評(píng)估模型中,把理解偶一、句法分析能力等高級(jí)能力維度放到了更高的權(quán)重。
四、產(chǎn)品體系:效率、性能與體驗(yàn)兼顧
所以,效率是一方面,性能是另一方面。企業(yè)做產(chǎn)品,除了提升效率來保證落地,也要在保證效率前提下提升性能,才能最大程度上保證用戶體驗(yàn)。
比如,Text to SQL產(chǎn)生的SQL語句是讓大模型來執(zhí)行還是讓傳統(tǒng)工具來執(zhí)行,也是個(gè)問題,”現(xiàn)在常見的大模型演示中,人們都是上傳一個(gè)數(shù)據(jù)集,讓大模型去分析,但這其實(shí)跟真實(shí)場(chǎng)景差距太遠(yuǎn)了。真實(shí)場(chǎng)景面對(duì)的數(shù)據(jù)集不是一個(gè)5-30M的Excel或CSV文件,而是一個(gè)包含幾萬張表、幾十億條記錄的數(shù)據(jù)湖,在做統(tǒng)計(jì)的時(shí)候,也會(huì)涉及到j(luò)oin這種復(fù)雜的表關(guān)聯(lián)計(jì)算。真的讓大模型面對(duì)這樣的場(chǎng)景,可能直接掛機(jī)。但大模型遲早要面對(duì)這個(gè)問題,不然仍然是一個(gè)實(shí)驗(yàn)室的玩具?!?/span>
為解決這個(gè)問題,首先需要將大模型從GPT-4轉(zhuǎn)向本地大模型,這時(shí)準(zhǔn)確率可能急劇降低,“40%-50%都算高的?!睘榱丝朔讓舆壿嫷膹?fù)雜性,滴普科技開發(fā)了一個(gè)分析引擎MQL(metric query language),其可以統(tǒng)一連接多樣的數(shù)據(jù)庫(kù)引擎比如MySQL、Hive、ClickHouse等等,“MQL通過靈活的選維度,生成中間的MQL代碼,從而高性能地完成加速查詢并毫秒級(jí)返回。所以,我們的解題思路不是Text to SQL,而是Text to MQL,因?yàn)镸QL已經(jīng)把不同數(shù)倉(cāng)的差異性進(jìn)行了統(tǒng)一。在這個(gè)架構(gòu)下,只要對(duì)模型做一定的微調(diào),Text to SQL的準(zhǔn)確率是可以達(dá)到100%的,而不僅僅是保證生產(chǎn)環(huán)境可行?!?/span>
這些方法論最終體現(xiàn)在滴普科技的大模型產(chǎn)品規(guī)劃上。
為兼顧效率、性能和體驗(yàn),滴普科技規(guī)劃了完善的產(chǎn)品體系,“我們從多個(gè)維度規(guī)劃了大模型產(chǎn)品體系。第一個(gè)維度是算力基礎(chǔ),大模型的預(yù)訓(xùn)練、微調(diào)的算力開銷很大,但客戶普遍算力資源不足,同時(shí)不知道如何在硬件上部署什么樣的大模型,以及如何部署。為此,我們提供的Fast5000E訓(xùn)推一體機(jī),從硬件到模型完全整合到一起提供給客戶,客戶只需要考慮場(chǎng)景適配和應(yīng)用就可以了。雖然算力規(guī)模不大,遠(yuǎn)低于互聯(lián)網(wǎng)大公司的算力,但對(duì)于大部分企業(yè)而言已經(jīng)足夠。”
然后,在算力基礎(chǔ)之上,為了在應(yīng)用層面提升效率,降低開發(fā)門檻,滴普科技開發(fā)了FastAGI智能體平臺(tái),“可以理解成是一個(gè)Agent或智能體開發(fā)平臺(tái),該平臺(tái)用于快速構(gòu)建大模型工具鏈。我們提供了易于使用的開發(fā)工具,可以快速構(gòu)建智能體能力。目前我們已經(jīng)有了可以做高級(jí)數(shù)據(jù)分析的Data Agent,有處理非結(jié)構(gòu)化數(shù)據(jù)的Doc Agent,還有一些用于擴(kuò)展企業(yè)內(nèi)部應(yīng)用的Plugin Agent等等。除了這兩個(gè)核心產(chǎn)品,滴普科技也會(huì)基于具體的業(yè)務(wù)場(chǎng)景幫助客戶定制解決方案,比如在Data Agent之上做數(shù)據(jù)分析的Copilot、供應(yīng)鏈智能助手等?!?/span>
這些成果體現(xiàn)了滴普科技順應(yīng)大模型落地趨勢(shì)的認(rèn)知,也反映了滴普科技在延展數(shù)據(jù)治理內(nèi)涵上的努力。
數(shù)據(jù)治理的新趨勢(shì),是治理手段的技術(shù)化、工具化、一體化,“一方面,對(duì)于規(guī)模相對(duì)較小的客戶,傳統(tǒng)的自頂向下的數(shù)據(jù)治理方法,周期長(zhǎng)、見效慢。一般來說,都需要先規(guī)劃,請(qǐng)咨詢公司幫忙把相關(guān)標(biāo)準(zhǔn)、規(guī)范、流程、制度確立,然后再進(jìn)行內(nèi)部運(yùn)營(yíng)。這種做法在大公司里沒問題,但并不適合小公司。另外,大模型的數(shù)據(jù)治理還涉及非結(jié)構(gòu)化數(shù)據(jù)的處理,非結(jié)構(gòu)化數(shù)據(jù)和知識(shí)之間有很大的gap,專業(yè)門檻也很高?!?/span>
因此,滴普科技提倡數(shù)據(jù)治理要從傳統(tǒng)數(shù)據(jù)治理走向敏捷數(shù)據(jù)治理。在與Gartner聯(lián)合發(fā)布的《企業(yè)級(jí)數(shù)據(jù)治理體系建設(shè)指南》白皮書中,滴普科技明確提出,要將數(shù)據(jù)開發(fā)與治理一體化,在開發(fā)環(huán)節(jié)將治理動(dòng)作執(zhí)行到位,從根源上保證數(shù)據(jù)質(zhì)量,同時(shí)在大模型時(shí)代將數(shù)據(jù)治理內(nèi)涵進(jìn)一步延伸至非結(jié)構(gòu)化數(shù)據(jù),持續(xù)提高數(shù)據(jù)的治理質(zhì)量、廣度和效率。
五、領(lǐng)域大模型的成本經(jīng)濟(jì)學(xué)
滴普科技在大模型落地實(shí)踐中,將數(shù)據(jù)治理方法論進(jìn)一步拓展,對(duì)數(shù)據(jù)質(zhì)量、特性的評(píng)估建立了準(zhǔn)確率、多樣性、統(tǒng)計(jì)型、預(yù)測(cè)型等維度,進(jìn)而用于指導(dǎo)領(lǐng)域大模型的高效低成本訓(xùn)練,同時(shí)追求性能和用戶體驗(yàn)的極致,規(guī)劃了系統(tǒng)性的產(chǎn)品體系。這不僅是領(lǐng)域大模型的成本經(jīng)濟(jì)學(xué),也將成為滴普科技未來持續(xù)推進(jìn)大模型落地應(yīng)用的重要原則。