集成大語(yǔ)言模型與產(chǎn)業(yè)數(shù)據(jù)智能,邁向“產(chǎn)業(yè)基礎(chǔ)模型”
編者按:隨著數(shù)據(jù)量和模型規(guī)模的增加,大語(yǔ)言模型在指令執(zhí)行、知識(shí)存儲(chǔ)、邏輯推理和編程技能等方面展現(xiàn)出了突破性的能力。然而,大語(yǔ)言模型在產(chǎn)業(yè)領(lǐng)域的潛能尚未得到充分挖掘,特別是在滿足產(chǎn)業(yè)數(shù)據(jù)分析、推理、預(yù)測(cè)、決策等數(shù)據(jù)智能需求方面。如何有效地變革各行業(yè)的數(shù)據(jù)模型及智能的構(gòu)建方法與應(yīng)用范式,仍然面臨諸多挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),微軟亞洲研究院提出了構(gòu)建產(chǎn)業(yè)基礎(chǔ)模型的倡議,其核心理念在于通過(guò)持續(xù)預(yù)訓(xùn)練,將產(chǎn)業(yè)數(shù)據(jù)智能相關(guān)的知識(shí)與技能融入到大語(yǔ)言模型中。基于這一理念,微軟亞洲研究院開(kāi)發(fā)了生成式表數(shù)據(jù)學(xué)習(xí)(Generative Tabular Learning,GTL)框架,展示了如何在表數(shù)據(jù)這一廣泛使用的數(shù)據(jù)表征上,構(gòu)建具有跨行業(yè)、跨數(shù)據(jù)模式、跨任務(wù)的產(chǎn)業(yè)基礎(chǔ)模型。
盡管大語(yǔ)言模在新聞撰寫、文檔總結(jié)、客服助理和虛擬助手等以語(yǔ)言為中心的任務(wù)上表現(xiàn)出色,但在深入理解和處理特定的行業(yè)數(shù)據(jù)時(shí)仍存在局限。為了應(yīng)對(duì)大模型在產(chǎn)業(yè)界應(yīng)用中所面臨的挑戰(zhàn),微軟亞洲研究院提出了構(gòu)建產(chǎn)業(yè)基礎(chǔ)模型(Industrial Foundation Models)的創(chuàng)新思路,并在表數(shù)據(jù)上成功驗(yàn)證了實(shí)現(xiàn)跨領(lǐng)域通用數(shù)據(jù)智能的可行性及其巨大潛力。研究員們?cè)O(shè)計(jì)的生成式表數(shù)據(jù)學(xué)習(xí)(Generative Tabular Learning,GTL)框架,成功地將多行業(yè)數(shù)據(jù)智能相關(guān)的知識(shí)融入大語(yǔ)言模型中,使其具備在新領(lǐng)域、新數(shù)據(jù)及新任務(wù)上的直接遷移和泛化能力,更加敏捷地響應(yīng)不同的產(chǎn)業(yè)需求。現(xiàn)在,微軟亞洲研究院正式開(kāi)源這一技術(shù)范式,并希望通過(guò)此范式推動(dòng)數(shù)據(jù)科學(xué)在各行業(yè)中的廣泛應(yīng)用,促使復(fù)雜的數(shù)據(jù)智能技術(shù)變得人人可及。
項(xiàng)目鏈接:https://github.com/microsoft/Industrial-Foundation-Models
相關(guān)論文:From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models(已收錄于KDD 2024)
https://arxiv.org/abs/2310.07338
產(chǎn)業(yè)數(shù)據(jù)的巨大潛力亟待挖掘
微軟亞洲研究院的研究員們發(fā)現(xiàn),大語(yǔ)言模型在利用產(chǎn)業(yè)數(shù)據(jù)這一關(guān)鍵資源方面,尚未充分發(fā)揮其潛力。產(chǎn)業(yè)數(shù)據(jù)通常以特定結(jié)構(gòu)存儲(chǔ)在不同行業(yè)和部門的數(shù)據(jù)倉(cāng)庫(kù)中,比如用于關(guān)系結(jié)構(gòu)的表數(shù)據(jù)、記錄時(shí)變信號(hào)的時(shí)間序列數(shù)據(jù),以及用于復(fù)雜相互關(guān)聯(lián)的圖數(shù)據(jù)。這些結(jié)構(gòu)中蘊(yùn)含的豐富數(shù)據(jù)知識(shí)往往難以通過(guò)自然語(yǔ)言捕捉,因此當(dāng)前以語(yǔ)義知識(shí)為核心的大語(yǔ)言模型在掌握數(shù)據(jù)智能相關(guān)的知識(shí)與能力方面存在不足。
更重要的是,產(chǎn)業(yè)數(shù)據(jù)及其蘊(yùn)含的智能,為多個(gè)領(lǐng)域的重要應(yīng)用奠定了基礎(chǔ)。這種智能不僅來(lái)源于數(shù)值和結(jié)構(gòu)化信息,還包括特定任務(wù)的需求和領(lǐng)域?qū)S兄R(shí)。例如,在醫(yī)療健康領(lǐng)域,來(lái)自患者的基本信息、生理信號(hào)和治療歷史的數(shù)據(jù),可用于輔助精確診斷和預(yù)后分析。在能源存儲(chǔ)領(lǐng)域,分析電池循環(huán)數(shù)據(jù)中的模式,可以加速材料篩選、優(yōu)化充放電協(xié)議、指導(dǎo)電池回收中的價(jià)值評(píng)估。在商業(yè)領(lǐng)域,歷史銷售和需求數(shù)據(jù)可以輔助預(yù)測(cè)未來(lái)的市場(chǎng)趨勢(shì)并制定定價(jià)策略。傳統(tǒng)的數(shù)據(jù)智能方法通常依賴于特定的數(shù)據(jù)模式與任務(wù)需求,具體表現(xiàn)為各個(gè)垂直領(lǐng)域中獨(dú)立開(kāi)發(fā)及優(yōu)化的小模型。
為應(yīng)對(duì)這些挑戰(zhàn)與機(jī)遇,微軟亞洲研究院提出構(gòu)建產(chǎn)業(yè)基礎(chǔ)模型的新思路。其核心策略是以統(tǒng)一的方式表征產(chǎn)業(yè)數(shù)據(jù),并在此基礎(chǔ)上對(duì)大語(yǔ)言模型進(jìn)行持續(xù)預(yù)訓(xùn)練,從而將通用的數(shù)據(jù)智能知識(shí)與能力整合到大語(yǔ)言模型中,創(chuàng)造出在新場(chǎng)景上可直接應(yīng)用的產(chǎn)業(yè)基礎(chǔ)模型。這種模型不僅能夠在各行業(yè)部門中執(zhí)行以語(yǔ)言指令為中心的任務(wù),還可以提取跨任務(wù)和跨部門的產(chǎn)業(yè)知識(shí),并進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)和邏輯推理。
此外,通過(guò)提供一個(gè)以語(yǔ)言為中心、無(wú)需參數(shù)調(diào)優(yōu)和編寫代碼的用戶界面,產(chǎn)業(yè)基礎(chǔ)模型還有潛力改變傳統(tǒng)的數(shù)據(jù)科學(xué)應(yīng)用范式。這個(gè)用戶友好的界面將使各行業(yè)的領(lǐng)域?qū)<揖邆淙娴臄?shù)據(jù)科學(xué)技能,推動(dòng)先進(jìn)數(shù)據(jù)分析技術(shù)的普及。
同時(shí),產(chǎn)業(yè)基礎(chǔ)模型強(qiáng)大的跨領(lǐng)域能力,也使其能夠有效地進(jìn)行知識(shí)遷移與技能泛化。這對(duì)在數(shù)據(jù)有限的領(lǐng)域進(jìn)行有效地少樣本上下文學(xué)習(xí)尤為關(guān)鍵。
圖1 :產(chǎn)業(yè)基礎(chǔ)模型的架構(gòu)概覽
基于表數(shù)據(jù)開(kāi)發(fā)產(chǎn)業(yè)基礎(chǔ)模型
表數(shù)據(jù)(Tabular Data)通常存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù)中,是眾多產(chǎn)業(yè)領(lǐng)域中最普遍的數(shù)據(jù)格式之一,也是預(yù)測(cè)建模的基礎(chǔ)。因此,微軟亞洲研究院的研究員們從表數(shù)據(jù)著手,構(gòu)建能夠橫跨不同產(chǎn)業(yè)領(lǐng)域的基礎(chǔ)模型。
研究員們收集了來(lái)自不同產(chǎn)業(yè)領(lǐng)域的各種表數(shù)據(jù)集及其相應(yīng)的預(yù)測(cè)任務(wù),并將這些數(shù)據(jù)轉(zhuǎn)換為面向指令的語(yǔ)言格式。這種轉(zhuǎn)換使得大語(yǔ)言模型能夠適應(yīng)多樣化的數(shù)據(jù)模式,例如不同特征的語(yǔ)義和數(shù)值含義,支持?jǐn)?shù)值和類別特征的任意組合。此外,通過(guò)將大語(yǔ)言模型與數(shù)據(jù)樣本及可選的背景信息結(jié)合,模型不僅能夠處理回歸和分類任務(wù),還能夠支持零樣本(Zero-Shot)學(xué)習(xí)和少樣本上下文學(xué)習(xí)(In-Context Learning)的場(chǎng)景。
圖 2 :基于表數(shù)據(jù)的產(chǎn)業(yè)基礎(chǔ)模型開(kāi)發(fā)流程
然而,將大語(yǔ)言模型的語(yǔ)言處理能力融入表數(shù)據(jù)的學(xué)習(xí)中仍面臨巨大的挑戰(zhàn)。最主要的問(wèn)題在于,大語(yǔ)言模型通常在自然語(yǔ)言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,因此在處理格式化表數(shù)據(jù)的精細(xì)差別時(shí)顯得力不從心,并且缺乏對(duì)特定領(lǐng)域知識(shí)的深入理解,而這些知識(shí)對(duì)于有效的表數(shù)據(jù)學(xué)習(xí)至關(guān)重要。
為了解決這些挑戰(zhàn),研究員們引入了一個(gè)持續(xù)預(yù)訓(xùn)練階段,即生成式表數(shù)據(jù)學(xué)習(xí)(Generative Tabular Learning,GTL)。通過(guò)對(duì)特征和標(biāo)簽標(biāo)記進(jìn)行自回歸式生成建模,GTL框架可以將數(shù)據(jù)知識(shí)與統(tǒng)計(jì)學(xué)習(xí)能力有效整合到大語(yǔ)言模型中。經(jīng)過(guò)GTL框架增強(qiáng)的大語(yǔ)言模型,可以通過(guò)調(diào)整指令提示,直接應(yīng)用于新的產(chǎn)業(yè)數(shù)據(jù)和任務(wù)需求。這意味著,模型能夠在無(wú)需復(fù)雜參數(shù)調(diào)優(yōu)的情況下,實(shí)現(xiàn)高效的數(shù)據(jù)處理,并且在不同領(lǐng)域知識(shí)、數(shù)據(jù)模式和任務(wù)之間進(jìn)行廣泛遷移,從而推動(dòng)大語(yǔ)言模型向產(chǎn)業(yè)模型的方向進(jìn)化。
實(shí)驗(yàn)結(jié)果:GTL顯著增強(qiáng)了LLaMA模型對(duì)表數(shù)據(jù)的理解能力
為了驗(yàn)證GTL的有效性,研究員們收集了來(lái)自超過(guò)400個(gè)不同領(lǐng)域的表數(shù)據(jù)集,經(jīng)過(guò)嚴(yán)格的去重過(guò)濾和篩選,最終保留了384個(gè)獨(dú)立的數(shù)據(jù)集。其中,44個(gè)數(shù)據(jù)集被用于模型評(píng)估,其余的數(shù)據(jù)集用于構(gòu)建1000多個(gè)不同的預(yù)測(cè)任務(wù),以支持GTL的持續(xù)預(yù)訓(xùn)練。研究員們選擇LLaMA 2作為基礎(chǔ)大語(yǔ)言模型,并將其與開(kāi)源和私有的大語(yǔ)言模型,以及傳統(tǒng)表數(shù)據(jù)機(jī)器學(xué)習(xí)算法進(jìn)行了比較。
如圖3所示,實(shí)驗(yàn)結(jié)果表明,GTL顯著增強(qiáng)了LLaMA模型對(duì)表數(shù)據(jù)的理解能力。這表明,表數(shù)據(jù)中所蘊(yùn)含的行業(yè)知識(shí)尚未被開(kāi)源的LLaMA模型充分掌握,而GTL則有效彌補(bǔ)了純語(yǔ)言數(shù)據(jù)訓(xùn)練出的語(yǔ)言模型在產(chǎn)業(yè)數(shù)據(jù)智能上的不足。值得一提的是,盡管GTL增強(qiáng)的LLaMA模型參數(shù)規(guī)模較小,但其性能與GPT-4等更大規(guī)模的模型相比仍具有競(jìng)爭(zhēng)力,甚至在某些情況下表現(xiàn)更為優(yōu)異。不過(guò)需要注意的是,與GPT-4在公開(kāi)表數(shù)據(jù)上的對(duì)比結(jié)果可能因其私有訓(xùn)練數(shù)據(jù)中潛在的“數(shù)據(jù)污染”問(wèn)題而產(chǎn)生偏差。
此外,GTL增強(qiáng)的LLaMA模型不僅在少樣本學(xué)習(xí)場(chǎng)景中通過(guò)無(wú)須調(diào)參的上下文學(xué)習(xí),超越了傳統(tǒng)表數(shù)據(jù)機(jī)器學(xué)習(xí)方法的統(tǒng)計(jì)學(xué)習(xí)能力,還具備了這些方法所缺乏的零樣本學(xué)習(xí)能力。
圖3: GTL增強(qiáng)的LLaMA-2-13B與其他基線模型的對(duì)比
研究員們還初步探究了GTL的規(guī)模定律。如圖4所示,數(shù)據(jù)的多樣性和模型參數(shù)規(guī)模都以冪律方式提升了新數(shù)據(jù)和新任務(wù)上的性能。這一發(fā)現(xiàn)表明了產(chǎn)業(yè)基礎(chǔ)模型在跨多樣任務(wù)和領(lǐng)域的廣泛泛化潛力,有望使復(fù)雜的數(shù)據(jù)智能技術(shù)變得更加普及,即便在數(shù)據(jù)可得性有限的行業(yè)中也能發(fā)揮重要作用。
圖4:初探GTL的規(guī)模定律
多維度拓展產(chǎn)業(yè)基礎(chǔ)模型的潛力
生成式表數(shù)據(jù)學(xué)習(xí)(GTL)為會(huì)話式表數(shù)據(jù)深度學(xué)習(xí)打開(kāi)了大門,使用戶能夠通過(guò)與模型對(duì)話來(lái)實(shí)現(xiàn)數(shù)據(jù)智能相關(guān)的分析、預(yù)測(cè)、推理和決策。通過(guò)將GTL與語(yǔ)言模型集成,模型不僅能夠生成預(yù)測(cè)結(jié)果,還可以提供對(duì)相應(yīng)結(jié)果的解釋,從而為表數(shù)據(jù)學(xué)習(xí)的可解釋性帶來(lái)了新的機(jī)遇。基于這一范式所展現(xiàn)出的巨大潛力,微軟亞洲研究院從兩個(gè)角度展望了產(chǎn)業(yè)基礎(chǔ)模型未來(lái)的研究和應(yīng)用前景。
首先,產(chǎn)業(yè)基礎(chǔ)模型本身的多維度擴(kuò)展蘊(yùn)含著巨大的潛力。這包括擴(kuò)展數(shù)據(jù)集的種類和規(guī)模、增加模型規(guī)模、延長(zhǎng)上下文長(zhǎng)度,以及整合多樣化的數(shù)據(jù)格式,如時(shí)間序列和圖數(shù)據(jù)等。全面的擴(kuò)展將使產(chǎn)業(yè)基礎(chǔ)模型能夠以更高的精度和更強(qiáng)的適應(yīng)性,處理更多領(lǐng)域的更廣泛任務(wù)。同時(shí),產(chǎn)業(yè)數(shù)據(jù)知識(shí)與大語(yǔ)言模型生態(tài)系統(tǒng)的前沿進(jìn)展相結(jié)合,如工具使用、智能體和對(duì)話交互,將進(jìn)一步拓展產(chǎn)業(yè)基礎(chǔ)模型的能力邊界。這種協(xié)同作用可以打造更魯棒和多功能的模型,將產(chǎn)業(yè)數(shù)據(jù)智能與大語(yǔ)言模型的復(fù)雜功能無(wú)縫融合。
其次,從用戶視角來(lái)看,產(chǎn)業(yè)基礎(chǔ)模型的發(fā)展將徹底革新產(chǎn)業(yè)數(shù)據(jù)智能的實(shí)現(xiàn)方式,重新定義數(shù)據(jù)科學(xué)的用戶界面和工具鏈,進(jìn)而催生出創(chuàng)新性的產(chǎn)品和服務(wù)。例如,領(lǐng)域?qū)<覠o(wú)需掌握深厚的編程和數(shù)據(jù)科學(xué)知識(shí),即可借助數(shù)據(jù)科學(xué)助手獲得先進(jìn)的數(shù)據(jù)分析和預(yù)測(cè)能力,從而推動(dòng)前沿?cái)?shù)據(jù)科學(xué)工具的普及。另外,產(chǎn)業(yè)基礎(chǔ)模型可以作為決策支持工具,為行業(yè)領(lǐng)導(dǎo)者和從業(yè)者提供深刻的數(shù)據(jù)洞察和個(gè)性化分析,幫助企業(yè)做出更明智的戰(zhàn)略決策,優(yōu)化運(yùn)營(yíng)流程,并發(fā)掘新的增長(zhǎng)機(jī)遇。
將大語(yǔ)言模型與產(chǎn)業(yè)數(shù)據(jù)智能相結(jié)合,是邁向產(chǎn)業(yè)基礎(chǔ)模型的關(guān)鍵一步。通過(guò)持續(xù)擴(kuò)展和創(chuàng)新,創(chuàng)建以用戶為中心的工具,使前沿的數(shù)據(jù)智能技術(shù)更易于獲取,能夠釋放出產(chǎn)業(yè)基礎(chǔ)模型在各個(gè)行業(yè)中的更多潛能。微軟亞洲研究院將持續(xù)推動(dòng)這一進(jìn)程,不斷突破界限,讓前沿的數(shù)據(jù)智能技術(shù)惠及更多的行業(yè)領(lǐng)域。
相關(guān)鏈接:
論文:From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models(已收錄于KDD 2024)
https://arxiv.org/abs/2310.07338
項(xiàng)目:https://github.com/microsoft/Industrial-Foundation-Models