結(jié)構(gòu)化表格也成模態(tài)!浙大TableGPT2開源,最強(qiáng)表格AI問世
現(xiàn)在正是多模態(tài)大模型的時代,圖像、視頻、音頻、3D、甚至氣象運(yùn)動都在紛紛與大型語言模型的原生文本模態(tài)組合。而浙江大學(xué)及其計算機(jī)創(chuàng)新技術(shù)研究院的一個數(shù)十人團(tuán)隊(duì)也將結(jié)構(gòu)化數(shù)據(jù)(包括數(shù)據(jù)庫、數(shù)倉、表格、json 等)視為了一種獨(dú)立模態(tài)。
基于這一視角,依托 Qwen,他們研發(fā)了 TableGPT 系列模型?,F(xiàn)如今,這個模型已經(jīng)更新到了第 2 代,性能表現(xiàn)較之前代已有大幅提升:在某些基準(zhǔn)上,TableGPT2 能夠媲美甚至優(yōu)于 GPT-4o!或者按團(tuán)隊(duì)負(fù)責(zé)人趙俊博博士的說法:「目前通用大模型在許多結(jié)構(gòu)化數(shù)據(jù)相關(guān)的任務(wù)上的表現(xiàn)仍然較弱,TableGPT2 在相關(guān)任務(wù)的榜單上鐵腕刷榜 —— 各類相關(guān)任務(wù)刷出去平均 40 個點(diǎn)。」
- 論文標(biāo)題:TableGPT2: A Large Multimodal Model with Tabular Data Integration
- 論文地址:https://arxiv.org/pdf/2411.02059
- TableGPT 智能體:https://github.com/tablegpt/tablegpt-agent
- Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
該團(tuán)隊(duì)表示:「提出 TableGPT2 的關(guān)鍵動機(jī)是解決當(dāng)前 LLM 在數(shù)據(jù)驅(qū)動型真實(shí)世界應(yīng)用中的限制?!?/span>
當(dāng)今的許多 LLM 的設(shè)計目標(biāo)就是以端到端的方式運(yùn)行,而沒有整合外部數(shù)據(jù)。但該團(tuán)隊(duì)認(rèn)為這種方法存在固有缺陷。舉個例子,如果你想用 LLM 來幫助你挑選股票,但如果不給它提供實(shí)時的市場信息,它的建議就根本不可能靠譜;更別說必需病人病歷和各類過往的指標(biāo)數(shù)據(jù)才能做出準(zhǔn)確判斷的醫(yī)療 AI 應(yīng)用了。具身智能中的靈巧手的觸覺信號以及多個傳感器中的各類 「覺」 也都是結(jié)構(gòu)化信息。
同時,即便 LLM 已經(jīng)整合了外部數(shù)據(jù)源(如數(shù)據(jù)庫),其性能也往往無法達(dá)到最優(yōu)。目前常見的整合思路包括通過工具(如 natural-language-to-sql / NL2SQL)來調(diào)用外部數(shù)據(jù)源以及通過更長的長下文和新架構(gòu)來納入外部數(shù)據(jù)源。但這些方法要么難以用于復(fù)雜場景,要么就效率低下,不實(shí)用。
基于這些思考,該團(tuán)隊(duì)認(rèn)為在整合外部數(shù)據(jù)源時需要根本上的范式轉(zhuǎn)變。TableGPT2 也由此而生,該模型的設(shè)計目標(biāo)是直接且高效地整合和處理表格數(shù)據(jù),克服當(dāng)前 LLM 的固有限制,進(jìn)而實(shí)現(xiàn)生產(chǎn)級部署。
之前 LLM 和 VLM 方面的研究已經(jīng)證明了大規(guī)模多樣化數(shù)據(jù)集的重要性。其實(shí)表格數(shù)據(jù)也同樣多,并且也同樣重要。據(jù)估計,全球超過 70% 的數(shù)據(jù)都是以結(jié)構(gòu)化的表格形式存儲的,包括數(shù)據(jù)庫和電子表格。
所以,資源浩瀚,也因此,開發(fā)大規(guī)模表格模型極具潛力!該團(tuán)隊(duì)表示:「通過使用大規(guī)模表格及其 schema 元數(shù)據(jù)的數(shù)據(jù)集,我們的目標(biāo)是探索能否有效地建模這些數(shù)據(jù)格式,從而得到可用于商業(yè)智能等應(yīng)用的功能強(qiáng)大的模型?!?/span>
TableGPT2 的表格數(shù)據(jù)編碼器是該團(tuán)隊(duì)全新設(shè)計的,其重在建模表格數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容。這讓 TableGPT2 可以捕獲 schema 層面和單元格層面的信息,從而有望為表格大模型帶來文本模型和視覺模型所經(jīng)歷過的那種巨大提升。
TableGPT2 是什么
從名稱也能看出,TableGPT2 是 TableGPT 的新一代版本。初始版本的 TableGPT 就已經(jīng)引入了結(jié)構(gòu)化特定領(lǐng)域語言(DSL)和專用表格編碼器等方法,可以管理復(fù)雜的基于表格的查詢。在此基礎(chǔ)上,TableGPT2 實(shí)現(xiàn)了巨大的改進(jìn)。他們不僅擴(kuò)大了數(shù)據(jù)和訓(xùn)練協(xié)議的規(guī)模,還重新設(shè)計了每個組件,同時也引入了一些提升穩(wěn)健性、擴(kuò)大適用性以及優(yōu)化商業(yè)智能應(yīng)用性能的技術(shù)。
最終,大規(guī)模多模態(tài)模型 TableGPT2 誕生了!它有兩種配置:7B 和 72B 版本。它們?nèi)蓟?Qwen2.5 系列模型。訓(xùn)練過程中,該團(tuán)隊(duì)使用了超過 860 億 token 來進(jìn)行持續(xù)預(yù)訓(xùn)練(CPT)、超過 43.75 萬個表格 - 語言交織的樣本來訓(xùn)練編碼器、236 萬多個高質(zhì)量「查詢 - 表格 - 輸出」元組來進(jìn)行監(jiān)督式微調(diào)。
在相關(guān)研究中,這種規(guī)模是前所未有的,足以保證 TableGPT2 滿足涉及結(jié)構(gòu)化或表格數(shù)據(jù)的現(xiàn)代應(yīng)用的嚴(yán)格要求。
TableGPT2 經(jīng)歷的持續(xù)預(yù)訓(xùn)練(CPT)、監(jiān)督式微調(diào)(SFT)和支持生產(chǎn)級能力的智能體框架不同于傳統(tǒng) LLM,因?yàn)檫@里的預(yù)訓(xùn)練和微調(diào)更加注重編程、多輪推理和工具使用。這些特點(diǎn)可確保模型不僅擅長自然語言處理,而且能夠很好地處理與表格相關(guān)的復(fù)雜任務(wù)。
此外,該團(tuán)隊(duì)還初步探索了表格數(shù)據(jù)的多模態(tài)對齊。具體來說,TableGPT2 創(chuàng)新性地加入了一個單獨(dú)的模態(tài)模塊,專門用于讀取和解釋表格數(shù)據(jù)。類似于視覺 - 語言模型(VLM),TableGPT2 包含一個表格數(shù)據(jù)讀取模塊,其作用是生成與來自文本輸入的 token 嵌入相連接的專用嵌入。這個新增模塊可讓 TableGPT2 更好地捕獲表格數(shù)據(jù)的結(jié)構(gòu)和語義,從而在復(fù)雜的商業(yè)智能場景中實(shí)現(xiàn)更準(zhǔn)確的表格理解。圖 1 描繪了其整體模型框架。
TableGPT2 是如何煉成的
持續(xù)預(yù)訓(xùn)練
為了實(shí)現(xiàn) TableGPT2 的目標(biāo),該團(tuán)隊(duì)首先是通過持續(xù)預(yù)訓(xùn)練(CPT)來提升模型的編程和推理能力。
具體來說,80% 的 CPT 數(shù)據(jù)都是標(biāo)注良好的代碼,從而確保 TableGPT2 具有穩(wěn)健的編程能力,這與 DeepSeek-v2 采用的方法是一致的。此外,該團(tuán)隊(duì)還做了補(bǔ)充;他們收集整理了大量包含多種領(lǐng)域知識(如金融、制造業(yè)、生物技術(shù)、市場技術(shù))的推理數(shù)據(jù)和一般教科書,以保持?jǐn)?shù)據(jù)比例平衡,增強(qiáng)推理能力。表 1 展示 CPT 過程中使用的數(shù)據(jù)分布和總 token 數(shù)。
在數(shù)據(jù)處理方面,他們采用了一種兩級過濾策略。
在文檔層面,他們使用 54 個不同的類別對數(shù)據(jù)進(jìn)行了標(biāo)注,以確保全面覆蓋不同的文檔類型。下表展示了一些重要的過濾標(biāo)簽。
在 token 層面,則是利用了 RHO-1 來微調(diào)對高質(zhì)量 token 的選擇。
此外,他們還引入了一種可將代碼長度和上下文窗口設(shè)置納入考慮的新方法,這可優(yōu)化模型有效處理多種不同代碼段的能力。
經(jīng)過徹底過濾后,最終的 CPT 數(shù)據(jù)包含 86B token,這種穩(wěn)健強(qiáng)大的預(yù)訓(xùn)練可確保 TableGPT2 具備必要的編程和推理能力,足以應(yīng)對復(fù)雜的商業(yè)智能和其他相關(guān)任務(wù)。
有監(jiān)督微調(diào)
在 TableGPT2 中,監(jiān)督式微調(diào)(SFT)的作用是解決在用于商業(yè)智能任務(wù)和場景時的局限。
為此,該團(tuán)隊(duì)編排了一個數(shù)據(jù)集,其中包含范圍廣泛的近乎現(xiàn)實(shí)的關(guān)鍵場景,包括多輪對話、復(fù)雜推理、工具使用和針對具體業(yè)務(wù)的查詢。
這個數(shù)據(jù)集的構(gòu)建過程既包括人工標(biāo)注,也包含一個專家驅(qū)動的自動化標(biāo)注流程,從而可以保證數(shù)據(jù)的質(zhì)量和相關(guān)性??傮w而言,SFT 過程涉及 236 萬個樣本, token 數(shù)量達(dá)數(shù)十億,足可用于進(jìn)一步微調(diào)模型,使其滿足商業(yè)智能和其他涉及表格的環(huán)境的特定需求。
更具體地說,TableGPT2 的 SFT 流程有一個關(guān)鍵差異,即這 236 萬個指令樣本的組成非常平衡且多樣化。如此一來,就可以滿足表格相關(guān)任務(wù)的需求:既需要通用的模型能力,也需要針對表格的技能。
該數(shù)據(jù)集包含的表格專有任務(wù)包括代碼生成(Python 和 SQL)、表格查詢、數(shù)據(jù)可視化、統(tǒng)計測試和預(yù)測建模。此外,其中還有表格理解、表格生成、缺失值插補(bǔ)和基于表格的問答等多種任務(wù),幾乎涵蓋了表格使用的所有階段。輸入格式加上隨機(jī)排列的表格元數(shù)據(jù)(如字段描述、schema 信息和值枚舉),可以產(chǎn)生超過 20 種不同的「表格 - 信息」輸入組合,組可確保全面覆蓋。
為了保證數(shù)據(jù)質(zhì)量,他們還實(shí)施了一個多步驟的數(shù)據(jù)過濾流程:
- 首先,使用一組基于規(guī)則的過濾器,包括使用 Python 和 SQL 執(zhí)行器檢查代碼的可執(zhí)行性和正確性,從而消除常見錯誤(例如鍵錯誤和類型轉(zhuǎn)換問題)。此外,還會使用正則表達(dá)式和其他規(guī)則來丟棄異常輸出。
- 然后,使用多個模型(如 GPT-4o)對過濾后的數(shù)據(jù)進(jìn)行評分;這里使用的提示詞是專門設(shè)計的,可以保證得到更為細(xì)致的評估。只要當(dāng)樣本在所有評分組合上都超過閾值時,該樣本才會被保留下來。
- 之后,通過人工檢查進(jìn)行樣本校準(zhǔn)。如果樣本準(zhǔn)確率低于 95%,就重新審查并優(yōu)化其數(shù)據(jù)生成和過濾腳本。
- 最后,執(zhí)行評估,這會用到一個包含約 94.9K 個案例(包括現(xiàn)有案例和新構(gòu)建的案例)的固定驗(yàn)證集,如此可確保生成的結(jié)果是可執(zhí)行且準(zhǔn)確的。同時還會執(zhí)行進(jìn)一步的手動驗(yàn)證來抽查任何不一致之處并檢測潛在的數(shù)據(jù)問題,例如缺少函數(shù)調(diào)用或多輪對話能力較差。
用于表格數(shù)據(jù)的數(shù)據(jù)增強(qiáng)
為了提升 TableGPT2 的性能(尤其是商業(yè)智能任務(wù)性能),該團(tuán)隊(duì)采用了多種查詢增強(qiáng)技術(shù),包括
- 在查詢內(nèi)引入字段時進(jìn)行模糊化處理
- 通過匿名化字段名和類別值來實(shí)現(xiàn)表格數(shù)據(jù)增強(qiáng)
- 通過結(jié)合單輪和多輪問答任務(wù)來增強(qiáng)模型的多功能性
- 使用變動的提示詞格式和輸出結(jié)構(gòu)來降低 TableGPT2 對某些提示詞模板的敏感度
- 在數(shù)據(jù)生成過程中應(yīng)用后處理增強(qiáng)來提升訓(xùn)練數(shù)據(jù)的多樣性
語義表格編碼器
由于 NL2SQL 等傳統(tǒng)工作流程存在局限性,該團(tuán)隊(duì)為 TableGPT2 設(shè)計了新的語義編碼器。
這種新的表格編碼器的輸入是整張表格?;诖?,它可為每一列生成一組緊湊的嵌入。
該架構(gòu)是根據(jù)表格數(shù)據(jù)的獨(dú)特屬性專門設(shè)計的,畢竟表格與文本、圖像和其它數(shù)據(jù)類型存在根本性差異。
表格的語義來自四個關(guān)鍵維度:單元格、行、列和表格整體結(jié)構(gòu)。這些維度都存在排列不變性(permutation invariance)。基于這一觀察,該團(tuán)隊(duì)實(shí)現(xiàn)了一個沒有位置嵌入的二維注意力機(jī)制以及一個分層特征提取過程。這能確保行方向和列方向的關(guān)系都被捕獲并被有效理解。
此外,他們還采用了一種逐列式對比學(xué)習(xí)方法,以鼓勵模型學(xué)習(xí)有意義的、對結(jié)構(gòu)有感知的表格語義表征。
該團(tuán)隊(duì)使用了 Q-former 式的適應(yīng)器(配備了一組可學(xué)習(xí)的查詢)來將列嵌入與文本嵌入對齊。
他們還引入了兩個特殊 token <tab> 和 </tab>,以區(qū)分表格特征和原生文本,讓模型可以同時處理這兩種模態(tài),并且不產(chǎn)生混淆。
為進(jìn)一步增強(qiáng)文本信息、列嵌入和 schema 元數(shù)據(jù)之間的對齊程度,他們還使用了聯(lián)合指令微調(diào)。此過程有助于優(yōu)化模型對表格數(shù)據(jù)的理解,使其能夠更有效地集成和解讀各種輸入。
順帶一提,目前這個編碼器部分還尚未開源。至于原因,趙俊博博士表示:「一方面保護(hù)下團(tuán)隊(duì)學(xué)生們未來的小論文,另外一方面確實(shí) VLM 和特定領(lǐng)域的適配沒弄好,解碼器可以獨(dú)立使用,效果仍在。」
智能體框架
該團(tuán)隊(duì)在開源庫中提供了一個全面的智能體工作流程運(yùn)行時間框架,其設(shè)計目標(biāo)是將 TableGPT2 無縫地集成到企業(yè)級數(shù)據(jù)分析工具中。該框架包含三個核心組件:
- 運(yùn)行時間的提示詞工程
- 一個安全的代碼沙箱
- 一個智能體評估模塊
它們加在一起,可以提升智能體的能力和可靠性。這個工作流程具有模塊化的步驟,因此可支持復(fù)雜的數(shù)據(jù)分析。這些步驟包括輸入規(guī)范化、智能體執(zhí)行(可選擇 VLM 支持)、工具調(diào)用。
再結(jié)合檢索增強(qiáng)式生成(RAG,用于高效上下文檢索)和代碼沙箱(用于安全執(zhí)行),該框架可確保 TableGPT2 為實(shí)際問題提供準(zhǔn)確、與上下文相關(guān)的見解。
下圖展示了智能體的完整工作流程:首先通過一個提示詞工程模塊來準(zhǔn)備和處理輸入查詢。再基于一個外部知識庫使用 RAG 模塊后,將經(jīng)過處理的輸入送入主模型。然后,TableGPT2 會與一個視覺 - 語言模型(VLM)合作生成工具調(diào)用、代碼等相關(guān)動作。通過觀察中間結(jié)果,可以根據(jù)需求選擇是否迭代,以利用該智能體的反思能力。通過智能體與工具之間的無縫交互,這個迭代過程最終可得到最終輸出。
TableGPT2 效果怎么樣
在實(shí)驗(yàn)部分,團(tuán)隊(duì)此次針對表格相關(guān)任務(wù)進(jìn)行了全面的基準(zhǔn)測試,不僅涵蓋了已有的一些數(shù)據(jù)集,還加入了一個新收集的、面向真實(shí)任務(wù)的復(fù)雜表格數(shù)據(jù)集,從而提供了一個嚴(yán)格的評估平臺。
為了進(jìn)行全面的比較,團(tuán)隊(duì)選擇了多樣化的基線大語言模型。第一類是最先進(jìn)的開源通用 LLM,包括 DeepSeek-Coder-V2-Lite-16B、 YiCoder-9B-Chat 以及 Qwen2.5-Coder-7B-Instruct、Qwen2.5-7B-Instruct。
第二類是針對表格相關(guān)任務(wù)進(jìn)行微調(diào)或?qū)iT開發(fā)的模型,比如針對表格分析設(shè)計和優(yōu)化的 TableLLM、為處理電子表格和文檔設(shè)置中各種真實(shí)表格操作而微調(diào)的 CodeLlama-13B。
基準(zhǔn)概覽
下表 4 匯總了現(xiàn)有的表格理解和推理基準(zhǔn),共涵蓋了 27.7K 個表格和 88.9K 個測試樣本。團(tuán)隊(duì)將這些基準(zhǔn)劃分為了以下 6 項(xiàng)主要的表格分析任務(wù),以全方位評估模型在不同類型任務(wù)中的性能:
- 表格理解
- 表格問答(TableQA)
- 表格事實(shí)驗(yàn)證
- 表格到文本生成(Table2Text)
- 自然語言到 SQL(NL2SQL)
- 整體評估
除了表 4 中已有的基準(zhǔn),團(tuán)隊(duì)構(gòu)建了一個新基準(zhǔn) RealTabBench?,F(xiàn)有基準(zhǔn)大多側(cè)重于簡單的任務(wù),不符合實(shí)際使用場景。為了克服這一局限性,團(tuán)隊(duì)構(gòu)建了這個更具挑戰(zhàn)性、更能反映實(shí)際應(yīng)用場景的新基準(zhǔn),從商業(yè)智能(BI)場景中的真實(shí)表格中收集了 360 個復(fù)雜數(shù)據(jù)表格,并在此基礎(chǔ)上制定了 6000 個真實(shí)、復(fù)雜的查詢語句。
在評估模型性能時,團(tuán)隊(duì)采用了兩個在實(shí)際應(yīng)用中特別難處理的表格特征,分別是:
- 模糊性,表格中潛在的形似「A1」、「A2」等難以確認(rèn)實(shí)際含義的匿名字段會對自動分析構(gòu)成很大的挑戰(zhàn);
- 不規(guī)則性,在生產(chǎn)環(huán)境中,表格數(shù)據(jù)通過包含普遍的合并操作和不規(guī)則的結(jié)構(gòu),比如合并單元格和非均勻布局。
同時,針對新基準(zhǔn) RealTabBench,團(tuán)隊(duì)又從三個關(guān)鍵維度對生成的結(jié)果進(jìn)行了評估,即一致性、信息完整性和安全性。
為了保證權(quán)威性,團(tuán)隊(duì)采用人工評審員與評估 LLM 結(jié)合的混合系統(tǒng)來生成最終的分?jǐn)?shù),并已經(jīng)公開了整個評估流程中的部分樣本。
- 項(xiàng)目地址:https://github.com/tablegpt/tablegpt-agent/tree/main/realtabbench
評估結(jié)果
下表 5 展示了 TableGPT2 (7B 和 72B 版本)與最先進(jìn)基線模型的比較結(jié)果。值得注意的是,在沒有對任何特定基準(zhǔn)訓(xùn)練集進(jìn)行大量訓(xùn)練的情況下,TableGPT2 顯著優(yōu)于幾乎所有其他 LLM 方法。并且在某些基準(zhǔn)上,TableGPT2 能夠媲美甚至優(yōu)于 GPT-4o。
另外,在涉及分層結(jié)構(gòu)表格的復(fù)雜數(shù)據(jù)基準(zhǔn)(如 HiTab)上,當(dāng)前大多數(shù) LLM 方法表現(xiàn)不佳。相反,TableGPT2 有了明顯改進(jìn),與 Qwen2.5 系列模型相比,執(zhí)行準(zhǔn)確率實(shí)現(xiàn)了 60% 以上的絕對增長。
同樣地,對于 RealTabBench 數(shù)據(jù)集,TableGPT2(7B)在多項(xiàng)任務(wù)上均達(dá)到了新 SOTA。
為了更直觀地展示 TableGPT2 的效果,團(tuán)隊(duì)選擇了幾個比較案例(vs Qwen2.5 系列模型),涵蓋了不規(guī)則表格、一般表格和模糊表格的場景。具體結(jié)果如下圖 4 所示。
最后,針對表格相關(guān)任務(wù)對 LLM 微調(diào)不應(yīng)損害其整體性能。為了驗(yàn)證這一觀點(diǎn),團(tuán)隊(duì)在下表 7 中對流行的基準(zhǔn)展開評估,包括 MBPP、HumanEval、CMMLU 和 MMLU。
結(jié)果顯示,TableGPT2 在這些基準(zhǔn)上保持了強(qiáng)大的性能,并沒有出現(xiàn)通用能力的下降。
未來改進(jìn)方向
不過,團(tuán)隊(duì)也表示,盡管 TableGPT2 在評估中實(shí)現(xiàn)了 SOTA,但尚未完全解決在實(shí)際 BI 環(huán)境中部署 LLM 的挑戰(zhàn)。因此距離將該模型可靠地用于生產(chǎn)系統(tǒng)仍有一些差距。團(tuán)隊(duì)提出可以采用以下幾種關(guān)鍵的技術(shù)與方法來解決。
一是針對特定領(lǐng)域進(jìn)行編碼。
團(tuán)隊(duì)雖然利用 Python 和 SQL 數(shù)據(jù)對 TableGPT2 進(jìn)行了微調(diào),但考慮到安全和效率等因素,特定領(lǐng)域通常需要專門的編碼。這就面臨一個關(guān)鍵挑戰(zhàn):如何使 LLM 能夠快速適應(yīng)企業(yè)特定的 DSL 或偽代碼?拿 TableGPT2 來說,雖然它可以生成代碼,但問題在于如何有效地彌合這些代碼與企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施特定需求之間的差距?
在 TableGPT2 中,團(tuán)隊(duì)采用了一種混合輸出方法,結(jié)合使用了結(jié)構(gòu) DSL 輸出和標(biāo)準(zhǔn)編程代碼。這使得模型流暢地生成結(jié)構(gòu)化和非結(jié)構(gòu)化代碼,在提供靈活性的同時可以保持領(lǐng)域特定應(yīng)用所需的結(jié)構(gòu)。
這些領(lǐng)域特定語言可以提供更好的可解釋性,允許通過用戶友好的界面更直接地與 LLM 輸出進(jìn)行交互。同時,這些語言可以最大限度地減少潛在的安全風(fēng)險和錯誤,從而帶來更安全、更強(qiáng)大的解決方案。
團(tuán)隊(duì)認(rèn)為,生產(chǎn)環(huán)境中的編碼不單單是簡單的代碼生成,需要仔細(xì)考慮領(lǐng)域特定的需求、基礎(chǔ)設(shè)施兼容性以及靈活性與安全性之間的平衡,在混合使用 DSL 和通用代碼時更要如此。
二是多智能體設(shè)計。
盡管 TableGPT2 在表格相關(guān)任務(wù)中取得了 SOTA 性能,但仍然不能指望單個端到端 LLM 能夠獨(dú)立地完全解決復(fù)雜的真實(shí)任務(wù)。因此,團(tuán)隊(duì)最近在密切關(guān)注一項(xiàng)新的研究 —— 自動化智能體系統(tǒng)設(shè)計,它遵循了 LLM 工作流的自動化編排原則。
其中多個 LLM 被組織成有向無環(huán)圖(DAG)結(jié)構(gòu),這樣輸入查詢可以根據(jù)圖的拓?fù)漤樞蜃詣勇酚傻揭幌盗?LLM 中。每個 LLM 執(zhí)行一項(xiàng)專門的功能。DAG 流程由系統(tǒng)本身決定,并根據(jù)手頭任務(wù)決定要用到哪些 LLM。這種自動化流程工程創(chuàng)建了一個靈活的模塊化工作流程,并根據(jù)問題需求動態(tài)調(diào)整,正如 AutoML 系統(tǒng)自動配置機(jī)器學(xué)習(xí)模型以獲得最佳性能一樣。
這樣的例子還有很多,比如用于股票和基金推薦的小型自然語言應(yīng)用,它需要將 LLM 與實(shí)時市場數(shù)據(jù)連接起來。在這種多智能體架構(gòu)中,通常需要為不同的 LLM 分配不同的角色,每個 LLM 都要在針對其功能專門定制的數(shù)據(jù)上進(jìn)行微調(diào)。每個 LLM 還要根據(jù)輸入來配置不同的提示詞模版和 RAG 設(shè)置,并在輸出階段應(yīng)用不同的編碼和對話邏輯。這樣一來,每個階段的定制微調(diào)可以確保整個 pipeline 提供精準(zhǔn)和上下文感知的響應(yīng),從而解決真實(shí)應(yīng)用的復(fù)雜性。
一個足夠先進(jìn)的單一基礎(chǔ)模型最終能不能取代鏈接多個模型的需要呢?團(tuán)隊(duì)認(rèn)為這在很大程度上仍是理論上可行。這種模型需要擁有足夠的通用智能來處理統(tǒng)一框架內(nèi)的各種任務(wù)。但從自身經(jīng)驗(yàn)出發(fā),團(tuán)隊(duì)表示通常需要兩個以上的 LLM 才能解決真實(shí)應(yīng)用的全部復(fù)雜性。因此,團(tuán)隊(duì)認(rèn)為,單一模型何時能夠熟練、無縫地解決跨多個領(lǐng)域的問題仍不確定,在生產(chǎn)階段尤為如此。
三是充分利用表格的多功能性。
盡管 TableGPT2 主要關(guān)注 BI 應(yīng)用 —— 在這些應(yīng)用中,結(jié)構(gòu)化數(shù)據(jù)的上游來源是數(shù)據(jù)庫或數(shù)據(jù)倉庫;不過,表格數(shù)據(jù)還有另一個非常常見的來源,即 Apple Pages 或 Microsoft Excel 等應(yīng)用程序。
這些表格與數(shù)據(jù)庫等基礎(chǔ)設(shè)施中的表格往往差異巨大,因?yàn)槿藗內(nèi)粘J褂玫谋砀癯32⒉灰?guī)則。舉個例子,Pages 或 Excel 中的表格常常有合并單元格、不一致的行列結(jié)構(gòu)、非標(biāo)準(zhǔn)的數(shù)據(jù)格式。這些不規(guī)則會讓此類表格的處理復(fù)雜度更高。另外,不同組織機(jī)構(gòu)使用的表格形式差異也很大,比如有些單元格可能會包含自由形式的文本、有些單元格沒有填充等等。
在 TableGPT2 模型所在的智能體工作流程中,該團(tuán)隊(duì)還專門為規(guī)范不規(guī)則表格微調(diào)了一個單獨(dú)的 LLM,并將其集成到一個整體系統(tǒng)中。然而,處理不規(guī)則表格仍有很大的改進(jìn)空間,尤其是考慮到其巨大的商業(yè)生產(chǎn)潛力。
因此,該團(tuán)隊(duì)猜想,要處理這種不規(guī)范,就應(yīng)該從預(yù)訓(xùn)練階段開始,以確保模型能夠熟練處理表格的各種格式。
當(dāng)前的許多 LLM 以及 RAG 過程都無法充分地處理這些非標(biāo)準(zhǔn)表格結(jié)構(gòu)。此外,許多現(xiàn)有的語料庫也常常忽視這類數(shù)據(jù)。這一有待填補(bǔ)的空白是值得研究者未來探索的寶貴機(jī)會。