專注圖表理解,騰訊、南洋理工等開源圖表羊駝大模型ChartLlama
在圖像理解領域,多模態(tài)大模型已經(jīng)充分展示了其卓越的性能。然而,對于工作中經(jīng)常需要處理的圖表理解與生成任務,現(xiàn)有的多模態(tài)模型仍有進步的空間。
盡管當前圖表理解領域中的最先進模型在簡單測試集上表現(xiàn)出色,但由于缺乏語言理解和輸出能力,它們無法勝任更為復雜的問答任務。另一方面,基于大語言模型訓練的多模態(tài)大模型的表現(xiàn)也不盡如人意,主要是由于它們缺乏針對圖表的訓練樣本。這些問題嚴重制約了多模態(tài)模型在圖表理解與生成任務上持續(xù)進步。
近期,騰訊聯(lián)合南洋理工大學、東南大學提出了 ChartLlama。研究團隊創(chuàng)建了一個高質量圖表數(shù)據(jù)集,并訓練了一個專注于圖表理解和生成任務的多模態(tài)大型語言模型。ChartLlama 結合了語言處理與圖表生成等多重性能,為科研工作者和相關專業(yè)人員提供了一個強大的研究工具。
論文地址:https://arxiv.org/abs/2311.16483
主頁地址:https://tingxueronghua.github.io/ChartLlama/
ChartLlama 的團隊構思出了一種巧妙的多元化數(shù)據(jù)收集策略,通過 GPT-4 生成特定主題、分布和趨勢的數(shù)據(jù),來確保數(shù)據(jù)集的多樣性。研究團隊綜合開源的繪圖庫與 GPT-4 的編程能力,來編寫圖表代碼,生成精確的圖形化數(shù)據(jù)表示。此外,研究團隊還運用 GPT-4 描述圖表內容和生成問答對,為每個圖表生成了豐富多樣的訓練樣本,以確保經(jīng)過訓練的模型能夠充分的理解圖表。
圖表理解領域中,傳統(tǒng)模型僅能實現(xiàn)諸如讀取圖表中的數(shù)字這種簡單的 QA 任務,無法對較復雜的問題進行回答。具體來說,它們難以跟隨較長的指令,在涉及數(shù)學運算的問答中,也經(jīng)常出現(xiàn)運算錯誤,而 ChartLlama 可以有效的避免此類問題,具體對比如下所示:
在傳統(tǒng)任務之外,研究團隊也定義了若干新任務,其中有三個任務涉及到了圖表生成,論文中給出了相關示例:
給定圖表和指令,進行圖表重建與圖表編輯的示例
根據(jù)指令和原始數(shù)據(jù),生成圖表的示例
在各種基準數(shù)據(jù)集上,ChartLlama 都達到了 SOTA 水平,需要的訓練數(shù)據(jù)量也更少。其靈活的數(shù)據(jù)生成與收集方法,極大地拓寬了圖表理解與生成任務中圖表和任務的種類,推動了該領域的發(fā)展。
方法概述
ChartLlama 設計了一種靈活的數(shù)據(jù)收集方法,利用 GPT-4 的強大語言能力和編程能力,創(chuàng)建了豐富的多模態(tài)圖表數(shù)據(jù)集。
ChartLlama 的數(shù)據(jù)收集包括三個主要階段:
- 圖表數(shù)據(jù)生成:ChartLlama 不僅從傳統(tǒng)數(shù)據(jù)源收集數(shù)據(jù),還利用 GPT-4 的能力產(chǎn)生合成數(shù)據(jù)。通過提供特定的特征,如主題、分布和趨勢,從而引導 GPT-4 產(chǎn)生多樣化和平衡的圖表數(shù)據(jù)。由于生成的數(shù)據(jù)包含了已知的數(shù)據(jù)分布特性,這使得指令數(shù)據(jù)的構建更加靈活和多樣。
- 圖表生成:接著,利用 GPT-4 強大的編程能力,使用開源庫(如 Matplotlib)根據(jù)已生成的數(shù)據(jù)和函數(shù)文檔來編寫圖表繪制腳本,生成了一系列精心渲染的圖表。由于圖表的繪制完全是基于開源工具,這種算法可以生成更多類型的圖表用于訓練。對比已有數(shù)據(jù)集,例如 ChatQA,只支持三種圖表類型, ChartLlama 所構建的數(shù)據(jù)集支持多達 10 種圖表類型,而且可以任意擴展。
- 指令數(shù)據(jù)生成:除了圖表渲染外,ChartLlama 還進一步利用 GPT-4 來描述圖表內容,構造多種多樣的問答數(shù)據(jù),以確保訓練過的模型能全面理解圖表。這個全面的指令調整語料庫,融合了敘述文本、問題 - 答案對以及圖表的源代碼或修改后的代碼。過往的數(shù)據(jù)集只支持 1-3 種圖表理解任務,而 ChartLlama 支持多達 10 種圖表理解與生成任務,能夠更好的幫助訓練圖文大模型理解圖標中的信息
經(jīng)過以上步驟,ChartLlama 創(chuàng)建了包含多種任務和多種圖表類型的數(shù)據(jù)集。其中不同類型的任務、圖表在總數(shù)據(jù)集中的占比如下所示:
更詳細的指令及其說明請參考論文原文。
實驗結果
無論是傳統(tǒng)任務還是新的任務,ChartLlama 都展現(xiàn)了最優(yōu)越的性能。傳統(tǒng)任務包括圖表問答、圖表總結,以及圖表的結構化數(shù)據(jù)提取。對比 ChartLlama 和此前最先進的模型,結果如下圖所示:
研究人員也評估了 ChartLlama 所獨有的任務能力,包括圖表代碼生成,圖表總結和圖表編輯,同時也構造了對應任務的測試集,并與當前最強的開源圖文大模型 LLaVA-1.5 進行了對比,結果如下所示:
研究團隊還在類型各異的圖表中測試了 ChartLlama 的問答準確率,和之前的 SOTA 模型 Unichart 以及提出的基線模型進行了對比,結果如下:
總的來說,ChartLlama 不僅推動了多模態(tài)學習的邊界,也為圖表的理解和生成提供了更精確和高效的工具。無論是在學術寫作還是在企業(yè)演示中,ChartLlama 都將使圖表的理解和創(chuàng)造變得更加直觀和高效,在生成和解讀復雜視覺數(shù)據(jù)方面邁出了重要的一步。
對此研究感興趣的讀者可以移步論文原文,了解更多研究內容。