自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型理解復(fù)雜表格,字節(jié)&中科大出手了

人工智能 新聞
視覺表格理解任務(wù)依然有很多技術(shù)難點(diǎn)等待攻克。TabPedia初步探究了多模態(tài)大模型的表格理解能力,作者希望能對大家的研究有所幫助。

只要一個大模型,就能解決打工人遇到的表格難題!

字節(jié)聯(lián)手中科大推出了一款統(tǒng)一表格理解大模型,可以以用戶友好的方式解決多種表格理解任務(wù)。

同時提出的還有一套開源測試基準(zhǔn),可以更好地評估模型在表格理解任務(wù)上的表現(xiàn)。

圖片

該模型名為TabPedia,利用多模態(tài)大模型,將不同處理表格任務(wù)的專有模型進(jìn)行了整合。

在這之前,不同的任務(wù)都有獨(dú)立的模型和解決方案,單是找到適合的模型就是已經(jīng)很讓人頭疼。

TabPedia通過概念協(xié)同 (Concept Synergy)機(jī)制來實(shí)現(xiàn)多個任務(wù)、多種源信息的整合協(xié)作,打工人再也不用為找模型而煩惱了。

圖片

那么,這款新模型都能實(shí)現(xiàn)怎樣的效果呢?

無需裁剪識別多表格結(jié)構(gòu)

首先來看,在測試數(shù)據(jù)集上,TabPedia可以在不借助后處理算法的條件下,精準(zhǔn)識別表格位置并直接生成無重疊的檢測框。

圖片

在判斷出表格位置的基礎(chǔ)之上,對于表格結(jié)構(gòu)識別任務(wù),TabPedia可以繼續(xù)生成一系列連續(xù)的表格結(jié)構(gòu)元素以及相應(yīng)的檢測框。

不僅判斷準(zhǔn)確,還有效地解決了標(biāo)記語言(HTML或者M(jìn)arkdown)處理空間坐標(biāo)的不足和非法語法潛在造成解析錯誤的弊端。

圖片

而且不再需要將表格從圖片中手動裁剪,研究者們借助大模型的理解能力,讓模型可以直接在原始文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識別。

值得一提的是,此類任務(wù)是由TabPedia團(tuán)隊(duì)的作者首次提出的。

圖片

當(dāng)然,只識別表格的位置和結(jié)構(gòu)是遠(yuǎn)遠(yuǎn)不夠的,而對于表格問答任務(wù),TabPedia不僅可以給出正確的答案,同時還能基于表格的內(nèi)容給出相應(yīng)的理由。

圖片

實(shí)戰(zhàn)方面,面對多種不同的開放場景,TabPedia同樣表現(xiàn)優(yōu)異。

比如在論文中的表格檢測任務(wù)當(dāng)中,TabPedia可以準(zhǔn)確地檢測出圖像中的所有表格實(shí)例。

圖片

對于表格結(jié)構(gòu)識別能力,研究者們隨機(jī)選取了不同論文中的表格圖像,對于包含密集文本信息的表格結(jié)構(gòu),依然預(yù)測出準(zhǔn)確的結(jié)構(gòu)信息。

圖片

而在問答任務(wù)上,TabPedia仍然可以像在數(shù)據(jù)集測試中一樣,根據(jù)表格內(nèi)容和表格結(jié)構(gòu)信息,做出合理且正確的回答。

圖片

此外,為了更好地評估各種模型在現(xiàn)實(shí)世界表格圖像上的TQA性能,作者還構(gòu)建了一個復(fù)雜的TQA數(shù)據(jù)集(ComTQA)。

與現(xiàn)有的基準(zhǔn)WTQ和TabFact相比,ComTQA具有更具挑戰(zhàn)性的問題,例如多個答案、數(shù)學(xué)計(jì)算和邏輯推理。

通過專家標(biāo)注,作者們從大約1.5k張圖像中注釋了約9k個高質(zhì)量的表格問答對。該數(shù)據(jù)集的標(biāo)注目前已經(jīng)在Huggingface開源。

圖片

那么,TabPedia具體是如何實(shí)現(xiàn)的呢?

高低分辨率分別訓(xùn)練

如下圖所示,TabPedia包含兩個視覺編碼器以及各自的映射層,一個分詞器以及大語言模型。

圖片

在預(yù)訓(xùn)練階段,TabPedia主要學(xué)習(xí)如何對齊視覺表征和語言模型的輸入空間;在微調(diào)階段,TabPedia進(jìn)一步專注于視覺表格理解。

其中,高分辨率視覺編碼器用于2560x1920的高分辨文檔圖像,可以提供豐富的細(xì)粒度視覺信息;

低分辨率視覺編碼器為了保持整圖的結(jié)構(gòu)信息,編碼224x224的低分辨圖像。

為了更好地讓語言模型理解視覺信息,該工作沿襲了主流多模態(tài)大模型的對齊策略,設(shè)計(jì)了兩個簡單的映射層。

對于高分辨率支路的映射層,TabPedia采用2D的卷積層來聚合近鄰的視覺特征,同時有效地緩解視覺token數(shù)量冗余的現(xiàn)狀。

給定大量的視覺tokens以及文本指令的嵌入特征,TabPedia采用Vicuna-7B作為語言模型生成回答。

考慮到表格感知和理解任務(wù)之間的差異,TabPedia引入了Meditative Tokens M 來實(shí)現(xiàn)概念協(xié)同機(jī)制,它可以自適應(yīng)地激活不同區(qū)域的視覺tokens,并理解特定任務(wù)問題的意圖。

整體的輸入序列為 X = [Q; ; V_l ; ; V_h, ; M],其中 ,都是可學(xué)習(xí)的特殊token,分別代表視覺tokens的開始、結(jié)束,以及區(qū)分不同分辨率的視覺tokens。(勘誤:此處顯示有問題,具體請見評論)

由于TabPedia和其它LLMs一樣執(zhí)行next token預(yù)測,因此僅需要簡單的交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)來優(yōu)化整個框架。

通過預(yù)訓(xùn)練,TabPedia能夠很好地理解各種文檔圖像的文本和結(jié)構(gòu),但無法根據(jù)指示執(zhí)行不同的表格理解任務(wù)。

為了增強(qiáng)模型的指令跟隨能力,該工作首先構(gòu)建了一個用于視覺表格理解的大規(guī)模數(shù)據(jù)集。

基于該數(shù)據(jù)集,研究者引入了四個與表格相關(guān)的任務(wù),即表格檢測,表格結(jié)構(gòu)識別,表格查詢以及表格問答,來同步執(zhí)行感知和理解任務(wù)。

在該階段,LLM也參與訓(xùn)練微調(diào),進(jìn)一步增強(qiáng)大模型的指令跟隨和視覺信息抓取的能力。

開源數(shù)據(jù)集與合成數(shù)據(jù)共同訓(xùn)練

數(shù)據(jù)方面,TabPedia的全部數(shù)據(jù)來源于五個公開的表格數(shù)據(jù)集,包括PubTab1M、FinTabNet、 PubTabNet、WikiTableQuestions(WTQ)和TabFact,具體的數(shù)據(jù)使用情況如下圖所示:

圖片

同時,對于不同任務(wù)的指令設(shè)計(jì),作者也給出了對應(yīng)的示例以便模型更好地理解。

圖片

其中最值得注意的是,表格檢測和表格結(jié)構(gòu)識別的任務(wù)擺脫了之前繁瑣的后處理的弊端,TabPedia直接可以預(yù)測無重疊的檢測框,高效率地輸出用戶需要的答案。

除此之外,研究者們進(jìn)一步借助大模型的理解能力,克服之前工作需要將表格從原文檔中裁剪出來做結(jié)構(gòu)識別的流程,直接在原文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識別。

該任務(wù)為利用大語言模型實(shí)現(xiàn)更復(fù)雜的表格理解奠定了強(qiáng)有力的基礎(chǔ)。

對于表格問答任務(wù),現(xiàn)有的數(shù)據(jù)絕大多數(shù)是基于文本的表格中生成的,僅在背景顏色和字體大小存在變化,導(dǎo)致在現(xiàn)實(shí)世界的表格中泛化能力較差。此外,TQA數(shù)據(jù)的量級遠(yuǎn)遠(yuǎn)落后于其他任務(wù)。

為了克服這些障礙,研究者們利用開源多模態(tài)大模型,基于FinTabNet和PubTab1M中部分圖像數(shù)據(jù)生成了大量的TQA數(shù)據(jù)。

另外作者表示,盡管TabPedia已經(jīng)在視覺表格理解展現(xiàn)出強(qiáng)大的能力,仍然有很多未解決的挑戰(zhàn)激發(fā)研究者更深入的探索:

  • 對于扭曲表格無法準(zhǔn)確的理解和識別。該能力不足一方面源于訓(xùn)練數(shù)據(jù)的不足,另一方面是對于表格結(jié)構(gòu)的表示采用了規(guī)則的矩形框。
  • 目前的表格問答仍需要table-centic圖像,如何將其遷移到在原始文檔圖像直接問答也是一項(xiàng)挑戰(zhàn)性的工作。
  • 增加表格單元格內(nèi)容識別可以提升模型對于表格內(nèi)容的理解以及細(xì)粒度信息的抓取能力。

總體來說,視覺表格理解任務(wù)依然有很多技術(shù)難點(diǎn)等待攻克。TabPedia初步探究了多模態(tài)大模型的表格理解能力,作者希望能對大家的研究有所幫助。

論文地址:https://arxiv.org/abs/2406.01326ComTQA數(shù)據(jù)集:
https://huggingface.co/datasets/ByteDance/ComTQA

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-12-04 09:15:00

AI模型

2024-08-12 14:00:00

2024-04-07 09:00:00

數(shù)據(jù)模型

2013-06-19 11:32:32

計(jì)算性能ISCHPC

2023-10-30 15:06:00

模型數(shù)據(jù)

2024-12-02 10:40:00

AI模型

2012-11-23 10:15:55

SCC12全球超級計(jì)算大會

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2025-04-09 09:25:00

視頻模型AI

2024-11-15 10:00:00

2017-03-23 17:09:45

2023-08-21 13:49:00

圖像技術(shù)

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2021-11-17 16:13:45

IBM 處理器量子

2024-11-04 08:30:00

2013-08-21 15:13:17

英特爾中科大洋廣電行業(yè)

2025-04-01 09:20:00

模型預(yù)測AI

2023-03-17 07:59:57

AI數(shù)字化

2025-04-15 09:22:00

AI訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號