一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄
表格識(shí)別作為文檔智能的重要組成部分,面臨著復(fù)雜結(jié)構(gòu)和多樣化格式的挑戰(zhàn)。 ??【文檔智能 & RAG】RAG增強(qiáng)之路:增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??
前期文章也介紹了傳統(tǒng)視覺的方法進(jìn)行表格結(jié)構(gòu)識(shí)別的方法,??【文檔智能】輕量級(jí)級(jí)表格識(shí)別算法模型-SLANet??
關(guān)于表格識(shí)別在這里就不做過(guò)多的介紹了。
國(guó)慶期間,筆者利用一個(gè)較長(zhǎng)的時(shí)間段,訓(xùn)練了一個(gè)多模態(tài)的表格識(shí)別模型,效果還不錯(cuò),特此記錄一下多模態(tài)的效果。
- 訓(xùn)練資源:H100*8
- 訓(xùn)練數(shù)據(jù):200w table image - table html對(duì)(html的表示表格的優(yōu)勢(shì),可以準(zhǔn)確表示一些復(fù)雜表格,如合并單元格等,這點(diǎn)是mardown格式無(wú)法做到的。)
- 模型參數(shù)量:7B
- 自建測(cè)評(píng)數(shù)據(jù)TEDS:0.97~0.98
小總結(jié):
- 訓(xùn)練數(shù)據(jù)質(zhì)量大于一切,含大量數(shù)據(jù)的超長(zhǎng)文本表格目前還不能準(zhǔn)確識(shí)別,因?yàn)楣P者訓(xùn)練的是?
?max-length=8192?
?。 - 模型參數(shù)量目前較大,推理速度比較慢。
效果記錄: 下面的一些case來(lái)源于網(wǎng)絡(luò)的表格截圖。
case1
case2
case3
case4
case5
case6
case7
本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理 作者:余俊暉
已于2024-11-28 18:51:29修改
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦