大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案 原創(chuàng)
“ 復(fù)雜文檔的處理是人工智能應(yīng)用的基礎(chǔ),但同時(shí)也是一個(gè)門檻?!?/strong>
在這里先思考一個(gè)問題,哪種文檔格式最復(fù)雜?
以我們經(jīng)常使用的文檔為例,不同系統(tǒng)下有不同格式的文檔;不論是文本,圖片,還是視頻都有很多種格式;但要說比較復(fù)雜的還是文本類文檔。
因?yàn)槲谋绢愇臋n中包含著多種其它格式的文檔;以作者個(gè)人為例,我認(rèn)為最復(fù)雜的文檔就是常用的word/pdf這種格式。
原因就在于這種格式的文檔就像一張白紙,我們可以在上面寫畫任何我們想要的東西;而其它格式的文檔多多少少都會(huì)有一些固定的格式,而固定的格式就意味著數(shù)據(jù)是有格式的,而現(xiàn)在的計(jì)算機(jī)系統(tǒng)中,最復(fù)雜的不是格式化數(shù)據(jù)而是非格式化數(shù)據(jù)。
復(fù)雜文檔的處理
作者目前主要從事的是RAG方面的應(yīng)用,而RAG除了高效檢索之外,另一個(gè)比較復(fù)雜的方面就是前期各種文檔的處理。
比如說word,excel,markdown,html等等;而其中比較棘手的主要就是word和pdf。
原因就在于word和pdf中的文檔格式比較復(fù)雜,因?yàn)樗粌H僅只有純文本,里面同時(shí)還存在圖片和表格和結(jié)構(gòu)圖。
特別是一些流程圖,架構(gòu)圖,甚至很多內(nèi)容都是截圖放在里面;在這種情況下,直接交給大模型處理是一件非常困難的事;特別是一些大模型只是純文本模型,無法處理這種復(fù)雜的數(shù)據(jù)格式。
因此,一種比較常見的做法就是使用OCR技術(shù),把word/pdf等文檔中的圖片識(shí)別成文字進(jìn)行處理。
但說句實(shí)話,效果真的不咋地;比如說圖片中如果是文本數(shù)據(jù)倒還好,如果是一些非文本數(shù)據(jù),OCR識(shí)別也沒太大作用。
而如果是一些流程圖或架構(gòu)圖這種,識(shí)別出來也沒太大意義,原因就在于識(shí)別出來的數(shù)據(jù)失去了原有的邏輯關(guān)系。
所以,面對(duì)這種問題應(yīng)該怎么解決?
說句實(shí)話,受限于技術(shù)問題,面對(duì)這種問題目前業(yè)界并沒有什么特別好的處理辦法,只能盡可能的保證文檔的完整性和連貫性。
面對(duì)這種問題一般有兩個(gè)解決思路,第一使用一些工具對(duì)文檔進(jìn)行預(yù)處理,比如把文檔中文字,圖片和表格分別提取出來;以保證分割數(shù)據(jù)的完整性。
常見的是不同語音提供的一些工具包,比如場(chǎng)景的python提供的各種文檔處理工具。
核心做法
將 Word / PPT / PDF 等不同類型的文檔,統(tǒng)一轉(zhuǎn)成 HTML 或者 Markdown 格式。
基于統(tǒng)一后的格式,從文檔中分離出 文本內(nèi)容、圖片(含圖表截圖)、表格。
對(duì)拆分出來的圖片和表格做進(jìn)一步的 OCR / 表格解析等處理,將其轉(zhuǎn)換為文本(或結(jié)構(gòu)化數(shù)據(jù)),最后與原有的文本合并或建立關(guān)聯(lián)。
優(yōu)點(diǎn)
保留文檔內(nèi)容結(jié)構(gòu):因?yàn)橄绒D(zhuǎn)為 HTML 或 Markdown,可以較好地保留文檔的層級(jí)結(jié)構(gòu)、段落、樣式等。
靈活處理:可以針對(duì)文字、圖片、表格分別采取適合的處理方式。例如:
文本直接拿來做 NLP 預(yù)處理;
圖片和圖表用專門的 OCR 或結(jié)構(gòu)化表格提取工具。
精細(xì)度較高:文字和圖表一分為二,可以更精細(xì)地進(jìn)行后續(xù)處理,便于標(biāo)注、檢索或微調(diào)(Finetune / RAG)。
缺點(diǎn)
開發(fā)成本相對(duì)較高:要編寫或調(diào)用各種解析、轉(zhuǎn)換腳本(doc -> html,pdf -> html 等),還要對(duì)拆出來的圖片、表格做分別提取。
依賴工具鏈:對(duì)于 PPT 等復(fù)雜文檔,直接轉(zhuǎn) HTML/Markdown 可能并非一帆風(fēng)順,需依賴商業(yè)或開源工具,可能會(huì)遇到兼容性問題。
圖片+表格的后處理:對(duì)圖表進(jìn)行 OCR 或表格解析,需要依賴額外的處理模塊,處理效果也取決于 OCR / 表格解析工具的準(zhǔn)確率。
適用場(chǎng)景
需要保留文檔原有的層級(jí)結(jié)構(gòu)、目錄、章節(jié)等信息,并對(duì)文本和圖表進(jìn)行精細(xì)化處理的場(chǎng)景。
數(shù)據(jù)源多樣(Word、PPT、PDF、掃描件),且對(duì)最終提取精度要求較高。
團(tuán)隊(duì)可以投入一些時(shí)間精力,編寫、整合比較完整的抽取工具鏈。
第二種就是使用更先進(jìn)的多模態(tài)模型,多模態(tài)模型能夠同時(shí)處理多種不同的數(shù)據(jù)格式;并且能夠盡可能的保證不同格式數(shù)據(jù)之間的相關(guān)性。
通過多模態(tài)模型對(duì)復(fù)雜文檔數(shù)據(jù)進(jìn)行抽取,然后再進(jìn)行下一步的加工處理。
總之,復(fù)雜格式數(shù)據(jù)的處理是一項(xiàng)技術(shù)難度大,處理流程復(fù)雜的工程;但核心要點(diǎn)只有一個(gè),那就是盡可能的保證文檔數(shù)據(jù)的完整性,這里包括數(shù)據(jù)的完整和語義的完整。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/muWyMmYNd52srX7zwjrtuQ??
