自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-4-23 06:40

瀏覽

0收藏

“ 復(fù)雜文檔的處理是人工智能應(yīng)用的基礎(chǔ)，但同時(shí)也是一個(gè)門檻?！?/strong>

在這里先思考一個(gè)問題，哪種文檔格式最復(fù)雜？

以我們經(jīng)常使用的文檔為例，不同系統(tǒng)下有不同格式的文檔；不論是文本，圖片，還是視頻都有很多種格式；但要說比較復(fù)雜的還是文本類文檔。

因?yàn)槲谋绢愇臋n中包含著多種其它格式的文檔；以作者個(gè)人為例，我認(rèn)為最復(fù)雜的文檔就是常用的word/pdf這種格式。

原因就在于這種格式的文檔就像一張白紙，我們可以在上面寫畫任何我們想要的東西；而其它格式的文檔多多少少都會(huì)有一些固定的格式，而固定的格式就意味著數(shù)據(jù)是有格式的，而現(xiàn)在的計(jì)算機(jī)系統(tǒng)中，最復(fù)雜的不是格式化數(shù)據(jù)而是非格式化數(shù)據(jù)。

復(fù)雜文檔的處理

作者目前主要從事的是RAG方面的應(yīng)用，而RAG除了高效檢索之外，另一個(gè)比較復(fù)雜的方面就是前期各種文檔的處理。

比如說word，excel，markdown，html等等；而其中比較棘手的主要就是word和pdf。

原因就在于word和pdf中的文檔格式比較復(fù)雜，因?yàn)樗粌H僅只有純文本，里面同時(shí)還存在圖片和表格和結(jié)構(gòu)圖。

特別是一些流程圖，架構(gòu)圖，甚至很多內(nèi)容都是截圖放在里面；在這種情況下，直接交給大模型處理是一件非常困難的事；特別是一些大模型只是純文本模型，無法處理這種復(fù)雜的數(shù)據(jù)格式。

因此，一種比較常見的做法就是使用OCR技術(shù)，把word/pdf等文檔中的圖片識(shí)別成文字進(jìn)行處理。

但說句實(shí)話，效果真的不咋地；比如說圖片中如果是文本數(shù)據(jù)倒還好，如果是一些非文本數(shù)據(jù)，OCR識(shí)別也沒太大作用。

而如果是一些流程圖或架構(gòu)圖這種，識(shí)別出來也沒太大意義，原因就在于識(shí)別出來的數(shù)據(jù)失去了原有的邏輯關(guān)系。

所以，面對(duì)這種問題應(yīng)該怎么解決？

說句實(shí)話，受限于技術(shù)問題，面對(duì)這種問題目前業(yè)界并沒有什么特別好的處理辦法，只能盡可能的保證文檔的完整性和連貫性。

面對(duì)這種問題一般有兩個(gè)解決思路，第一使用一些工具對(duì)文檔進(jìn)行預(yù)處理，比如把文檔中文字，圖片和表格分別提取出來；以保證分割數(shù)據(jù)的完整性。

常見的是不同語音提供的一些工具包，比如場(chǎng)景的python提供的各種文檔處理工具。

核心做法

將 Word / PPT / PDF 等不同類型的文檔，統(tǒng)一轉(zhuǎn)成 HTML 或者 Markdown 格式。

基于統(tǒng)一后的格式，從文檔中分離出文本內(nèi)容、圖片（含圖表截圖）、表格。

對(duì)拆分出來的圖片和表格做進(jìn)一步的 OCR / 表格解析等處理，將其轉(zhuǎn)換為文本（或結(jié)構(gòu)化數(shù)據(jù)），最后與原有的文本合并或建立關(guān)聯(lián)。

優(yōu)點(diǎn)

保留文檔內(nèi)容結(jié)構(gòu)：因?yàn)橄绒D(zhuǎn)為 HTML 或 Markdown，可以較好地保留文檔的層級(jí)結(jié)構(gòu)、段落、樣式等。

靈活處理：可以針對(duì)文字、圖片、表格分別采取適合的處理方式。例如：

文本直接拿來做 NLP 預(yù)處理；

圖片和圖表用專門的 OCR 或結(jié)構(gòu)化表格提取工具。

精細(xì)度較高：文字和圖表一分為二，可以更精細(xì)地進(jìn)行后續(xù)處理，便于標(biāo)注、檢索或微調(diào)（Finetune / RAG）。

缺點(diǎn)

開發(fā)成本相對(duì)較高：要編寫或調(diào)用各種解析、轉(zhuǎn)換腳本（doc -> html，pdf -> html 等），還要對(duì)拆出來的圖片、表格做分別提取。

依賴工具鏈：對(duì)于 PPT 等復(fù)雜文檔，直接轉(zhuǎn) HTML/Markdown 可能并非一帆風(fēng)順，需依賴商業(yè)或開源工具，可能會(huì)遇到兼容性問題。

圖片+表格的后處理：對(duì)圖表進(jìn)行 OCR 或表格解析，需要依賴額外的處理模塊，處理效果也取決于 OCR / 表格解析工具的準(zhǔn)確率。

適用場(chǎng)景

需要保留文檔原有的層級(jí)結(jié)構(gòu)、目錄、章節(jié)等信息，并對(duì)文本和圖表進(jìn)行精細(xì)化處理的場(chǎng)景。

數(shù)據(jù)源多樣（Word、PPT、PDF、掃描件），且對(duì)最終提取精度要求較高。

團(tuán)隊(duì)可以投入一些時(shí)間精力，編寫、整合比較完整的抽取工具鏈。

第二種就是使用更先進(jìn)的多模態(tài)模型，多模態(tài)模型能夠同時(shí)處理多種不同的數(shù)據(jù)格式；并且能夠盡可能的保證不同格式數(shù)據(jù)之間的相關(guān)性。

通過多模態(tài)模型對(duì)復(fù)雜文檔數(shù)據(jù)進(jìn)行抽取，然后再進(jìn)行下一步的加工處理。

總之，復(fù)雜格式數(shù)據(jù)的處理是一項(xiàng)技術(shù)難度大，處理流程復(fù)雜的工程；但核心要點(diǎn)只有一個(gè)，那就是盡可能的保證文檔數(shù)據(jù)的完整性，這里包括數(shù)據(jù)的完整和語義的完整。

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/muWyMmYNd52srX7zwjrtuQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽
大模型應(yīng)用
RAG
文檔預(yù)處理

已于2025-4-23 06:40:34修改

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

大語言模型在不同自然語言處理任務(wù)中的提示工程方法綜述

sbf_2000 ? 3028瀏覽 ? 0回復(fù)
RAG 開發(fā)四大痛點(diǎn)及解決方案

玄姐聊AGI ? 2589瀏覽 ? 0回復(fù)
大模型的核心之一——大模型預(yù)訓(xùn)練之數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 4190瀏覽 ? 0回復(fù)
微軟：RAG并不是你唯一的解決方案！

PaperAgent ? 2587瀏覽 ? 0回復(fù)
關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨(dú)立部署問題

AI探索時(shí)代 ? 2490瀏覽 ? 0回復(fù)
關(guān)于大模型在企業(yè)級(jí)應(yīng)用中的選擇問題疑問回復(fù)

AI探索時(shí)代 ? 1701瀏覽 ? 0回復(fù)
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 2265瀏覽 ? 0回復(fù)
AI大模型在GIS中的應(yīng)用

zhishan15 ? 3914瀏覽 ? 0回復(fù)
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓(xùn)練數(shù)據(jù)的來源、版權(quán)與地域差異

sbf_2000 ? 2001瀏覽 ? 0回復(fù)
TAG：定義自然語言查詢的高效解決方案

51CTO內(nèi)容精選 ? 2563瀏覽 ? 0回復(fù)
文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 4276瀏覽 ? 0回復(fù)
模型訓(xùn)練前置處理之——數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 1575瀏覽 ? 0回復(fù)
在自然語言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？

AI探索時(shí)代 ? 1550瀏覽 ? 0回復(fù)
大模型除了聊天還能做什么？關(guān)于大模型的分類和應(yīng)用

AI探索時(shí)代 ? 1475瀏覽 ? 0回復(fù)
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 845瀏覽 ? 0回復(fù)
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

shizhi02 ? 1095瀏覽 ? 0回復(fù)
人工智能中的數(shù)據(jù)重要性與數(shù)據(jù)預(yù)處理

parson2000 ? 917瀏覽 ? 0回復(fù)
關(guān)于個(gè)人的創(chuàng)業(yè)想法——基于人工智能技術(shù)在垂直領(lǐng)域解決方案的探索

AI探索時(shí)代 ? 412瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時(shí)代 ? 129瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)
王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)
Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)
只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：提示詞工程對(duì)大模型應(yīng)用的重要性

下一篇：關(guān)于大模型應(yīng)用協(xié)議的發(fā)布——MCP和A2A協(xié)議的出現(xiàn)意味著什么？

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷

^{<blockquote id="ejz3y"></blockquote>}