自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="brget"></sub>

<sub id="brget"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

HtmlRAG：利用 HTML 結(jié)構(gòu)化信息增強 RAG 系統(tǒng)的知識檢索能力和準確性原創(chuàng) 精華

發(fā)布于 2024-11-18 12:36

瀏覽

0收藏

01、概述

在大型語言模型（LLM）逐漸普及的今天，檢索增強生成（Retrieval-augmented Generation，簡稱RAG）技術(shù)逐漸成為提高AI知識處理能力、減少模型幻覺（hallucination）的關(guān)鍵手段。通過將外部知識庫和生成模型相結(jié)合，RAG為如ChatGPT等多種商業(yè)應(yīng)用提供了重要支持。然而，當前RAG的實現(xiàn)方式仍面臨一項根本性挑戰(zhàn)，即在知識處理過程中對HTML網(wǎng)頁結(jié)構(gòu)與語義信息的損失。

對于復雜的網(wǎng)頁內(nèi)容來說，將HTML文檔簡單地轉(zhuǎn)換為純文本輸入往往會破壞原始格式，導致重要的上下文信息丟失，特別是表格類內(nèi)容。這一問題長期以來困擾著RAG系統(tǒng)的優(yōu)化。為了解決這個難題，中國人民大學高瓴人工智能學院和百川智能科技的研究團隊提出了一種創(chuàng)新的解決方案——HtmlRAG，它通過HTML格式而非純文本的方式來傳遞和處理檢索到的知識，從而保留更豐富的語義和結(jié)構(gòu)信息。

那么，HtmlRAG究竟是如何突破傳統(tǒng)RAG系統(tǒng)的局限性，并帶來顯著性能提升的呢？本文將為大家深入剖析。

02、為什么現(xiàn)有RAG系統(tǒng)在處理HTML時捉襟見肘？

在傳統(tǒng)的RAG實現(xiàn)中，開發(fā)者會使用多種方法優(yōu)化內(nèi)容流入模型的質(zhì)量。例如，LangChain和LlamaIndex等框架中常用的查詢改寫、檢索器、重排序器、精煉器、讀取器等組件，能夠增強文本檢索的準確性。然而，這些方法在處理HTML內(nèi)容時卻面臨諸多瓶頸：

HTML結(jié)構(gòu)的丟失：HTML具有豐富的結(jié)構(gòu)化標簽，能夠傳遞表格、分區(qū)等語義信息，簡單轉(zhuǎn)換為純文本會破壞這些結(jié)構(gòu)，使得模型在理解內(nèi)容時喪失上下文。
現(xiàn)有精煉器的不足：當前的內(nèi)容精煉方法主要依賴文本的分塊處理（chunking），在面對長HTML內(nèi)容時顯得力不從心，且需要消耗大量計算資源，難以高效處理。
高昂的計算成本：長HTML內(nèi)容需要大量的計算資源去精煉，而HTML中的CSS樣式、JavaScript代碼及注釋等非核心信息又會大大增加詞元數(shù)量，導致效率低下。

鑒于這些局限性，傳統(tǒng)RAG系統(tǒng)在面對復雜HTML內(nèi)容時表現(xiàn)出明顯的不足。而HtmlRAG的創(chuàng)新之處在于，它不僅能夠保留HTML的原始語義和結(jié)構(gòu)信息，還通過一套獨特的機制有效應(yīng)對HTML文檔的高詞元負擔。

03、HtmlRAG的核心技術(shù)：從“純文本”到“HTML結(jié)構(gòu)”的轉(zhuǎn)變

HtmlRAG的核心理念在于直接使用HTML格式作為知識檢索的輸入，以最大限度保留網(wǎng)頁內(nèi)容的語義和結(jié)構(gòu)細節(jié)。為了有效處理復雜的HTML文檔，研究團隊設(shè)計了一套創(chuàng)新的兩步式修剪機制，使系統(tǒng)能夠在不失去重要信息的前提下，將繁雜的HTML內(nèi)容高效處理為適合模型使用的格式。

Step 1：HTML清洗與樹形結(jié)構(gòu)轉(zhuǎn)換

首先，HtmlRAG將所有檢索到的HTML文檔進行整合，并通過Beautiful Soup解析為單一的DOM樹。與傳統(tǒng)的DOM樹結(jié)構(gòu)相比，HtmlRAG采用了一種“塊樹”結(jié)構(gòu)（block tree），通過maxWords參數(shù)控制粒度。這樣一來，系統(tǒng)能夠遞歸地將零碎的子節(jié)點合并為父節(jié)點，形成較大的信息塊，并嚴格遵循單詞數(shù)限制。通過這種方式，系統(tǒng)能夠有效減少節(jié)點數(shù)量，顯著降低了復雜HTML結(jié)構(gòu)的處理難度。

Step 2：分步處理與語義精煉

在HTML文檔被清洗并轉(zhuǎn)換為塊樹結(jié)構(gòu)后，系統(tǒng)會進入第二階段的處理。HtmlRAG首先利用嵌入模型對清洗后的HTML輸出進行處理，初步篩選出核心內(nèi)容，接著通過生成模型對其進一步優(yōu)化。這樣的分步處理方式既保留了HTML文檔的結(jié)構(gòu)性信息，又能夠避免長文本造成的高計算消耗。

實驗數(shù)據(jù)：HtmlRAG在六個數(shù)據(jù)集上的表現(xiàn)勝出

在性能測試中，HtmlRAG表現(xiàn)出色，在六個數(shù)據(jù)集上全面超越了傳統(tǒng)的純文本處理方法。與常見的分塊精煉法（如LangChain的實現(xiàn)）相比，HtmlRAG在處理HTML文檔時顯得更加精準，同時顯著減少了對結(jié)構(gòu)信息的損失。

研究表明，在重排序模塊中，基于嵌入的密集檢索器（dense retrievers）明顯優(yōu)于稀疏檢索器BM25，尤其是基于編碼器的BGE表現(xiàn)尤為出色。相較之下，基于解碼器的e5-mistral效果則稍遜一籌。此外，傳統(tǒng)的精煉器在長HTML文檔的優(yōu)化上存在明顯不足，尤其是像LongLLMLingua這樣的模型會在純文本轉(zhuǎn)換中丟失大量結(jié)構(gòu)信息，而JinaAI-reader雖然可以從HTML輸入中生成Markdown，但在面對長序列時存在逐字解碼的計算瓶頸。

HtmlRAG：利用 HTML 結(jié)構(gòu)化信息增強 RAG 系統(tǒng)的知識檢索能力和準確性-AI.x社區(qū)

這些實驗數(shù)據(jù)驗證了HtmlRAG利用HTML格式進行知識處理的有效性，并表明了其在不同數(shù)據(jù)集上的廣泛適應(yīng)性。

04、HtmlRAG的應(yīng)用前景：引領(lǐng)RAG系統(tǒng)的新方向

HtmlRAG的成功不僅在于提升了RAG系統(tǒng)的知識處理能力，更開辟了基于HTML格式的知識檢索和處理的新方向。這一技術(shù)對于有復雜信息處理需求的應(yīng)用場景尤為關(guān)鍵。例如：

高結(jié)構(gòu)化內(nèi)容的AI應(yīng)用：HtmlRAG能夠保留并理解表格、列表、導航欄等高結(jié)構(gòu)化信息，使其在財務(wù)數(shù)據(jù)分析、法律文件解析等領(lǐng)域有廣泛的應(yīng)用潛力。

內(nèi)容復雜的網(wǎng)頁數(shù)據(jù)處理：在新聞、學術(shù)、技術(shù)文檔等信息密集型領(lǐng)域，HtmlRAG可以更好地保留內(nèi)容的語義與上下文，提供更可靠的回答。

長文本的計算成本優(yōu)化：通過減少非必要信息的參與，HtmlRAG實現(xiàn)了高效的內(nèi)容處理，為開發(fā)者在構(gòu)建AI應(yīng)用時節(jié)省了大量資源。

面向未來的潛力

作為一種開創(chuàng)性的RAG方法，HtmlRAG提供了一個切實可行的解決方案，展示了HTML在AI應(yīng)用中的獨特優(yōu)勢。研究團隊不僅證明了HTML格式在知識檢索和生成中的價值，還為未來基于HTML的知識處理方法指明了方向。借助HtmlRAG，我們可以想象，未來的RAG系統(tǒng)會逐步整合更多的HTML處理工具，進一步提升內(nèi)容解析的精準性和效率。

05、結(jié)語

HtmlRAG的推出標志著RAG系統(tǒng)在知識檢索與處理上的一次重要突破。通過直接使用HTML格式，HtmlRAG在提升語義保真度和結(jié)構(gòu)信息保留方面表現(xiàn)出色，有效克服了傳統(tǒng)純文本方法的諸多缺陷。對于需要復雜信息處理的企業(yè)來說，這一技術(shù)不僅提供了即時的解決方案，更為未來的知識處理方式開辟了全新路徑。

可以預見，隨著HtmlRAG這一技術(shù)的深入應(yīng)用和推廣，RAG系統(tǒng)在各行業(yè)的AI應(yīng)用中將展現(xiàn)出更強大的實力。在知識無比豐富的互聯(lián)網(wǎng)世界中，HtmlRAG將引領(lǐng)RAG技術(shù)的升級和進化，讓AI在理解和處理復雜信息時更上一層樓。

參考：

??https://arxiv.org/abs/2411.02959??
??https://huggingface.co/papers/2411.02959??

本文轉(zhuǎn)載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/0djvZL-T_rJI_QhH2q1ZkQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

場景圖知識增強多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 2705瀏覽 ? 0回復
MRAG：一種多頭RAG，提升具有顯著不同內(nèi)容的多個文檔復雜查詢的檢索準確性

PaperAgent ? 3794瀏覽 ? 0回復
Transformer頻域消偏提升時序預測準確性

海因斯DK ? 3780瀏覽 ? 0回復
Agentic RAG Golden-Retriever：顯著提升企業(yè)知識庫問答準確性、檢索效率！

PaperAgent ? 2679瀏覽 ? 0回復
Agent實戰(zhàn)-JSON結(jié)構(gòu)化智能

ermulong ? 2016瀏覽 ? 0回復
RAG：如何通過實時數(shù)據(jù)提升AI準確性并減少“幻覺”

Halo咯咯 ? 7466瀏覽 ? 0回復
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)

Halo咯咯 ? 2075瀏覽 ? 0回復
RAG增強之路：增強PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路

大模型自然語言處理 ? 2330瀏覽 ? 0回復
R2AG:將檢索信息融入RAG，提升問答系統(tǒng)準確性

大模型自然語言處理 ? 1784瀏覽 ? 0回復
OPEN-RAG：利用開源大模型增強檢索增強推理

大模型自然語言處理 ? 2049瀏覽 ? 0回復
基于Agent的金融問答系統(tǒng)：RAG的檢索增強之上下文重排和壓縮

一起AI技術(shù) ? 1860瀏覽 ? 0回復
LightRAG：提升檢索增強生成的效率與準確性

Halo咯咯 ? 3538瀏覽 ? 0回復
精通大型語言模型的準確性：如何測試、檢測和修復AI模型的幻覺

丟翅膀的魚 ? 3111瀏覽 ? 0回復
RARE: 提升LLM推理準確性和事實完整性的檢索增強框架思路淺嘗

大模型自然語言處理 ? 2314瀏覽 ? 0回復
超越 RAG：構(gòu)建增強而非替代思維的知識管理系統(tǒng)

ermulong ? 1664瀏覽 ? 0回復
HtmlRAG：RAG系統(tǒng)中，HTML比純文本效果更好

大模型自然語言處理 ? 1622瀏覽 ? 0回復
萬字解析非結(jié)構(gòu)化文檔中的隱藏價值：多模態(tài)檢索增強生成（RAG）的前景

柏企閱文 ? 918瀏覽 ? 0回復
EDC2-RAG：利用聚類和壓縮技術(shù)提升RAG準確性

大語言模型論文跟蹤 ? 1513瀏覽 ? 0回復
RAG系統(tǒng)中的“幕后英雄”：重排器如何提升信息檢索的精準度？

Halo咯咯 ? 808瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

數(shù)學推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場！ 11h前發(fā)布
從簡單計數(shù)到多模態(tài)：嵌入技術(shù)的演變與應(yīng)用 11h前發(fā)布

熱門推薦

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復

GPT-4.1系列深度解析：從代碼到動畫，從理論到實戰(zhàn)，AI的多面手來了！ 0回復

清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷 0回復

Google介紹了Agent2Agent（A2A）：一種新的開放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

上一篇： LLM微調(diào)的關(guān)鍵要點：如何打造高效、可靠的AI模型

下一篇：從RAG到TAG：探索表增強生成（TAG）的力量

社區(qū)精華內(nèi)容

目錄

<p id="bvqbk"></p>

<sub id="bvqbk"></sub>