自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="d7bno"></cite>

<legend id="d7bno"><track id="d7bno"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAPTOR 檢索樹再次進(jìn)一步提升RAG性能的設(shè)計(jì)思路原創(chuàng)

發(fā)布于 2024-7-11 13:29

瀏覽

0收藏

大多數(shù)現(xiàn)有方法僅從檢索語料庫(kù)中檢索短的連續(xù)塊，限制了對(duì)整個(gè)文檔上下文的整體理解。RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）引入了一種新方法，即遞歸嵌入、聚類和總結(jié)文本塊，從下往上構(gòu)建具有不同總結(jié)級(jí)別的樹。在推理時(shí)，RAPTOR 模型從這棵樹中檢索，整合不同抽象級(jí)別的長(zhǎng)文檔中的信息。RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）比傳統(tǒng)的檢索增強(qiáng)型 LM 性能與絕對(duì)準(zhǔn)確度上提高 20%。

開源地址：??https://github.com/parthsarthi03/raptor??

論文地址：??https://arxiv.org/abs/2401.18059??

一、RAPTOR 檢索樹的構(gòu)建過程

RAPTOR模型的精髓在于其樹狀結(jié)構(gòu)的構(gòu)建，這一過程通過精心設(shè)計(jì)的遞歸算法實(shí)現(xiàn)，形成了一個(gè)層次分明的多層級(jí)樹形架構(gòu)。這種結(jié)構(gòu)不僅顯著提升了模型對(duì)長(zhǎng)文本信息的處理能力，更使得對(duì)復(fù)雜文本內(nèi)容的理解和檢索變得高效而精準(zhǔn)。通過遞歸的方式，RAPTOR能夠逐步細(xì)化文本信息的粒度，從而確保在多個(gè)層次上都能捕捉到關(guān)鍵信息，為后續(xù)的文本分析和應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

下面我將對(duì)具體步驟進(jìn)行詳細(xì)的說明：

RAPTOR 檢索樹再次進(jìn)一步提升RAG性能的設(shè)計(jì)思路-AI.x社區(qū)

首先，需要對(duì)文本進(jìn)行合理的切片處理。這里需要注意選擇合適的切片算法很重要，建議參考主流框架的實(shí)現(xiàn)方案。
然后，RAPTOR 根據(jù)其語義embedding遞歸地對(duì)文本塊chunk進(jìn)行聚類，并生成這些聚類的文本摘要。
RAPTOR采用軟聚類方法，允許文本塊跨多個(gè)聚類，基于高斯混合模型（GMMs）和UMAP技術(shù)進(jìn)行降維，以捕捉文本數(shù)據(jù)的復(fù)雜結(jié)構(gòu)和關(guān)系，從而優(yōu)化文本聚類效果。
RAPTOR通過遞歸的向量分析，精準(zhǔn)地對(duì)文本塊進(jìn)行聚類，并提煉出這些聚類的核心摘要，自下而上地構(gòu)建出一個(gè)結(jié)構(gòu)化的樹形模型。在此樹中，相近的節(jié)點(diǎn)自然聚集形成兄弟關(guān)系，而它們的父節(jié)點(diǎn)則承載著整個(gè)集群的概要性文本信息。這種設(shè)計(jì)確保了文本信息的層次化和結(jié)構(gòu)化表達(dá)，便于理解和檢索。

二、RAPTOR 的檢索過程

RAPTOR 檢索樹再次進(jìn)一步提升RAG性能的設(shè)計(jì)思路-AI.x社區(qū)

這里有兩種方式實(shí)現(xiàn)，基于深度檢索樹(樹遍歷)和 廣度檢索樹(折疊樹)

深度檢索樹從樹的根級(jí)別開始，根據(jù)與查詢向量的余弦相似度檢索頂層的 top-k (這里為 top-1) 節(jié)點(diǎn)。在每一層，它根據(jù)與查詢向量的余弦相似度從上一層的 top-k 節(jié)點(diǎn)的子節(jié)點(diǎn)中檢索 top-k 節(jié)點(diǎn)。這個(gè)過程一直重復(fù)，直到達(dá)到葉節(jié)點(diǎn)。最后，將所有選定節(jié)點(diǎn)的文本連接起來形成檢索到的上下文。
廣度檢索樹方法將整個(gè)樹壓縮成單一層，然后根據(jù)與查詢向量的余弦相似度評(píng)估所有層的節(jié)點(diǎn)，直到達(dá)到設(shè)定閾值。

三、開源項(xiàng)目案例應(yīng)用示例

# 安裝，在使用 RAPTOR 之前，請(qǐng)確保已安裝 Python 3.8+?？寺?RAPTOR 存儲(chǔ)庫(kù)并安裝必要的依賴項(xiàng)：
git clone https://github.com/parthsarthi03/raptor.git
cd raptor
pip install -r requirements.txt


# 開始使用 RAPTOR，請(qǐng)按照以下步驟操作：
# 首先，設(shè)置您的 OpenAI API 密鑰并初始化 RAPTOR 配置：
import os
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"


from raptor import RetrievalAugmentation


# Initialize with default configuration. For advanced configurations, check the documentation. [WIP]
RA = RetrievalAugmentation()


# 將您的文本文檔添加到 RAPTOR 進(jìn)行索引：
with open('sample.txt', 'r') as file:
    text = file.read()
RA.add_documents(text)


# 現(xiàn)在可以使用 RAPTOR 根據(jù)索引文檔回答問題：
question = "How did Cinderella reach her happy ending?"
answer = RA.answer_question(question=question)
print("Answer: ", answer)


# 將構(gòu)造好的樹保存到指定路徑：
SAVE_PATH = "demo/cinderella"
RA.save(SAVE_PATH)


# 將保存的樹重新加載到 RAPTOR 中：
RA = RetrievalAugmentation(tree=SAVE_PATH)
answer = RA.answer_question(question=question)

總結(jié)

RAPTOR在RAG中的優(yōu)化為我們提供了一個(gè)全新的視角和工具，使我們能夠更高效地利用海量信息，更精準(zhǔn)地檢索和生成高質(zhì)量的內(nèi)容。隨著技術(shù)的不斷進(jìn)步和完善，相信RAPTOR將在未來為我們帶來更多驚喜和可能性。注意以上是我個(gè)人的理解，如果想深入了解可以閱讀論文。

本文轉(zhuǎn)載自公眾號(hào)頂層架構(gòu)領(lǐng)域

原文鏈接：??https://mp.weixin.qq.com/s/8kt5qbHeTP1_ELY_YKwonA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

生成式視頻的下一步是什么

lintoms ? 2555瀏覽 ? 0回復(fù)
Google總監(jiān)提出生成式AI應(yīng)用架構(gòu)和成熟度模型，一步步指導(dǎo)進(jìn)階

Syrupup ? 4569瀏覽 ? 0回復(fù)
再次提升RAG性能：兩種高效的Rerank模型實(shí)踐指南

AIGC觀察者 ? 1.9w瀏覽 ? 0回復(fù)
DeepMind | 在生成的過程中進(jìn)行檢索：一種有潛力完全替代RAG的思路"RICHES"

arnoldzhw ? 3602瀏覽 ? 0回復(fù)
具身智能又進(jìn)一步！卡內(nèi)基梅隆&Meta&蘇黎世聯(lián)邦實(shí)現(xiàn)虛擬人超靈活抓取

angel ? 2443瀏覽 ? 0回復(fù)
LlamaIndex結(jié)合DSPy，進(jìn)一步優(yōu)化RAG系統(tǒng)

小虎哦哦 ? 2746瀏覽 ? 0回復(fù)
文檔概要索引，簡(jiǎn)單提升檢索性能的新選擇

恰似驚鴻 ? 2171瀏覽 ? 0回復(fù)
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語言模型論文跟蹤 ? 2265瀏覽 ? 0回復(fù)
VisRAG：清華大學(xué)&面壁智能提出了一種新的RAG思路，效果提升明顯

大語言模型論文跟蹤 ? 2452瀏覽 ? 0回復(fù)
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 3629瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 5207瀏覽 ? 0回復(fù)
讓 ChatGPT 自動(dòng)執(zhí)行你的想法，向代理時(shí)代邁出的小小一步！

老蛀蟲 ? 2409瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 2986瀏覽 ? 0回復(fù)
如何高效轉(zhuǎn)換PDF為Markdown：構(gòu)建優(yōu)質(zhì)Graph RAG的第一步

Halo咯咯 ? 1704瀏覽 ? 0回復(fù)
一個(gè)強(qiáng)大的集成學(xué)習(xí)算法：梯度提升樹！

寶寶數(shù)模AI ? 1717瀏覽 ? 0回復(fù)
利用LLM做論文review到哪一步了？來看看DeepReview吧！

arnoldzhw ? 1782瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 1596瀏覽 ? 0回復(fù)
這個(gè)AI系統(tǒng)能給你的每一步解題過程打分

sbf_2000 ? 844瀏覽 ? 0回復(fù)
手把手帶你看懂自注意力機(jī)制：三個(gè)輸入一步步算到底

人工智能訓(xùn)練營(yíng) ? 474瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Label Studio 數(shù)據(jù)標(biāo)注工具詳解 2024-08-28 07:25:43發(fā)布
Easy-RAG 一個(gè)適合學(xué)習(xí)、使用、自主擴(kuò)展的檢索增強(qiáng)生成系統(tǒng) 2024-08-21 16:33:57發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：提升RAG系統(tǒng)性能10條策略建議

下一篇：微軟 GraphRAG 與傳統(tǒng) RAG 架構(gòu)設(shè)計(jì)精髓

社區(qū)精華內(nèi)容

目錄

<sub id="oxqd4"></sub>