自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)

發(fā)布于 2024-6-28 14:09
瀏覽
0收藏

檢索增強(qiáng)生成(RAG)系統(tǒng)通過(guò)將模型生成與上下文相關(guān)文檔相結(jié)合來(lái)提高信息的準(zhǔn)確性,文本內(nèi)容如何分割成“塊(chunk)”對(duì)檢索質(zhì)量有顯著影響。

用于問(wèn)答實(shí)驗(yàn)的RAG Pipeline,一些tricks,混合檢索:BM25-Top3、密集檢索-Top15,BM25的Top1排在前面,Top2-3排在最后;大模型重排序:如果上下文包含六個(gè)或更多塊,從中間點(diǎn)開(kāi)始反轉(zhuǎn)塊的順序。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)

LumberChunker方法利用LLM動(dòng)態(tài)地將文檔分割成語(yǔ)義獨(dú)立的塊。這種方法基于一個(gè)前提:當(dāng)內(nèi)容塊的大小可以變化時(shí),檢索效率會(huì)提高,因?yàn)檫@樣可以更好地捕捉內(nèi)容的語(yǔ)義獨(dú)立性。LumberChunker通過(guò)迭代地提示LLM,在一系列連續(xù)段落中識(shí)別內(nèi)容開(kāi)始轉(zhuǎn)變的點(diǎn),從而確保每個(gè)塊在上下文中是連貫的,但與相鄰塊有所區(qū)別。

LumberChunker遵循一個(gè)三步流程。首先,按段落對(duì)文檔進(jìn)行分割。其次,通過(guò)追加連續(xù)的塊,創(chuàng)建一個(gè)組(Gi),直到超過(guò)預(yù)定義的標(biāo)記計(jì)數(shù)θ。最后,將Gi作為上下文輸入到Gemini,Gemini確定顯著內(nèi)容轉(zhuǎn)變開(kāi)始出現(xiàn)的ID,從而定義了Gi+1的開(kāi)始和當(dāng)前塊的結(jié)束。這個(gè)過(guò)程在整個(gè)文檔中循環(huán)重復(fù)。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明,LumberChunker在檢索性能上優(yōu)于其他競(jìng)爭(zhēng)性基線,特別是在DCG@20指標(biāo)上,比最接近的競(jìng)爭(zhēng)者(循環(huán)分塊:Recursive Chunking)高出7.37%;其它的競(jìng)爭(zhēng)者分別是:語(yǔ)義分塊:Semantic Chunking、段落級(jí):Paragraph-Level、HyDE、命題級(jí):Proposition-Level。

在GutenQA(3000個(gè)QA)上使用不同粒度的問(wèn)題和檢索語(yǔ)料庫(kù)段落的段落檢索性能(DCG@k和Recall@k)。每列中的最佳得分以粗體突出顯示。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)


當(dāng)LumberChunker集成到RAG流程中時(shí),它被證明比其他分割方法和競(jìng)爭(zhēng)性基線更有效。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)


LumberChunker不足:

  • 盡管它在性能上優(yōu)于所有基線,但它需要使用LLM,這使得它在成本和速度上比傳統(tǒng)方法更高、更慢。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)

  • LumberChunker專門設(shè)計(jì)用于敘事文本,對(duì)于高度結(jié)構(gòu)化的文本,可能不是最優(yōu)解決方案。

附錄:

LumberChunker Gemini Prompt示例,用于書(shū)籍《小熊維尼》由A. A.米爾恩著

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)

與表2中的例子不同,表3段落中的代詞“He”不能被準(zhǔn)確共指,導(dǎo)致命題(propositions)有些模糊。因此,如果用戶問(wèn)到“埃隆·馬斯克家族中誰(shuí)曾經(jīng)做過(guò)牛仔表演者?”這樣的問(wèn)題,一個(gè)僅使用命題作為檢索單元的模型將無(wú)法提供準(zhǔn)確的回答。

文本分塊哪家強(qiáng)?LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)-AI.x社區(qū)

在整個(gè)RAG流程中,除了Chunking,還涉及Embedding、Indexing等等,PaperAgent團(tuán)隊(duì)RAG專欄進(jìn)行過(guò)詳細(xì)的歸納總結(jié):高級(jí)RAG之36技(術(shù)),可私信留言試看:RAG專欄。

https://github.com/joaodsmarques/LumberChunker
https://arxiv.org/pdf/2406.17526
LumberChunker: Long-Form Narrative Document Segmentation

本文轉(zhuǎn)載自??PaperAgent??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦