FlashRAG:5大組件、12種RAG技術(shù)、32個數(shù)據(jù)集的開源框架,比LangChain輕量!
FlashRAG是一個用于復(fù)制和開發(fā)檢索增強生成(RAG)研究的Python工具包。它包括32個預(yù)處理的基準RAG數(shù)據(jù)集、13種最先進的RAG算法,5大RAG組件,包括檢索器、重排器、生成器、精煉器、評測器。借助FlashRAG和提供的資源,可以輕松地復(fù)制RAG領(lǐng)域的現(xiàn)有SOTA(最先進)工作,或者實現(xiàn)自定義的RAG流程和組件,比LangChain和LlamaIndex輕量且易操作。
FlashRAG概覽
12種RAG技術(shù)在三個數(shù)據(jù)集上進行的性能評估。優(yōu)化組件表示該方法主要優(yōu)化的組件,而流程表示對整個RAG過程的優(yōu)化。帶有?標記的方法表示使用了經(jīng)過訓(xùn)練的生成器。?
在不同檢索文檔數(shù)量和檢索器數(shù)量下的標準RAG過程的結(jié)果。左圖:使用三種不同檢索器,檢索不同數(shù)量文檔,在六個數(shù)據(jù)集上的平均結(jié)果。右圖:使用E5作為檢索器,在六個數(shù)據(jù)集上的單獨結(jié)果。
32個數(shù)據(jù)集總結(jié)。FlashRAG目前包含了不同任務(wù)的多種數(shù)據(jù)集。每個數(shù)據(jù)集的樣本大小以及答案的知識來源被列出作為參考。"-"表示知識來源是常識。星號(?)表示這個數(shù)據(jù)集的任務(wù)已經(jīng)被修改以適應(yīng)RAG場景。?
https://github.com/RUC-NLPIR/FlashRAG
https://arxiv.org/pdf/2405.13576
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research
本文轉(zhuǎn)載自 ??PaperAgent??,作者: PaperAgent
