放棄折騰,AutoRAG一鍵鎖定最佳RAG技術棧!
AutoRAG:RAG AutoML工具可自動為你的數(shù)據(jù)找到最佳RAG Pipeline。
市面上有許多RAG Pipeline和模塊,但不知道哪種Pipeline最適合“你自己的數(shù)據(jù)”和“你自己的用例”。制作和評估所有 RAG 模塊非常耗時且難以完成。
AutoRAG 支持一種簡單的方法來評估許多RAG模塊組合??梢允褂米约旱?strong>評估數(shù)據(jù)自動評估各種 RAG 模塊,并找到最適合自己用例的 RAG Pipeline。
AutoRAG支持的RAG技術棧
支持16種解析模塊、10種切塊模塊
解析模塊:PDFMiner,PDFPlumber,PyPDFium2,PyPDF,PyMuPDF,UnstructuredPDF,NaverClovaOCR,llama Parse,Upstage Document Parser,Directory,Unstructured,csv,json,unstructuredmarkdown,bshtml,unstructuredxml
切塊模塊:Token,SentenceTransformersToken,Character,RecursiveCharacter,Sentence,Konlpy ,Semantic_llama_index,SemanticDoubleMerging,SentenceWindow,SimpleFile
支持40種檢索、排序、生成模塊
重排:UPR,Tart,MonoT5,Cohere reranker,RankGPT,Jina Reranker,Sentence Transformer Reranker,Colbert Reranker,F(xiàn)lag Embedding Reranker,F(xiàn)lag Embedding LLM Reranker,Time Reranker,OpenVINO Reranker,VoyageAI Reranker,MixedBread AI Reranker,,,Ko-reranker,,,pass_reranker
Query理解:query_decompose,hyde,multi_query_expansion,pass_query_expansion
檢索:bm25,vectordb,hybrid_rrf,hybrid_cc
支持15種評價指標
Precision,Recall,F(xiàn)1,MRR (Mean Reciprocal Rank),MAP (Mean Average Precision),NDCG (Normalized Discounted Cumulative Gain),Token Precision,Token Recall,Token F1,BLEU,ROUGE,METEOR,Sem Score,G-Eval,Bert Score
數(shù)據(jù)創(chuàng)建
RAG優(yōu)化需要兩種類型的數(shù)據(jù):QA 數(shù)據(jù)集和 Corpus 數(shù)據(jù)集。
- QA數(shù)據(jù)集文件 (qa.parquet)
- 語料庫數(shù)據(jù)集文件(corpus.parquet)
QA數(shù)據(jù)集對于準確可靠的評估和優(yōu)化非常重要。
語料庫數(shù)據(jù)集對于 RAG 的性能至關重要。這是因為 RAG 使用語料庫來檢索文檔并使用它生成答案。
RAG優(yōu)化步驟
AutoRAG 如何優(yōu)化 RAG 管道?
Set YAML File ->Run Evaluation -> ing -> Evaluation Done -> Best RAG Pipeline -> Deploy
https://github.com/Marker-Inc-Korea/AutoRAG
https://arxiv.org/pdf/2410.20878
AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation P
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦