自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!

發(fā)布于 2024-7-9 09:52
瀏覽
0收藏

繼Jina Reranker v2之后,Jina AI又開源了PE-Rank,一種新的基于LLM的重新排序器,用于高效的列表式段落重新排序。不是將原始文本輸入到LLM的上下文窗口,而是使用嵌入模型將每個段落表示為一個特殊標記,然后將[指令]+[查詢]+[特殊標記]輸入到LLM中。在推理時,PE-Rank將輸出空間限制在這些特殊標記上,從而實現(xiàn)更高效的解碼。PE-Rank將重新排序100個文檔的延遲從21秒大幅減少到3秒。

RankGPT(上)與PE-Rank(下)的比較。RankGPT將整個段落作為輸入,并輸出有序數(shù)字,而PE-Rank將特殊標記列表作為輸入和輸出。在右側(cè),展示了使用不同形式的輸入在DL19上重新排序的結(jié)果。

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

PE-Rank背景

使用大型語言模型(LLM)作為重新排序器有什么吸引人的地方?

  • 新任務(wù)的靈活指令
  • 零樣本能力
  • 上下文推理?

但在實踐中,是什么阻止人們使用LLM作為重新排序器?

  • 上下文長度:重新排序100個文檔,每個文檔有1000個標記,基本上需要一個10萬標記的上下文長度。
  • 大海撈針:由于重要信息可能在長上下文中丟失,性能可能會波動。
  • 容易受到提示注入的影響:指令和查詢可能會被候選文檔覆蓋。
  • 輸出格式問題:很難確保輸出以正確的順序格式,即d1 > d3 > d2 > d7。有時你會得到語法錯誤或過于冗長的結(jié)果。

PE-Rank原理

使用PE-Rank,LLM的輸入基本上是指令+查詢+嵌入的段落,每個都作為一個特殊標記,如下所示:

用于學習排名階段訓(xùn)練的數(shù)據(jù)格式

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

其次,使用特殊段落標記來表示原始文本的想法類似于軟提示。但在PE-Rank中,使用像Jina/BGE這樣的外部嵌入模型來編碼文檔。這在外部嵌入和主干LLM自己的標記嵌入之間引入了一些差異,這意味著需要學習一個映射函數(shù)。為了做到這一點,凍結(jié)了嵌入模型和LLM,并僅訓(xùn)練了一個2層的多層感知器(MLP)來轉(zhuǎn)換嵌入空間。

在兩階段排名范式下的 PE-Rank 概覽。(a) 是檢索階段,檢索 n 個段落嵌入;(b) 是大型語言模型(LLM)的前向傳遞過程;(c) 展示了列表式解碼過程。

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

但是,如何微調(diào)一個大型語言模型(LLM)呢?經(jīng)典的監(jiān)督式微調(diào)(SFT)方法在這里有用嗎?實際上,并不是特別有用。因為解碼空間僅限于特殊的段落嵌入標記,應(yīng)用標準的SFT并不直接。在PE-Rank中,結(jié)合了兩種損失:ListMLE,它最大化生成下一個最相關(guān)段落標記的概率;以及上下文ListMLE,它進一步基于原始內(nèi)容本身進行條件化。這種方法提高了模型利用查詢和段落之間標記級交互的能力,并有助于在僅使用嵌入進行排名時轉(zhuǎn)移這種能力。

兩種類型的訓(xùn)練數(shù)據(jù)和學習排名的訓(xùn)練過程的說明

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

PE-Rank效果評測

使用 Mistral-7B-Instruct-v0.2 作為 PE-Rank 的大型語言模型(LLM)的基礎(chǔ)模型,以及 Jina-embeddings-v2/BGE-v1.5 作為外部嵌入。通過這種設(shè)置,實現(xiàn)了與將原始文檔投入 GPT-4(表中的 RankGPT4)相當?shù)男阅?,但延遲僅為其六分之一,將總時間成本從20秒減少到3秒。如果只重新排序前20個候選項,單個查詢的延遲可以進一步降低到0.5秒,使其在現(xiàn)實世界的應(yīng)用中變得相當實用。

在TREC DL和BEIR上重新排序前100個段落的結(jié)果(NDCG@10)。Ret表示第一階段使用的檢索模型。

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

在推理過程中重新排序前100名候選者在不同階段的延遲

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

在 Jina 嵌入和 BGE 嵌入之間切換時,發(fā)現(xiàn) PE-Rank 可以一致地改進基礎(chǔ)檢索器的性能,無論是 BM25、Jina 還是 BGE。一個有趣的點是,盡管 BGE 在 MTEB 上的得分高于 Jina,但使用 BGE 嵌入重新排序 BM25 檢索結(jié)果的性能在三個不同的數(shù)據(jù)集上始終低于使用 Jina 嵌入。這表明在像 MTEB 這樣的通用嵌入基準測試中表現(xiàn)出色的模型,在這個特定上下文中可能不一定表現(xiàn)良好,而 Jina 嵌入在這里顯示出更好的擴展性。

Jina AI將LLM Reranker延遲打下來了:21秒變3秒!-AI.x社區(qū)

https://github.com/liuqi6777/pe_rank
https://arxiv.org/pdf/2406.14848
Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Mo

本文轉(zhuǎn)載自??PaperAgent??

已于2024-7-9 10:59:37修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦