谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡
文本嵌入模型在自然語言處理中扮演著重要角色,為各種文本相關(guān)任務(wù)提供了強(qiáng)大的語義表示和計(jì)算能力。
在語義表示上,文本嵌入模型將文本轉(zhuǎn)換為高維向量空間中的向量表示,其中語義上相似的文本在向量空間中距離較近,從而捕捉了文本的語義信息,這種表示有助于計(jì)算機(jī)更好地理解和處理自然語言;在文本相似度計(jì)算上,基于文本嵌入的向量表示,可以輕松地計(jì)算文本之間的相似度,從而支持各種應(yīng)用,如信息檢索、問答系統(tǒng)和推薦系統(tǒng);在信息檢索上,文本嵌入模型可以用于改善信息檢索系統(tǒng),通過將查詢與文檔嵌入進(jìn)行比較,找到最相關(guān)的文檔或段落;在文本分類和聚類上,通過將文本嵌入到向量空間中,可以進(jìn)行文本分類和聚類任務(wù)。
不同于以往,最近的研究重點(diǎn)不是為每個下游任務(wù)構(gòu)建單獨(dú)的嵌入模型,而是尋求創(chuàng)建支持多個任務(wù)的通用嵌入模型。
然而,通用文本嵌入模型面臨這樣一個挑戰(zhàn):這些模型需要大量的訓(xùn)練數(shù)據(jù)才能全面覆蓋所需的領(lǐng)域,研究主要集中在使用大量的訓(xùn)練示例來解決所面臨的挑戰(zhàn)。
LLM 的出現(xiàn)提供了一種強(qiáng)大的替代方案,因?yàn)?LLM 包含跨各個領(lǐng)域的大量知識,并且被認(rèn)為是出色的小樣本學(xué)習(xí)者。最近的研究已經(jīng)證明了使用 LLM 進(jìn)行合成數(shù)據(jù)生成的有效性,但重點(diǎn)主要是增強(qiáng)現(xiàn)有的人類標(biāo)記數(shù)據(jù)或提高特定領(lǐng)域的性能。
這就促使研究者開始審視這一問題:我們可以在多大程度上直接利用 LLM 來改進(jìn)文本嵌入模型。
為了回答這一問題,本文來自谷歌 DeepMind 的研究者提出了 Gecko,這是一種從 LLM 中蒸餾出來的多功能文本嵌入模型,其在 LLM 生成的合成數(shù)據(jù)集 FRet 上進(jìn)行訓(xùn)練,并由 LLM 提供支持。
通過將 LLM 的知識進(jìn)行提煉,然后融入到檢索器中,Gecko 實(shí)現(xiàn)了強(qiáng)大的檢索性能。在大規(guī)模文本嵌入基準(zhǔn)(MTEB,Massive Text Embedding Benchmark)上,具有 256 個嵌入維度的 Gecko 優(yōu)于具有 768 個嵌入尺寸的現(xiàn)有模型。具有 768 個嵌入維度的 Gecko 的平均得分為 66.31,在與 7 倍大的模型和 5 倍高維嵌入進(jìn)行比較時,取得了相競爭的結(jié)果。
- 論文地址:https://arxiv.org/pdf/2403.20327.pdf
- 論文標(biāo)題:Gecko: Versatile Text Embeddings Distilled from Large Language Models?
方法介紹
Gecko 是一個基于 1.2B 參數(shù)預(yù)訓(xùn)練的 Transformer 語言模型,該模型經(jīng)歷了兩個額外的訓(xùn)練階段:預(yù)微調(diào)和微調(diào)。
預(yù)微調(diào)
該研究使用兩個預(yù)微調(diào)數(shù)據(jù)集。首先是使用 Ni 等人提出的大規(guī)模社區(qū) QA 數(shù)據(jù)集,該數(shù)據(jù)集包括來自在線論壇和 QA 網(wǎng)站的文本對。接下來,研究者從 Web 上抓取標(biāo)題 - 正文文本對,這些文本對可以從網(wǎng)站上獲得。
對大量無監(jiān)督文本對進(jìn)行預(yù)微調(diào)已被證明可以提高小型雙編碼器在各種下游任務(wù)中的性能,包括文檔檢索和語義相似性 。預(yù)微調(diào)階段的目標(biāo)是讓模型接觸大量的文本多樣性,這對于訓(xùn)練緊湊型文本嵌入模型是必要的。
FRet :兩步蒸餾
使用 LLM 生成 FRet 的兩階段方法。一般來講,訓(xùn)練嵌入模型的傳統(tǒng)方法依賴于大型的、手動標(biāo)記的數(shù)據(jù)集。然而,創(chuàng)建此類數(shù)據(jù)集既耗時又昂貴,并且常常會導(dǎo)致不良偏差和缺乏多樣性。在這項(xiàng)工作中,本文提出了一種生成合成數(shù)據(jù)來訓(xùn)練多任務(wù)文本嵌入模型的新方法,該方法通過兩步蒸餾可以全面利用 LLM 掌握的知識。生成 FRet 的整體流程如圖 2 所示:
統(tǒng)一微調(diào)混合
接下來,本文將 FRet 與其他學(xué)術(shù)訓(xùn)練數(shù)據(jù)集以相同的格式結(jié)合起來:任務(wù)描述、輸入查詢、正向段落(或目標(biāo))和負(fù)向段落(或干擾項(xiàng)),從而創(chuàng)建一種新穎的微調(diào)混合。然后,本文使用這種混合與標(biāo)準(zhǔn)損失函數(shù)來訓(xùn)練嵌入模型 Gecko。
除了 FRet 之外,學(xué)術(shù)訓(xùn)練數(shù)據(jù)集包括:Natural Questions 、HotpotQA、FEVER、MedMCQA、MedMCQA、SNLI、MNLI 以及來自 Huggingface 的幾個分類數(shù)據(jù)集。對于多語言模型,本文添加了來自 MIRACL 的訓(xùn)練集。所有數(shù)據(jù)集都經(jīng)過預(yù)處理,具有統(tǒng)一的編碼格式,包含任務(wù)描述、查詢、正向段落和負(fù)向段落。
實(shí)驗(yàn)
該研究在 MTEB 基準(zhǔn)上評估了 Gecko。表 1 總結(jié)了 Gecko 和其他基線的比較結(jié)果。
Gecko 在每個文本嵌入任務(wù)上都顯著超越了所有類似大小的基線模型(<= 1k 嵌入尺寸,<= 5B 參數(shù))。與 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超過更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。值得注意的是,這些模型都使用 3-4k 嵌入維度并且參數(shù)均超過 7B。此外,該研究還觀察到 Gecko 在分類、STS 和摘要方面達(dá)到了新的 SOTA 水平。
多語言檢索結(jié)果。表 2 總結(jié)了 Gecko 和其他基線在 MTEB 上的性能比較。
表 3 總結(jié)了不同的標(biāo)記策略用于 FRet 的結(jié)果,實(shí)驗(yàn)過程中使用了不同的正樣本和負(fù)樣本段落。從結(jié)果可以發(fā)現(xiàn)使用 LLM 選擇的最相關(guān)段落總是優(yōu)于使用原始段落。表 5 也說明了這種情況經(jīng)常發(fā)生。
FRet 提供了對多種任務(wù)的查詢結(jié)果,包括問答、搜索結(jié)果、事實(shí)檢查和句子相似度。表 4 測試了 FRet 的多樣性如何影響 MTEB 中任務(wù)之間的模型泛化性。首先,該研究使用來自特定任務(wù)(例如,F(xiàn)Ret 問答)的 30 萬個數(shù)據(jù)來訓(xùn)練各個模型。此外,研究者還使用原始采樣分布或均勻采樣分布從所有四個任務(wù)中抽取的 300k 樣本(每個任務(wù) 75k;FRet-all-task)來訓(xùn)練模型。觀察到 FRet-all-tasks 模型的卓越性能,特別是當(dāng)任務(wù)被均勻采樣時。該研究還發(fā)現(xiàn)統(tǒng)一格式顯著影響嵌入的質(zhì)量,因?yàn)樗兄谀P透玫胤蛛x不同的任務(wù)。
表 4 的最后幾行展示了 Gecko 如何學(xué)習(xí)更好的語義相似性和分類。
了解更多內(nèi)容,請參考原論文。
本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心
