如何借助假設(shè)文檔嵌入改進(jìn)語義搜索? 原創(chuàng)
本文介紹了如何使用簡(jiǎn)單的大語言模型(LLM)調(diào)用來顯著改善語義搜索結(jié)果的質(zhì)量。
找到合適的AI模型來構(gòu)建工作流程很困難。由于不同平臺(tái)上有眾多的模型可用,因此不可能知道從哪里入手,或者如何找到最適合您特定需求的模型。這就是我打算用AIModels.fyi解決的問題,這是唯一用來發(fā)現(xiàn)和比較網(wǎng)上AI模型的搜索引擎。
該網(wǎng)站有一個(gè)簡(jiǎn)單的前提:用自然語言描述問題,然后詳細(xì)列出可能會(huì)解決問題的AI模型。比如說,您可以搜索“我需要一個(gè)模型,可以在不失去清晰度的情況下幫助提升圖像質(zhì)量”或“讓我的貓看起來像是在唱歌”。目的是讓任何人(不僅僅是機(jī)器學(xué)習(xí)工程師)都能為其項(xiàng)目輕松找到有用的AI工具。
在底層,搜索的工作原理是獲取用戶的查詢后,將其與來自Hugging Face、Replicate、Cerebrium和DeepInfra等主要平臺(tái)的7500多個(gè)創(chuàng)建者的逾24萬個(gè)AI模型組成的數(shù)據(jù)庫進(jìn)行比較。用戶輸入搜索后,使用OpenAI的text-embedding-ada-002模型將查詢嵌入到向量中。然后將該查詢向量與數(shù)據(jù)庫中模型名稱、描述和用例的預(yù)計(jì)算向量表示進(jìn)行比較。余弦距離最相似的模型作為搜索結(jié)果返回。
以下是我使用了六個(gè)月的核心搜索邏輯的簡(jiǎn)化版本:
const fetchData = async (query) => {
// Embed the search query
const embeddingResponse = await openAi.createEmbedding({
model: "text-embedding-ada-002",
input: query,
});
const embedding = embeddingResponse.data.data[0].embedding;
// Find the most similar models in the vector database
const { data: modelsData, error } = await supabase.rpc("search_models", {
query_embedding: embedding,
similarity_threshold: 0.75,
match_count: 10,
});
return modelsData;
};
當(dāng)查詢術(shù)語和模型描述之間存在直接重疊時(shí),這種向量搜索方法可以很好地顯示相關(guān)模型。但是面對(duì)更抽象、更復(fù)雜或更小眾的查詢時(shí),由于用戶的語言與數(shù)據(jù)庫中的技術(shù)術(shù)語并不完全匹配,它的實(shí)現(xiàn)效果就勉為其難。
比如說,我最近想找到一種模型,可以使用音頻片段來創(chuàng)建具有動(dòng)畫效果的肖像圖像。我知道有幾個(gè)很好的模型,但我搜索“由圖像和音頻創(chuàng)建會(huì)說話的肖像”并沒有返回預(yù)期的結(jié)果。問題在于,我的查詢術(shù)語與模型描述中使用的特定詞沒有足夠的文字匹配,即使語義意圖是相似的。
這讓我開始思考如何改善搜索體驗(yàn),以更好地處理這種抽象或復(fù)雜的查詢。我怎樣才能讓系統(tǒng)更智能地理解用戶的真實(shí)意圖,并將其映射到數(shù)據(jù)庫中的相關(guān)模型?我無意中看到了這篇研究論文(https://arxiv.org/abs/2212.10496),因此有機(jī)會(huì)了解了假設(shè)文檔嵌入(HyDE)想法。
HyDE——查詢擴(kuò)展器!
HyDE背后的關(guān)鍵理論是,在嵌入搜索之前,使用大語言模型(LLM)將用戶的簡(jiǎn)短查詢擴(kuò)展為更詳細(xì)的假設(shè)“理想”文檔。因此,它不是直接將查詢嵌入與數(shù)據(jù)庫嵌入相匹配,而是先將查詢轉(zhuǎn)換為與實(shí)際文檔在相同語義空間中更豐富的表示。
整個(gè)過程是這樣的:
- 用戶輸入表達(dá)需求的自然語言查詢,比如“我想把一個(gè)圖像轉(zhuǎn)換成3D模型?!?/li>
- 然后使用像OpenAI的text-embedding-ada-002這樣的模型,將生成的這個(gè)偽文檔嵌入到密集向量中。
- 因此獲得的嵌入用于查詢向量數(shù)據(jù)庫,并找到最相似的實(shí)際模型文檔。
該查詢被饋入到指令調(diào)優(yōu)的LLM(比如GPT-3)中,以生成假設(shè)文檔。提示要求模型想象一個(gè)回答查詢的理想文檔。舉例說:
查詢:我要將圖像轉(zhuǎn)換為3D模型。
假設(shè)文檔:市面上有幾種AI模型可以將2D圖像轉(zhuǎn)換為3D模型。這個(gè)過程名為單視圖重建或3D估計(jì)。它通常需要使用深度學(xué)習(xí)由2D輸入圖像預(yù)測(cè)深度圖和3D形狀。處理這項(xiàng)任務(wù)的一些流行模型包括Pix2Vox、Pixel2Mesh、AtlasNet和OccNet。這些模型是使用龐大的3D對(duì)象數(shù)據(jù)集加以訓(xùn)練的,可以處理復(fù)雜形狀。要使用它們,您就要提供輸入圖像,模型會(huì)輸出一個(gè)3D網(wǎng)格或三維像素表示,您可以在3D建模工具中渲染或進(jìn)一步編輯。
LLM步驟有助于彌合用戶的簡(jiǎn)單查詢和模型描述中使用的技術(shù)性更強(qiáng)的語言之間的差距。它在初始查詢的基礎(chǔ)上進(jìn)行擴(kuò)展,以推斷有助于檢索更好匹配的其他相關(guān)術(shù)語、概念和上下文。與此同時(shí),使用真實(shí)的文檔嵌入作為最終的搜索索引可以使搜索結(jié)果更可靠,防止幻覺問題。
我在現(xiàn)有的AIModels搜索上實(shí)施了HyDE的基礎(chǔ)版本,初步結(jié)果令人滿意。在我測(cè)試的一些示例查詢中,HyDE顯示的相關(guān)模型比原始關(guān)鍵字匹配方法多兩三倍。對(duì)于會(huì)說話的頭像查詢,它能夠生成一個(gè)假設(shè)文檔,含有“對(duì)口型”、“臉部動(dòng)畫”和“音頻驅(qū)動(dòng)動(dòng)畫”等關(guān)鍵術(shù)語,這有助于檢索普通搜索忽略的一些強(qiáng)匹配模型。
如何在您自己的搜索系統(tǒng)中實(shí)現(xiàn)HyDE?
不妨展示如何將HyDE添加到現(xiàn)有的語義搜索系統(tǒng)上,從而顯著提高質(zhì)量。
不妨從基于我當(dāng)前搜索流的簡(jiǎn)化代碼草圖入手。以下是完整的文件,在我們查看各部分之前,您可以瀏覽一下整體:
const fetchData = async (query) => {
// Generate a hypothetical document embedding for the query
const hypotheticalDocument = await generateHypotheticalDocument(query);
const embeddingResponse = await openAi.createEmbedding({
model: "text-embedding-ada-002",
input: hypotheticalDocument,
});
const embedding = embeddingResponse.data.data[0].embedding;
// Search the real model embeddings using the hypothetical document embedding
const { data: modelsData, error } = await supabase.rpc("search_models", {
query_embedding: embedding,
similarity_threshold: 0.75,
match_count: 10,
});
return modelsData;
};
const generateHypotheticalDocument = async (query) => {
// Use GPT-3 to expand the query into a hypothetical ideal document
const prompt = `The user entered the following search query:
"${query}"
Please generate a detailed hypothetical document that would be highly relevant to answering this query. The document should use more technical language and expand on the key aspects of the query.
Hypothetical Document:`;
const response = await openAi.createCompletion({
model: "text-davinci-002",
prompt: prompt,
max_tokens: 200,
n: 1,
stop: null,
temperature: 0.5,
});
const hypotheticalDocument = response.data.choices[0].text.trim();
return hypotheticalDocument;
}
看看它是如何工作的。我們將從fetchData函數(shù)開始,這是搜索過程的主要入口點(diǎn)。首先:
const hypotheticalDocument = await generateHypotheticalDocument(query);
這一行調(diào)用generateHypotheticalDocument函數(shù)(稍后會(huì)有詳細(xì)解釋),基于用戶的搜索查詢生成一個(gè)假設(shè)的理想文檔。
假設(shè)文檔是HyDE方法的關(guān)鍵部分,因?yàn)樗荚谝员仍疾樵兏敿?xì)和更技術(shù)的方式捕獲用戶的搜索意圖。
const embeddingResponse = await openAi.createEmbedding({
model: "text-embedding-ada-002",
input: hypotheticalDocument,
});
const embedding = embeddingResponse.data.data[0].embedding;
這幾行使用OpenAI的text-embedding-ada-002模型為假設(shè)文檔生成嵌入向量。我認(rèn)為這是目前為止最好的嵌入選項(xiàng)。
嵌入是一種將文本表示為密集數(shù)字向量的方法,其中相似的文本有相似的向量。這便于我們執(zhí)行語義相似度搜索。
通過嵌入假設(shè)文檔而不是原始查詢,我們旨在獲得更好地捕獲擴(kuò)展搜索意圖的向量表示。接下來:
const { data: modelsData, error } = await supabase.rpc("search_models", {
query_embedding: embedding,
similarity_threshold: 0.75,
match_count: 10,
});
這部分在模型數(shù)據(jù)庫中執(zhí)行實(shí)際的相似度搜索。它對(duì)Supabase數(shù)據(jù)庫調(diào)用遠(yuǎn)程過程(search_models),將假設(shè)文檔的嵌入作為query_embedding傳入。
similarity_threshold和match_count這兩個(gè)參數(shù)控制結(jié)果需要匹配的程度和返回的數(shù)量。
搜索基于余弦相似度尋找與查詢嵌入最相似的模型嵌入。
現(xiàn)在不妨看看generateHypotheticalDocument函數(shù):
const prompt = `The user entered the following search query:
"${query}"
Please generate a detailed hypothetical document that would be highly relevant to answering this query. The document should use more technical language and expand on the key aspects of the query.
Hypothetical Document:`;
這部分構(gòu)建將發(fā)送給語言模型以生成假設(shè)文檔的提示。
提示包括用戶的原始查詢和指令,以便模型生成詳細(xì)的技術(shù)文檔,從而擴(kuò)展查詢的關(guān)鍵方面。構(gòu)建有效的提示對(duì)于指導(dǎo)語言模型生成實(shí)用的假設(shè)文檔至關(guān)重要。
現(xiàn)在是下一個(gè)部分:
const response = await openAi.createCompletion({
model: "text-davinci-002",
prompt: prompt,
max_tokens: 200,
n: 1,
stop: null,
temperature: 0.5,
});
這幾行使用OpenAI的text-davinci-002模型基于提示生成假設(shè)的文檔。
max_tokens參數(shù)限制所生成文檔的長(zhǎng)度,而temperature控制隨機(jī)性(較高的值使輸出更多樣化,但可能不那么集中)。調(diào)整這些參數(shù)有助于調(diào)整所生成文檔的質(zhì)量和多樣性。
接下來,我們有:
const hypotheticalDocument = response.data.choices[0].text.trim();
這一行從GPT-3 API響應(yīng)中提取所生成的假設(shè)文檔文本。然后返回所生成的文本,以便用在嵌入步驟中。
回顧:我們剛剛構(gòu)建了什么?
我希望代碼和我的解釋能夠演示如何在現(xiàn)有的語義搜索系統(tǒng)上實(shí)現(xiàn)HyDE方法。其實(shí)沒那么難!關(guān)鍵思想是這個(gè):我們旨在通過將假設(shè)文檔生成和嵌入步驟插入到搜索管道中,借助更好地捕獲用戶的意圖來改進(jìn)搜索結(jié)果。
總結(jié)一下,幾個(gè)關(guān)鍵部分是:
- 使用語言模型將用戶的查詢擴(kuò)展為更詳細(xì)的技術(shù)性假設(shè)文檔。
- 嵌入假設(shè)文檔,以獲得與模型數(shù)據(jù)庫一致的向量表示。
- 在假設(shè)文檔嵌入和模型嵌入之間執(zhí)行相似度搜索,以找到最相關(guān)的結(jié)果。
當(dāng)然,這只是一種簡(jiǎn)化的實(shí)現(xiàn),真正的實(shí)現(xiàn)中還有許多細(xì)節(jié)和優(yōu)化需要考慮。但它闡明了HyDE方法的核心流程和組成部分。
結(jié)束語
因?yàn)檫@只是一個(gè)初始原型,還有很多試驗(yàn)和改進(jìn)的余地。我在思考一些關(guān)鍵的開放性問題:
- 生成有用的假設(shè)文檔的最佳提示結(jié)構(gòu)和輸出長(zhǎng)度是什么?我想嘗試不同的提示模板和輸出大小,看看它們?nèi)绾斡绊懡Y(jié)果質(zhì)量。
- 如何使假設(shè)文檔對(duì)用戶更易于解釋、更透明?如果用戶不明白為什么添加某些術(shù)語,可能會(huì)備感困惑。我正考慮將所生成文本的一部分顯示為“查詢解釋”,以便更深入地揭示該過程。
- 結(jié)果質(zhì)量在多大程度上依賴所使用的特定LLM和嵌入模型?我很想對(duì)不同的模型組合進(jìn)行基準(zhǔn)測(cè)試(比如GPT-4 vs GPT-3和Contriever vs OpenAI嵌入等),以找到最佳配方。
- 如何有效地?cái)U(kuò)展這種方法,以便處理數(shù)百萬個(gè)數(shù)據(jù)庫條目?在像GPT-3這樣的大型LLM上進(jìn)行推理昂貴又緩慢。我需要研究緩存、優(yōu)化或提煉模型,以便這種方法在大規(guī)模環(huán)境中切實(shí)可行。
我對(duì)語言模型的潛力感到興奮,可以幫助像AIModels這樣的搜索界面對(duì)更廣泛的受眾而言更直觀、更強(qiáng)大。彌合用戶如何自然表達(dá)需求和如何技術(shù)上描述AI模型之間的語義差距,是解決這個(gè)難題的一個(gè)重要環(huán)節(jié)。HyDE之類的技術(shù)為深刻理解用戶意圖,并滿足用戶需求的搜索體驗(yàn)指明了一條道路。
我的長(zhǎng)期目標(biāo)是不斷完善這個(gè)界面,直到任何人都可以輕松地找到符合他們需求的相關(guān)AI模型,無論他們的技術(shù)專業(yè)水平如何。無論您是想“把您的頭像變成Studio Ghibli插圖”、“由圖像生成3D模型”、“為虛擬助手創(chuàng)建文本到語音功能”,還是“找到最好的標(biāo)志設(shè)計(jì)AI”,我都希望AIModels是個(gè)不錯(cuò)的起點(diǎn)。
隨著我繼續(xù)試驗(yàn)HyDE及其他方法,會(huì)分享更多細(xì)節(jié)。如果您想進(jìn)一步了解技術(shù)方面,建議您查看原始論文。
原文標(biāo)題:How to improve your semantic search with hypothetical document embeddings,作者:Mike Young
鏈接:https://notes.aimodels.fyi/improving-ai-model-search-with-hypothetical-document-embeddings/。
