自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="zfuzy"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

如何借助假設(shè)文檔嵌入改進(jìn)語義搜索？原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-5-10 08:27

瀏覽

0收藏

本文介紹了如何使用簡(jiǎn)單的大語言模型(LLM)調(diào)用來顯著改善語義搜索結(jié)果的質(zhì)量。

找到合適的AI模型來構(gòu)建工作流程很困難。由于不同平臺(tái)上有眾多的模型可用，因此不可能知道從哪里入手，或者如何找到最適合您特定需求的模型。這就是我打算用AIModels.fyi解決的問題，這是唯一用來發(fā)現(xiàn)和比較網(wǎng)上AI模型的搜索引擎。

該網(wǎng)站有一個(gè)簡(jiǎn)單的前提：用自然語言描述問題，然后詳細(xì)列出可能會(huì)解決問題的AI模型。比如說，您可以搜索“我需要一個(gè)模型，可以在不失去清晰度的情況下幫助提升圖像質(zhì)量”或“讓我的貓看起來像是在唱歌”。目的是讓任何人(不僅僅是機(jī)器學(xué)習(xí)工程師)都能為其項(xiàng)目輕松找到有用的AI工具。

在底層，搜索的工作原理是獲取用戶的查詢后，將其與來自Hugging Face、Replicate、Cerebrium和DeepInfra等主要平臺(tái)的7500多個(gè)創(chuàng)建者的逾24萬個(gè)AI模型組成的數(shù)據(jù)庫進(jìn)行比較。用戶輸入搜索后，使用OpenAI的text-embedding-ada-002模型將查詢嵌入到向量中。然后將該查詢向量與數(shù)據(jù)庫中模型名稱、描述和用例的預(yù)計(jì)算向量表示進(jìn)行比較。余弦距離最相似的模型作為搜索結(jié)果返回。

以下是我使用了六個(gè)月的核心搜索邏輯的簡(jiǎn)化版本：

const fetchData = async (query) => {
  // Embed the search query
  const embeddingResponse = await openAi.createEmbedding({
    model: "text-embedding-ada-002",
    input: query,
  });
  
  const embedding = embeddingResponse.data.data[0].embedding;

  // Find the most similar models in the vector database 
  const { data: modelsData, error } = await supabase.rpc("search_models", {
    query_embedding: embedding,
    similarity_threshold: 0.75,
    match_count: 10,
  });

  return modelsData;
};

當(dāng)查詢術(shù)語和模型描述之間存在直接重疊時(shí)，這種向量搜索方法可以很好地顯示相關(guān)模型。但是面對(duì)更抽象、更復(fù)雜或更小眾的查詢時(shí)，由于用戶的語言與數(shù)據(jù)庫中的技術(shù)術(shù)語并不完全匹配，它的實(shí)現(xiàn)效果就勉為其難。

比如說，我最近想找到一種模型，可以使用音頻片段來創(chuàng)建具有動(dòng)畫效果的肖像圖像。我知道有幾個(gè)很好的模型，但我搜索“由圖像和音頻創(chuàng)建會(huì)說話的肖像”并沒有返回預(yù)期的結(jié)果。問題在于，我的查詢術(shù)語與模型描述中使用的特定詞沒有足夠的文字匹配，即使語義意圖是相似的。

這讓我開始思考如何改善搜索體驗(yàn)，以更好地處理這種抽象或復(fù)雜的查詢。我怎樣才能讓系統(tǒng)更智能地理解用戶的真實(shí)意圖，并將其映射到數(shù)據(jù)庫中的相關(guān)模型?我無意中看到了這篇研究論文(https://arxiv.org/abs/2212.10496)，因此有機(jī)會(huì)了解了假設(shè)文檔嵌入(HyDE)想法。

HyDE——查詢擴(kuò)展器!

HyDE背后的關(guān)鍵理論是，在嵌入搜索之前，使用大語言模型(LLM)將用戶的簡(jiǎn)短查詢擴(kuò)展為更詳細(xì)的假設(shè)“理想”文檔。因此，它不是直接將查詢嵌入與數(shù)據(jù)庫嵌入相匹配，而是先將查詢轉(zhuǎn)換為與實(shí)際文檔在相同語義空間中更豐富的表示。

整個(gè)過程是這樣的：

用戶輸入表達(dá)需求的自然語言查詢，比如“我想把一個(gè)圖像轉(zhuǎn)換成3D模型?！?/li>
然后使用像OpenAI的text-embedding-ada-002這樣的模型，將生成的這個(gè)偽文檔嵌入到密集向量中。
因此獲得的嵌入用于查詢向量數(shù)據(jù)庫，并找到最相似的實(shí)際模型文檔。

該查詢被饋入到指令調(diào)優(yōu)的LLM(比如GPT-3)中，以生成假設(shè)文檔。提示要求模型想象一個(gè)回答查詢的理想文檔。舉例說：

查詢：我要將圖像轉(zhuǎn)換為3D模型。

假設(shè)文檔：市面上有幾種AI模型可以將2D圖像轉(zhuǎn)換為3D模型。這個(gè)過程名為單視圖重建或3D估計(jì)。它通常需要使用深度學(xué)習(xí)由2D輸入圖像預(yù)測(cè)深度圖和3D形狀。處理這項(xiàng)任務(wù)的一些流行模型包括Pix2Vox、Pixel2Mesh、AtlasNet和OccNet。這些模型是使用龐大的3D對(duì)象數(shù)據(jù)集加以訓(xùn)練的，可以處理復(fù)雜形狀。要使用它們，您就要提供輸入圖像，模型會(huì)輸出一個(gè)3D網(wǎng)格或三維像素表示，您可以在3D建模工具中渲染或進(jìn)一步編輯。

LLM步驟有助于彌合用戶的簡(jiǎn)單查詢和模型描述中使用的技術(shù)性更強(qiáng)的語言之間的差距。它在初始查詢的基礎(chǔ)上進(jìn)行擴(kuò)展，以推斷有助于檢索更好匹配的其他相關(guān)術(shù)語、概念和上下文。與此同時(shí)，使用真實(shí)的文檔嵌入作為最終的搜索索引可以使搜索結(jié)果更可靠，防止幻覺問題。

我在現(xiàn)有的AIModels搜索上實(shí)施了HyDE的基礎(chǔ)版本，初步結(jié)果令人滿意。在我測(cè)試的一些示例查詢中，HyDE顯示的相關(guān)模型比原始關(guān)鍵字匹配方法多兩三倍。對(duì)于會(huì)說話的頭像查詢，它能夠生成一個(gè)假設(shè)文檔，含有“對(duì)口型”、“臉部動(dòng)畫”和“音頻驅(qū)動(dòng)動(dòng)畫”等關(guān)鍵術(shù)語，這有助于檢索普通搜索忽略的一些強(qiáng)匹配模型。

如何在您自己的搜索系統(tǒng)中實(shí)現(xiàn)HyDE?

不妨展示如何將HyDE添加到現(xiàn)有的語義搜索系統(tǒng)上，從而顯著提高質(zhì)量。

不妨從基于我當(dāng)前搜索流的簡(jiǎn)化代碼草圖入手。以下是完整的文件，在我們查看各部分之前，您可以瀏覽一下整體：

const fetchData = async (query) => {
  // Generate a hypothetical document embedding for the query 
  const hypotheticalDocument = await generateHypotheticalDocument(query);
  
  const embeddingResponse = await openAi.createEmbedding({
    model: "text-embedding-ada-002",
    input: hypotheticalDocument,
  });
  
  const embedding = embeddingResponse.data.data[0].embedding;

  // Search the real model embeddings using the hypothetical document embedding
  const { data: modelsData, error } = await supabase.rpc("search_models", {
    query_embedding: embedding,
    similarity_threshold: 0.75,
    match_count: 10,
  });

  return modelsData;
};

const generateHypotheticalDocument = async (query) => {
  // Use GPT-3 to expand the query into a hypothetical ideal document
  const prompt = `The user entered the following search query: 
  "${query}"
  
  Please generate a detailed hypothetical document that would be highly relevant to answering this query. The document should use more technical language and expand on the key aspects of the query.

  Hypothetical Document:`;

  const response = await openAi.createCompletion({
    model: "text-davinci-002",
    prompt: prompt,
    max_tokens: 200,
    n: 1,
    stop: null,
    temperature: 0.5,
  });

  const hypotheticalDocument = response.data.choices[0].text.trim();
  return hypotheticalDocument;
}

看看它是如何工作的。我們將從fetchData函數(shù)開始，這是搜索過程的主要入口點(diǎn)。首先：

const hypotheticalDocument = await generateHypotheticalDocument(query);

這一行調(diào)用generateHypotheticalDocument函數(shù)(稍后會(huì)有詳細(xì)解釋)，基于用戶的搜索查詢生成一個(gè)假設(shè)的理想文檔。

假設(shè)文檔是HyDE方法的關(guān)鍵部分，因?yàn)樗荚谝员仍疾樵兏敿?xì)和更技術(shù)的方式捕獲用戶的搜索意圖。

const embeddingResponse = await openAi.createEmbedding({
  model: "text-embedding-ada-002",
  input: hypotheticalDocument,
});
const embedding = embeddingResponse.data.data[0].embedding;

這幾行使用OpenAI的text-embedding-ada-002模型為假設(shè)文檔生成嵌入向量。我認(rèn)為這是目前為止最好的嵌入選項(xiàng)。

嵌入是一種將文本表示為密集數(shù)字向量的方法，其中相似的文本有相似的向量。這便于我們執(zhí)行語義相似度搜索。

通過嵌入假設(shè)文檔而不是原始查詢，我們旨在獲得更好地捕獲擴(kuò)展搜索意圖的向量表示。接下來：

const { data: modelsData, error } = await supabase.rpc("search_models", {
  query_embedding: embedding,
  similarity_threshold: 0.75,
  match_count: 10,
});

這部分在模型數(shù)據(jù)庫中執(zhí)行實(shí)際的相似度搜索。它對(duì)Supabase數(shù)據(jù)庫調(diào)用遠(yuǎn)程過程(search_models)，將假設(shè)文檔的嵌入作為query_embedding傳入。

similarity_threshold和match_count這兩個(gè)參數(shù)控制結(jié)果需要匹配的程度和返回的數(shù)量。

搜索基于余弦相似度尋找與查詢嵌入最相似的模型嵌入。

現(xiàn)在不妨看看generateHypotheticalDocument函數(shù)：

const prompt = `The user entered the following search query: 
"${query}"

Please generate a detailed hypothetical document that would be highly relevant to answering this query. The document should use more technical language and expand on the key aspects of the query.

Hypothetical Document:`;

這部分構(gòu)建將發(fā)送給語言模型以生成假設(shè)文檔的提示。

提示包括用戶的原始查詢和指令，以便模型生成詳細(xì)的技術(shù)文檔，從而擴(kuò)展查詢的關(guān)鍵方面。構(gòu)建有效的提示對(duì)于指導(dǎo)語言模型生成實(shí)用的假設(shè)文檔至關(guān)重要。

現(xiàn)在是下一個(gè)部分：

const response = await openAi.createCompletion({
  model: "text-davinci-002",
  prompt: prompt,
  max_tokens: 200,
  n: 1,
  stop: null,
  temperature: 0.5,
});

這幾行使用OpenAI的text-davinci-002模型基于提示生成假設(shè)的文檔。

max_tokens參數(shù)限制所生成文檔的長(zhǎng)度，而temperature控制隨機(jī)性(較高的值使輸出更多樣化，但可能不那么集中)。調(diào)整這些參數(shù)有助于調(diào)整所生成文檔的質(zhì)量和多樣性。

接下來，我們有：

const hypotheticalDocument = response.data.choices[0].text.trim();

這一行從GPT-3 API響應(yīng)中提取所生成的假設(shè)文檔文本。然后返回所生成的文本，以便用在嵌入步驟中。

回顧：我們剛剛構(gòu)建了什么?

我希望代碼和我的解釋能夠演示如何在現(xiàn)有的語義搜索系統(tǒng)上實(shí)現(xiàn)HyDE方法。其實(shí)沒那么難!關(guān)鍵思想是這個(gè)：我們旨在通過將假設(shè)文檔生成和嵌入步驟插入到搜索管道中，借助更好地捕獲用戶的意圖來改進(jìn)搜索結(jié)果。

總結(jié)一下，幾個(gè)關(guān)鍵部分是：

使用語言模型將用戶的查詢擴(kuò)展為更詳細(xì)的技術(shù)性假設(shè)文檔。
嵌入假設(shè)文檔，以獲得與模型數(shù)據(jù)庫一致的向量表示。
在假設(shè)文檔嵌入和模型嵌入之間執(zhí)行相似度搜索，以找到最相關(guān)的結(jié)果。

當(dāng)然，這只是一種簡(jiǎn)化的實(shí)現(xiàn)，真正的實(shí)現(xiàn)中還有許多細(xì)節(jié)和優(yōu)化需要考慮。但它闡明了HyDE方法的核心流程和組成部分。

結(jié)束語

因?yàn)檫@只是一個(gè)初始原型，還有很多試驗(yàn)和改進(jìn)的余地。我在思考一些關(guān)鍵的開放性問題：

生成有用的假設(shè)文檔的最佳提示結(jié)構(gòu)和輸出長(zhǎng)度是什么?我想嘗試不同的提示模板和輸出大小，看看它們?nèi)绾斡绊懡Y(jié)果質(zhì)量。
如何使假設(shè)文檔對(duì)用戶更易于解釋、更透明?如果用戶不明白為什么添加某些術(shù)語，可能會(huì)備感困惑。我正考慮將所生成文本的一部分顯示為“查詢解釋”，以便更深入地揭示該過程。
結(jié)果質(zhì)量在多大程度上依賴所使用的特定LLM和嵌入模型?我很想對(duì)不同的模型組合進(jìn)行基準(zhǔn)測(cè)試(比如GPT-4 vs GPT-3和Contriever vs OpenAI嵌入等)，以找到最佳配方。
如何有效地?cái)U(kuò)展這種方法，以便處理數(shù)百萬個(gè)數(shù)據(jù)庫條目?在像GPT-3這樣的大型LLM上進(jìn)行推理昂貴又緩慢。我需要研究緩存、優(yōu)化或提煉模型，以便這種方法在大規(guī)模環(huán)境中切實(shí)可行。

我對(duì)語言模型的潛力感到興奮，可以幫助像AIModels這樣的搜索界面對(duì)更廣泛的受眾而言更直觀、更強(qiáng)大。彌合用戶如何自然表達(dá)需求和如何技術(shù)上描述AI模型之間的語義差距，是解決這個(gè)難題的一個(gè)重要環(huán)節(jié)。HyDE之類的技術(shù)為深刻理解用戶意圖，并滿足用戶需求的搜索體驗(yàn)指明了一條道路。

我的長(zhǎng)期目標(biāo)是不斷完善這個(gè)界面，直到任何人都可以輕松地找到符合他們需求的相關(guān)AI模型，無論他們的技術(shù)專業(yè)水平如何。無論您是想“把您的頭像變成Studio Ghibli插圖”、“由圖像生成3D模型”、“為虛擬助手創(chuàng)建文本到語音功能”，還是“找到最好的標(biāo)志設(shè)計(jì)AI”，我都希望AIModels是個(gè)不錯(cuò)的起點(diǎn)。

隨著我繼續(xù)試驗(yàn)HyDE及其他方法，會(huì)分享更多細(xì)節(jié)。如果您想進(jìn)一步了解技術(shù)方面，建議您查看原始論文。

原文標(biāo)題：How to improve your semantic search with hypothetical document embeddings，作者：Mike Young

鏈接：https://notes.aimodels.fyi/improving-ai-model-search-with-hypothetical-document-embeddings/。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

2500頁算法文檔泄露！搜索史上最強(qiáng)黑箱曝光，谷歌翻車再升級(jí)？

51CTO技術(shù)棧 ? 2741瀏覽 ? 0回復(fù)
如何將大型語言模型（LLM）轉(zhuǎn)換為嵌入模型

51CTO內(nèi)容精選 ? 2672瀏覽 ? 0回復(fù)
亞馬遜云創(chuàng)新「神經(jīng)稀疏檢索」：僅需要文本匹配就能實(shí)現(xiàn)語義搜索

輕薄滴假象 ? 2575瀏覽 ? 0回復(fù)
HippoRAG如何從大腦獲取線索以改進(jìn)LLM檢索

51CTO內(nèi)容精選 ? 2223瀏覽 ? 0回復(fù)
如何改進(jìn)Agents的推理與規(guī)劃?

ermulong ? 2081瀏覽 ? 0回復(fù)
改進(jìn)RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 2353瀏覽 ? 0回復(fù)
如何改進(jìn)RAG模型的性能？

51CTO內(nèi)容精選 ? 2217瀏覽 ? 0回復(fù)
借助LLM實(shí)現(xiàn)模型選擇和試驗(yàn)自動(dòng)化

51CTO內(nèi)容精選 ? 2053瀏覽 ? 0回復(fù)
ChatGPT Search：AI搜索引擎如何挑戰(zhàn)Google霸主地位？

Halo咯咯 ? 2925瀏覽 ? 0回復(fù)
如何借助Cortex運(yùn)行本地LLM

51CTO內(nèi)容精選 ? 1778瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1861瀏覽 ? 0回復(fù)
如何借助 kimiChat 創(chuàng)造好用的提示詞？一招教會(huì)你

wsp_ping ? 2014瀏覽 ? 0回復(fù)
大模型語義分析之嵌入(Embedding)模型

AI探索時(shí)代 ? 2760瀏覽 ? 0回復(fù)
ACL2024 ｜利用GPT4構(gòu)建的多Agent系統(tǒng)自動(dòng)發(fā)現(xiàn)科學(xué)假設(shè)

arnoldzhw ? 2151瀏覽 ? 0回復(fù)
使用語義模型和場(chǎng)景感知NLP的個(gè)性化搜索優(yōu)化以改進(jìn)搜索結(jié)果

51CTO內(nèi)容精選 ? 2599瀏覽 ? 0回復(fù)
文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 4292瀏覽 ? 0回復(fù)
深度解析理解 Transformer 中的3大位置嵌入：從絕對(duì)位置嵌入到旋轉(zhuǎn)位置嵌入

智駐未來 ? 2548瀏覽 ? 0回復(fù)
RAG 模型的“靈魂伴侶”：如何挑選最適合的嵌入方法？

Halo咯咯 ? 2028瀏覽 ? 0回復(fù)
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 735瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 12h前發(fā)布
MCP安全噩夢(mèng)終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：探索生成式人工智能的版權(quán)清算問題

下一篇：音樂人值得嘗試的十大文本轉(zhuǎn)音樂AI平臺(tái)

社區(qū)精華內(nèi)容

目錄