自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么搜索的未來是向量?

原創(chuàng) 精選
開發(fā) 前端
盡管樣本數(shù)據(jù)集中沒有“這個字段應(yīng)該使用什么數(shù)據(jù)類型?”的確切單詞,但向量搜索識別出查詢的上下文和語義與“Your text string goes here.”相似。

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

如果用戶在一個網(wǎng)站上遭遇糟糕的體驗,近90%的用戶將不會再次訪問該網(wǎng)站。請花點時間理解這一驚人的統(tǒng)計數(shù)據(jù)。傳統(tǒng)的網(wǎng)站可靠性工程師主要關(guān)注“五個9”,即確保網(wǎng)站99.999%的時間都能正常運行和訪問。然而,這只是確保用戶獲得良好體驗的一部分。

還有什么其他因素會導(dǎo)致用戶點擊離開網(wǎng)站并且永遠(yuǎn)不再回來呢?無法找到他們正在尋找的內(nèi)容。

搜索某物卻無法快速有效地找到它,可能是用戶最失望的體驗之一。你希望創(chuàng)建一個這種情況很少發(fā)生的網(wǎng)站。然而,用戶使這變得非常困難。很多時候,他們不知道自己確切在尋找什么。他們心中有一個模糊的需求圖像,但缺乏精確的描述詞,他們的搜索最終只能用像“用于擰緊螺絲的工具”這樣的關(guān)鍵詞來提交。如果由人類來回答這個搜索請求,他會返回一套螺絲刀索引。那你的基于關(guān)鍵詞的搜索會返回什么呢?

  • 關(guān)于擰緊技巧的文章。
  • 關(guān)于不同類型螺絲的博客文章。
  • 與螺絲刀無關(guān)的工具。
  • 這種例子每天都會發(fā)生,而且一天要發(fā)生無數(shù)次。

面對這個困境,我們需要一種新的資源來改善用戶體驗,即使在用戶自身缺乏清晰性時也能提供清晰性。向量搜索提供了傳統(tǒng)關(guān)鍵詞搜索無法單獨實現(xiàn)的可能性。

1.向量搜索的工作原理

向量搜索利用先進(jìn)的機器學(xué)習(xí)模型將文本數(shù)據(jù)轉(zhuǎn)化為高維向量,捕捉單詞和短語之間的語義關(guān)系。與依賴精確匹配的傳統(tǒng)基于關(guān)鍵詞的搜索不同,向量搜索理解查詢背后的上下文和含義,從而能夠檢索出更相關(guān)的結(jié)果。通過將查詢和文檔映射到相同的向量空間,它測量它們的相似度,即使用戶的輸入不精確或模糊,也能實現(xiàn)精確和直觀的搜索體驗。這種方法大大提高了搜索結(jié)果的準(zhǔn)確性和相關(guān)性,使其成為現(xiàn)代信息檢索系統(tǒng)的強大工具。

換句話說,當(dāng)用戶在由向量搜索支持的搜索功能中搜索“用于擰緊螺絲的工具”時,系統(tǒng)不僅查找包含這些確切單詞的文檔。相反,它解釋查詢背后的含義,并識別包含“螺絲刀”及相關(guān)術(shù)語的相關(guān)文檔。

2.搜索的未來是向量

通過理解上下文和語義,向量搜索能夠提供與用戶意圖高度相關(guān)的結(jié)果,即使查詢中沒有精確的關(guān)鍵詞。這種能力使向量搜索成為改善用戶體驗的寶貴工具,通過提供精確和準(zhǔn)確的搜索結(jié)果來響應(yīng)不精確或描述性的查詢。

這里有一個簡單的向量搜索的例子。

大家都知道,將數(shù)據(jù)轉(zhuǎn)化為向量涉及嵌入過程,其中文本數(shù)據(jù)被轉(zhuǎn)換為高維空間中的數(shù)值表示。在這個上下文中,向量是一個數(shù)學(xué)實體,通過將單詞和短語表示為多維空間中的點來捕捉它們的語義含義。通過將單詞嵌入到向量中,模型可以根據(jù)它們在大型數(shù)據(jù)集中的上下文和用法來測量不同術(shù)語之間的相似性。這種轉(zhuǎn)換允許更細(xì)致和上下文感知的搜索功能,為信息檢索和人工智能的進(jìn)步鋪平了道路。

為了提供一個相對簡單的示例,假設(shè)搜索功能所基于的數(shù)據(jù)集僅是一個字符串,由“Your text string goes here.”組成。這個字符串將被轉(zhuǎn)換為字符串中單詞的數(shù)值表示的向量。嵌入將包括如下值:

-0.006929283495992422

-0.005336422007530928

-4.547132266452536e-05

-0.024047505110502243

這些向量表示單詞的語義含義,并允許搜索功能根據(jù)上下文而不是僅基于精確的關(guān)鍵詞匹配來理解和檢索相關(guān)信息。

當(dāng)用戶在這個簡化的數(shù)據(jù)集上搜索類似“這個字段應(yīng)該使用什么數(shù)據(jù)類型?”的短語時,搜索引擎會將查詢轉(zhuǎn)換為向量表示。然后,它將這個查詢向量與數(shù)據(jù)集的向量進(jìn)行比較。

盡管樣本數(shù)據(jù)集中沒有“這個字段應(yīng)該使用什么數(shù)據(jù)類型?”的確切單詞,但向量搜索識別出查詢的上下文和語義與“Your text string goes here.”相似。

因此,搜索引擎可以根據(jù)向量的相似性返回最相關(guān)的結(jié)果。這有效地將不確定和不清晰的用戶查詢轉(zhuǎn)化為更具確定性和清晰度的結(jié)果。

參考鏈接:https://thenewstack.io/the-future-of-search-is-vector/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-11-20 22:26:51

Go開發(fā)

2020-07-03 14:05:26

Serverless云服務(wù)商

2021-11-29 18:27:12

Web Wasmjs

2013-05-17 09:40:11

2023-09-26 10:33:20

數(shù)據(jù)中心游戲行業(yè)

2020-10-26 15:15:53

物聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2017-12-27 14:41:57

融合云計算服務(wù)器

2023-05-04 07:44:13

編程界小語言Java

2022-10-13 14:14:58

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)

2022-10-18 16:23:10

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)制造業(yè)

2023-04-09 16:27:23

工業(yè)物聯(lián)網(wǎng)制造業(yè)

2023-10-18 13:33:50

工業(yè)物聯(lián)網(wǎng)

2023-03-21 10:16:36

2022-05-13 09:49:05

區(qū)塊鏈互聯(lián)網(wǎng)模型

2023-09-25 15:24:30

數(shù)據(jù)中心

2022-11-09 14:58:29

智能建筑綠色建筑BIM

2020-02-12 21:46:05

物聯(lián)網(wǎng)BIMIOT

2017-12-13 12:44:07

人工智能技術(shù)AI

2021-09-30 10:50:11

云計算公有云微軟

2019-08-27 16:48:07

云原生云計算微服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號