自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="dxa6a"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型檢索增強生成之向量數(shù)據(jù)庫的問題

作者：DFires 2024-12-23 11:31:05

現(xiàn)如今向量數(shù)據(jù)庫主要應(yīng)用于與人工智能特別是大模型相關(guān)的技術(shù)領(lǐng)域，比如RAG技術(shù)，就是嚴重依賴于向量數(shù)據(jù)庫。當然，向量數(shù)據(jù)庫的應(yīng)用場景遠不止RAG一家，比如還有推薦系統(tǒng)，圖像識別等多種不同的領(lǐng)域。??????????????????????????

作為技術(shù)人員我想大家或多或少應(yīng)該都接觸過數(shù)據(jù)庫技術(shù)，數(shù)據(jù)庫技術(shù)的歷史可以說是由來已久了；但數(shù)據(jù)庫的發(fā)展也是一路曲折，特別是隨著互聯(lián)網(wǎng)體量的快速增加，對數(shù)據(jù)庫的要求也變得越來越多。

而且為了適應(yīng)各種不同的業(yè)務(wù)場景，數(shù)據(jù)庫系統(tǒng)也是緊跟潮流發(fā)展出多種類型的數(shù)據(jù)庫；比如說傳統(tǒng)的關(guān)系型數(shù)據(jù)庫，緩存數(shù)據(jù)庫，以及大數(shù)據(jù)處理的數(shù)據(jù)庫；直到今天的向量數(shù)據(jù)庫。

關(guān)系型和緩存數(shù)據(jù)庫就不用說了，今天我們就來聊聊向量數(shù)據(jù)庫系統(tǒng)。

向量數(shù)據(jù)庫

向量數(shù)據(jù)庫，顧名思義就是以向量結(jié)構(gòu)為主體的數(shù)據(jù)庫；同樣具備傳統(tǒng)數(shù)據(jù)庫的CRUD等功能。

但是，因為是以向量為主，而不是以傳統(tǒng)的字符匹配為主；因此，向量數(shù)據(jù)庫在使用的過程中就面臨著很多之前沒遇到的問題。

現(xiàn)如今向量數(shù)據(jù)庫主要應(yīng)用于與人工智能特別是大模型相關(guān)的技術(shù)領(lǐng)域，比如RAG技術(shù)，就是嚴重依賴于向量數(shù)據(jù)庫。當然，向量數(shù)據(jù)庫的應(yīng)用場景遠不止RAG一家，比如還有推薦系統(tǒng)，圖像識別等多種不同的領(lǐng)域。

向量數(shù)據(jù)庫相對于傳統(tǒng)數(shù)據(jù)庫的優(yōu)點在于，其可以通過對不同模態(tài)數(shù)據(jù)的向量化，計算數(shù)據(jù)之間的向量關(guān)系，以此來描述不同數(shù)據(jù)之間的“語義”相關(guān)性。

也就是說，向量數(shù)據(jù)庫主要描述的不是字符之間的確定關(guān)系，而是從語義的角度來描述數(shù)據(jù)關(guān)系。而計算這種關(guān)系的算法叫做相似度計算，具體的有歐式距離，余弦相似度等算法。

圖片

因此，向量數(shù)據(jù)庫有兩個重點，一個是數(shù)據(jù)向量化；二是向量相似度計算。在大模型技術(shù)領(lǐng)域，數(shù)據(jù)向量化也叫做嵌入，需要使用專門的嵌入模型對數(shù)據(jù)進行向量化處理。

對向量數(shù)據(jù)庫來說，數(shù)據(jù)向量化解決的是數(shù)據(jù)從那來的問題，而向量相似度計算解決的是相似度搜索問題，也就是數(shù)據(jù)該怎么使用的問題。

數(shù)據(jù)向量化，也就是嵌入模型需要加載數(shù)據(jù)，并對數(shù)據(jù)進行切分，分詞等操作；最后再進行向量化處理，也就是把不同模態(tài)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化成向量的格式。

至于相似度搜索問題，就是把你需要搜索的數(shù)據(jù)同樣轉(zhuǎn)化為向量格式，然后向量數(shù)據(jù)庫引擎，把你的搜索向量與數(shù)據(jù)庫中存在的向量進行匹配，這個就是相似度計算，也就做度量計算；比如歐式距離，余弦相似度，內(nèi)積等。最后計算得到的結(jié)果就是搜索結(jié)果。

向量數(shù)據(jù)庫的搜索問題與傳統(tǒng)數(shù)據(jù)庫的查詢沒有本質(zhì)上的不同，區(qū)別就是傳統(tǒng)數(shù)據(jù)庫使用的是字符匹配的方式；而向量數(shù)據(jù)庫使用的是相似度計算的方式。

但這里有一個問題就是，由于向量相似度需要大量的運算才能獲得結(jié)果；因此，在面對大量向量數(shù)據(jù)時，搜索性能與搜索結(jié)果的準確性就需要做一個權(quán)衡。

還有一點就是，不同于傳統(tǒng)的字符匹配的方式，一就是一，二就是二；向量相似度搜索是基于相似度計算得到的相似值；而不是絕對值，因此就存在搜索結(jié)果的不確定性。

比如說，在具體的實踐過程中，在一個向量化的四大名著之西游記的向量數(shù)據(jù)庫中；輸入林黛玉進行檢索竟然可以檢索到相似數(shù)據(jù)；而這在具體的應(yīng)用場景中是不可接受的。

圖片

之所以能在西游記中搜索到與林黛玉有關(guān)的內(nèi)容，原因就在于這個相似度計算；因為林黛玉是女的，西游記中也是女的；可能西游記和紅樓夢中部分關(guān)于女性的描述，在向量層面是相似的，也就是相似度計算的值比較接近，最終才導(dǎo)致這種結(jié)果。

這就是向量相似度搜索的不確定性，但又很難完全避免；畢竟前面也說了，效率與準確率總要犧牲一個。

所以，基于向量數(shù)據(jù)庫的檢索結(jié)果，還需要在結(jié)果出來之后做一層到多層到數(shù)據(jù)篩選，才有可能完全獲取想要的結(jié)果。

責(zé)任編輯：武曉燕來源： AI探索時代

大模型檢索人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="3x8xd"></ruby>

<cite id="3x8xd"></cite>

<sub id="3x8xd"><p id="3x8xd"></p></sub>