自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為何向量數(shù)據(jù)庫對LLM很重要?

譯文
數(shù)據(jù)庫 其他數(shù)據(jù)庫 人工智能
大語言模型(LLM)目前在人工智能界唱主角。有必要了解為何向量數(shù)據(jù)庫對LLM很重要。

譯者 | 布加迪

審校 | 重樓

當(dāng)瀏覽TwitterLinkedIn或新聞上的時間軸時,可能會看到一些關(guān)于聊天機(jī)器人、LLMGPT的內(nèi)容。因?yàn)槊恐芏加行碌?/span>LLM發(fā),很多人都在談?wù)?/span>LLM

我們目前置身于一場人工智能革命,許多新應(yīng)用都依賴于向量嵌入。不妨讓我們更多地了解向量數(shù)據(jù)庫以及為什么它們對LLM很重要。

向量數(shù)據(jù)庫的定義

不妨先定義向量嵌入(Vector Embedding)。向量嵌入是一種數(shù)據(jù)表示,它攜帶語義信息,幫助人工智能系統(tǒng)更好地理解數(shù)據(jù),并能夠保持長期記憶。對于任何想學(xué)的新東西,最重要的部分是理解并記住主題。

嵌入是由人工智能模型生成的,比如大量特征的LLM,這使得它們的表示難以管理。嵌入表示數(shù)據(jù)的不同維度,以幫助AI模型理解不同的關(guān)系、模式和隱藏結(jié)構(gòu)。

使用基于標(biāo)量的傳統(tǒng)數(shù)據(jù)庫的向量嵌入是一個挑戰(zhàn),因?yàn)樗?/span>無法處理或跟上數(shù)據(jù)的規(guī)模和復(fù)雜性。鑒于向量嵌入具有種種復(fù)雜性,不難想象它需要專門的數(shù)據(jù)庫。這時候向量數(shù)據(jù)庫就有了用武之地。

向量數(shù)據(jù)庫為向量嵌入的獨(dú)特結(jié)構(gòu)提供了經(jīng)過優(yōu)化的存儲和查詢功能。它們提供簡單的搜索、高性能、可擴(kuò)展性和數(shù)據(jù)檢索,這一切都是通過比較值和查找彼此之間的相似性來實(shí)現(xiàn)的。

是不是聽起來很棒有一種方法可以處理向量嵌入的復(fù)雜結(jié)構(gòu)。不過向量數(shù)據(jù)庫很難實(shí)現(xiàn)。

就在不久前,向量數(shù)據(jù)庫只被那些不僅有能力開發(fā)而且有能力管理的科技巨頭使用。向量數(shù)據(jù)庫成本高昂,因此確保它們經(jīng)過正確校準(zhǔn)對于提供高性能非常重要。

向量數(shù)據(jù)庫是如何工作的?

現(xiàn)在我們對向量嵌入向量數(shù)據(jù)庫有了一定的了解,不妨看看它是如何工作的。

不妨從一個處理ChatGPT等LLM的簡單示例開始。該模型有大量的數(shù)據(jù)和大量的內(nèi)容,它們?yōu)槲覀兲峁┝?/span>ChatGPT應(yīng)用程序。

不妨看看這些步驟。

1. 作為用戶,您將往該應(yīng)用程序輸入查詢。

2. 然后您的查詢插入到嵌入模型中,該模型基于我們想要索引的內(nèi)容創(chuàng)建向量嵌入。

3. 然后向量嵌入移動到向量數(shù)據(jù)庫中。

4. 向量數(shù)據(jù)庫生成輸出,并將其作為查詢結(jié)果發(fā)給用戶。

當(dāng)用戶繼續(xù)進(jìn)行查詢時,它將通過相同的嵌入模型來創(chuàng)建嵌入,以查詢該數(shù)據(jù)庫中類似的向量嵌入。向量嵌入之間的相似性基于創(chuàng)建嵌入的原始內(nèi)容。

想知道更多關(guān)于在向量數(shù)據(jù)庫中的工作原理嗎?不妨了解更多。

傳統(tǒng)數(shù)據(jù)庫以行和列的形式存儲字符串數(shù)字等內(nèi)容。從傳統(tǒng)數(shù)據(jù)庫查詢時,我們查詢的是與查詢匹配的行。然而,向量數(shù)據(jù)庫處理的是向量,而不是字符串等內(nèi)容。向量數(shù)據(jù)庫還運(yùn)用相似度度量指標(biāo),該指標(biāo)用于幫助找到與查詢最相似的向量。

向量數(shù)據(jù)庫由不同的算法組成,這些算法都有助于進(jìn)行近似最近鄰(ANN搜索。這是通過散列、基于圖的搜索或量化來完成的,它們被組裝管道中,以檢索所查詢向量的鄰居。

結(jié)果取決于它與查詢的接近程度,因此考慮的主要因素是準(zhǔn)確性和速度。如果查詢輸出慢,結(jié)果就比較準(zhǔn)確。

向量數(shù)據(jù)庫查詢要經(jīng)歷三個主要階段

1. 索引

如上例所述,一旦向量嵌入進(jìn)入到向量數(shù)據(jù),它就會使用各種算法將向量嵌入映射到數(shù)據(jù)結(jié)構(gòu),以便更快地進(jìn)行搜索。

2. 查詢

一旦完成了搜索,向量數(shù)據(jù)庫將查詢的向量與索引的向量進(jìn)行比較,并運(yùn)用相似性度量指標(biāo)來查找最鄰。

3. 后處理

根據(jù)您使用的向量數(shù)據(jù)庫,向量數(shù)據(jù)庫將對最后的最近鄰進(jìn)行后處理,以生成查詢的最終輸出另外還可能重新排列最近鄰,將來引用。

結(jié)語

隨著人工智能的不斷發(fā)展和新系統(tǒng)的每周發(fā)布,向量數(shù)據(jù)庫的發(fā)展起到了重要作用。向量數(shù)據(jù)庫使公司能夠更有效地與精確的相似度搜索進(jìn)行交互,為用戶提供更好更快的輸出。

所以下次ChatGPTGoogle Bard中輸入查詢時,想想它為的查詢輸出結(jié)果所經(jīng)歷的過程。

原文標(biāo)題:What are Vector Databases and Why Are They Important for LLMs?,作者:Nisha Arya


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2016-11-16 13:51:46

數(shù)據(jù)庫NoSQL大數(shù)據(jù)

2023-02-15 08:00:00

2020-09-08 12:48:19

數(shù)據(jù)分析圖表互聯(lián)網(wǎng)

2013-11-13 10:24:53

Xbox微軟

2019-10-08 15:54:42

SQL數(shù)據(jù)庫技術(shù)

2023-05-04 17:24:37

數(shù)據(jù)安全數(shù)據(jù)庫

2012-11-21 16:15:00

數(shù)據(jù)中心總體擁有成本選址

2023-11-27 00:58:00

數(shù)據(jù)庫AI

2022-05-16 14:33:52

區(qū)塊鏈數(shù)據(jù)共享安全

2015-10-19 17:57:33

容器OpenStack微服務(wù)

2011-06-22 16:58:10

數(shù)據(jù)庫命名

2022-01-06 22:05:35

Linux物聯(lián)網(wǎng)容器

2024-08-12 17:05:21

2016-10-19 14:15:45

2022-11-06 17:48:39

Linux系統(tǒng)命令

2023-09-18 16:46:07

2021-01-28 23:35:37

Python開發(fā)數(shù)據(jù)

2022-03-12 10:00:49

零信任數(shù)據(jù)安全

2018-11-28 09:00:00

人工智能AI敵對式AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號