自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="ywfah"></thead><sub id="ywfah"><rt id="ywfah"></rt></sub>

<p id="ywfah"></p>

^{<sub id="ywfah"></sub>}

<sub id="ywfah"><p id="ywfah"></p></sub>

<sub id="ywfah"><i id="ywfah"></i></sub>

<style id="ywfah"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

ChatGPT盛行的當(dāng)下，向量數(shù)據(jù)庫為大模型配備了一個(gè)超級(jí)大腦

作者：機(jī)器之心 2023-07-25 13:47:27

人工智能新聞

這就是 Vector Data Base (VectorDB，向量數(shù)據(jù)庫)，它就像一個(gè)超級(jí)大腦，幫助你解決這些問題！

你是否有過這樣的經(jīng)歷：你在網(wǎng)上看到一張壁紙，畫面中的雪山和湖泊令人心馳神往，你想知道這是哪個(gè)國家的美景，卻不知道如何搜索；或者，在閱讀一篇文章時(shí)，你想深入了解這個(gè)話題，尋找更多的觀點(diǎn)和資料，卻不知道該如何精確描述；又或者，當(dāng)你在聆聽一首歌曲時(shí)，你想尋找更多同樣風(fēng)格或情感的歌曲，卻不知道如何分類。這時(shí)，你需要的是一個(gè)能夠理解你的意圖，為你提供最相關(guān)的結(jié)果，讓你輕松找到你想要的信息的工具。

這就是 Vector Data Base (VectorDB，向量數(shù)據(jù)庫)，它就像一個(gè)超級(jí)大腦，幫助你解決這些問題！

Vector DB 的用途遠(yuǎn)不止于此，它還能夠幫助像 ChatGPT 這樣的智能系統(tǒng)，從海量的數(shù)據(jù)中快速檢索出最合適的答案，提高它們的準(zhǔn)確性和效率。在當(dāng)前大家普遍面臨算力不足，難以對(duì)大語言模型進(jìn)行微調(diào)的情況下，為大語言模型配備一個(gè)知識(shí)庫（超級(jí)大腦）就顯得尤為重要。這就像給大語言模型提供了一份小抄，使其能夠更好地服務(wù)于我們。

Vector 是什么 —— 計(jì)算機(jī)理解世界的起點(diǎn)

在我們深入了解 Vector DB 之前，讓我們先來簡單理解（或回顧）一下什么是 Vector，其實(shí)它也就是我們?cè)诟咧袛?shù)學(xué)或者大學(xué)數(shù)學(xué)里學(xué)到的向量，只不過維度比當(dāng)時(shí)的直角坐標(biāo)系里的二維多一點(diǎn)而已（或許多到了 512 維）。在許多學(xué)術(shù)論文中，你可能更熟悉它的另一個(gè)名字 —— 嵌入（Embedding）。為了實(shí)現(xiàn)我們前面提到的超級(jí)大腦，我們首先需要讓這個(gè)大腦理解各種信息，而這就是嵌入的作用。

你可能會(huì)問，什么是嵌入呢？想象一下，你正在看一部電影，你的大腦會(huì)自動(dòng)將電影中的人物、情節(jié)、對(duì)話等信息轉(zhuǎn)化為你可以理解的形式。這就是一種嵌入的過程。很奇妙對(duì)吧，大腦就這么理解他們了。同樣，我們也可以讓計(jì)算機(jī)做類似的事情，將各種類型的數(shù)據(jù)轉(zhuǎn)化為它可以理解的形式，而計(jì)算機(jī)接受的也就是數(shù)字，也就是向量?；仡櫼幌赂咧袛?shù)學(xué)就好了，二維向量可以表征一個(gè)直角坐標(biāo)系里的每個(gè)點(diǎn)，也就表征了這個(gè)直角坐標(biāo)系里的所有信息了。那如果我們把維度無限拉大，他就可以表征無限多的信息。你可能在一些科幻電影中看到過，說高等生物可能不會(huì)像我們一樣以三維的肉體存在，他們可能存在于更高的維度。比如時(shí)間就是第四維，跳脫之后就變成了四維生物。這其實(shí)就說明了為什么嵌入可以更好的理解這個(gè)世界，因?yàn)?strong>三維只能容納我們的肉體，而高維的世界，才存在著我們的靈魂。

理解了為什么一串?dāng)?shù)字可以幫助計(jì)算機(jī)理解世界之后，你可能會(huì)考慮到下一步更實(shí)際的問題，如何將數(shù)據(jù)轉(zhuǎn)換為向量呢？這就要靠我們?cè)?AI 界做出的進(jìn)步了，我們研究出了很多模型，可以將任意類型的數(shù)據(jù)映射到一個(gè)高維空間中，生成一個(gè)向量，這個(gè)向量就是數(shù)據(jù)的嵌入表示。

嵌入方法有很多種，例如文本嵌入（text embedding），可以將文字轉(zhuǎn)換為向量；圖像嵌入（image embedding），可以將圖片轉(zhuǎn)換為向量；音頻嵌入（audio embedding），可以將聲音轉(zhuǎn)換為向量；視頻嵌入（video embedding），可以將視頻轉(zhuǎn)換為向量；甚至還有多模態(tài)嵌入（multimodal embedding），可以將不同類型的數(shù)據(jù)轉(zhuǎn)換為同一個(gè)空間中的向量，比如一個(gè)電影包含聲音和畫面，那如果要更全面的表征這個(gè)電影，我們就需要結(jié)合音頻嵌入和視頻嵌入，也就是多模態(tài)嵌入了。圖 1 展示了幾組文本嵌入的情況，一個(gè)最簡單的例子就是 king - man + woman = queen，簡單的小學(xué)加減法。

圖 1. 三維情況下的向量圖解。

有了嵌入方法，我們就可以將各種數(shù)據(jù)轉(zhuǎn)換為向量，并存儲(chǔ)在 Vector DB 中。當(dāng)我們想要搜索某種數(shù)據(jù)時(shí)，我們只需要提供一個(gè)查詢向量，這個(gè)查詢向量可以是同類型或不同類型的數(shù)據(jù)，只要它能夠表示我們想要找到的信息或標(biāo)準(zhǔn)。然后，Vector DB 會(huì)使用一種相似度度量（similarity measure），來計(jì)算查詢向量和存儲(chǔ)向量之間的距離或相似度，并返回最相似或最相關(guān)的向量列表。我們就可以從這個(gè)列表中找到我們想要的數(shù)據(jù)，或者進(jìn)一步縮小范圍。當(dāng)然，向量檢索近年來的火熱與大模型能力的提升是密切相關(guān)的。大模型通常能更好地理解和生成更高維度、更復(fù)雜的數(shù)據(jù)表示，這為向量檢索提供了更精確、更豐富的語義信息。反之，向量檢索也能為大模型提供信息的補(bǔ)充和長上下文的處理能力，從而進(jìn)一步提高模型的性能。此外，向量檢索在大模型的訓(xùn)練和應(yīng)用中起著關(guān)鍵作用。雖然向量數(shù)據(jù)庫不是進(jìn)行向量檢索的唯一方式，但它確實(shí)是所有方式中最高效、最便利的一種。

在后續(xù)的文章中，我們將進(jìn)一步探討為什么向量數(shù)據(jù)庫在構(gòu)建未來 AI 系統(tǒng)時(shí)是必不可少的關(guān)鍵環(huán)節(jié)。

Vector DB 是什么 —— 一瓶數(shù)據(jù)庫專有的智慧藥水

在我們了解了 VectorDB 里存的是什么之后，再結(jié)合我們引言里的介紹，VectorDB 的真容也就呼之欲出了 —— 它是一種新型的數(shù)據(jù)庫，它新在它存的是 Embeddings（嵌入）。這個(gè)新并不是為了新而新，從傳統(tǒng)的直接存儲(chǔ)內(nèi)容轉(zhuǎn)到存儲(chǔ)向量，就像是給數(shù)據(jù)庫喝了瓶智慧藥水，讓它變得更聰明，更強(qiáng)大。

Vector DB 就像是一個(gè)超級(jí)偵探，它可以讓你根據(jù)內(nèi)容或意思來搜索數(shù)據(jù)，而不是根據(jù)標(biāo)簽或關(guān)鍵詞來搜索數(shù)據(jù)。這就好像你在一個(gè)無序的圖書館里找書，不需要知道書的 ISBN 號(hào)，只要告訴 Vector DB 你想要的書的內(nèi)容，它就能幫你找到。
Vector DB 還可以是一個(gè)超級(jí)翻譯機(jī)，它可以讓你用一種類型的數(shù)據(jù)來搜索另一種類型的數(shù)據(jù)。這就好像你只知道一首歌的旋律，但不知道歌名，Vector DB 就能幫你找到這首歌的信息。
Vector DB 也可以被理解為一個(gè)超級(jí)搜索引擎，它可以讓你在海量和復(fù)雜的數(shù)據(jù)中進(jìn)行快速和準(zhǔn)確地搜索。這就好像你在一個(gè)巨大的迷宮里，Vector DB 就是你的導(dǎo)航，幫你快速找到出口。

如最開始所說，VectorDB 不僅有以上這些好處，還有一個(gè)非常重要且熱門的應(yīng)用場景，那就是與 LLM 結(jié)合。LLM 是指大型語言模型（Large Language Models），它們就像是一個(gè)超級(jí)作家，可以生成自然語言文本，或者理解和回答自然語言問題。但是，LLM 也有一些挑戰(zhàn)，例如缺乏領(lǐng)域知識(shí)，缺乏長期記憶，缺乏事實(shí)一致性等。

為了解決這些挑戰(zhàn)，Vector DB 就像是給 LLM 提供了一本百科全書，讓 LLM 可以根據(jù)用戶的查詢，在 Vector DB 中檢索相關(guān)的數(shù)據(jù)，并根據(jù)數(shù)據(jù)的內(nèi)容和語義來更新上下文，從而生成更相關(guān)和準(zhǔn)確的文本。這樣，LLM 就可以擁有一個(gè)長期記憶，可以隨時(shí)獲取最新和最全面的信息，也可以保持事實(shí)一致性和邏輯連貫性。

Vector DB 和 LLM 的結(jié)合有很多具體的例子，假設(shè)你正在使用一個(gè)基于 LLM 的聊天機(jī)器人，你問它：“最近有什么好看的電影嗎？”ChatGPT 本身只能回答他數(shù)據(jù)集里包含的信息（2021 年之前），而有了外接知識(shí)庫，機(jī)器人可以在 Vector DB 中搜索最近的電影評(píng)價(jià)向量，并返回一些高評(píng)價(jià)的電影。就像你問你的朋友推薦電影，他會(huì)根據(jù)他的記憶和你的口味給你推薦。

ChatGPT 本身像是一個(gè)耄耋老人，信息還停留在他年輕的時(shí)候，而加入了外界知識(shí)庫的 ChatGPT，搖身一變變成了你的同齡人朋友，你們都緊跟時(shí)事，只需要隨時(shí)去刷刷社交平臺(tái)（更新知識(shí)庫）就好了。

舉個(gè)例子，[1] 想要讓 ChatGPT 擁有 Numpy 的背景知識(shí)（如何做各種運(yùn)算，比如求中位數(shù)、平均值等），但是它的文檔有 20 多頁，顯然是不能直接作為知識(shí)輸入給 ChatGPT 的（長度太長），然而，建立一個(gè)可以簡單查詢的 vectorDB 只需要以下幾行代碼。

然后，如果你想問這個(gè)文檔里的問題，所需的代碼依然很簡單：

最后，就會(huì)得到這個(gè)結(jié)果：

看到了吧，在現(xiàn)有大語言模型的理解能力下，我們已經(jīng)不需要 fine-tune 了，只需要外接一個(gè)知識(shí)庫，就能很快地得到最新的知識(shí)。

簡單，好用。

Vector DB 的發(fā)展歷程 —— 好萊塢英雄成長史

Vector DB 的故事就像一部好萊塢大片中的勵(lì)志英雄，從默默無聞到大放異彩。它的起源可以追溯到生物技術(shù)和基因研究領(lǐng)域的興起。在 20 世紀(jì) 70 年代末，DNA 測序作為一個(gè)新興的研究領(lǐng)域開始引起人們的關(guān)注。為了存儲(chǔ)大量的 DNA 鏈數(shù)據(jù)，科學(xué)家們需要一種新的方法，這種方法需要能夠處理高維向量。這就是 Vector DB 的誕生，它是一種可以將任何類型的數(shù)據(jù)轉(zhuǎn)化為向量的數(shù)據(jù)庫，能夠計(jì)算數(shù)據(jù)之間的相似度，從而實(shí)現(xiàn)數(shù)據(jù)的分類、聚類和檢索等功能。

然而，這個(gè)時(shí)期的 Vector DB 還相當(dāng)初級(jí)，它只能處理文本數(shù)據(jù)，無法處理圖像、音頻、視頻等其他類型的數(shù)據(jù)；它只能計(jì)算數(shù)據(jù)的表面相似度，無法計(jì)算數(shù)據(jù)的深層相似度；它只能處理靜態(tài)的數(shù)據(jù)，無法處理動(dòng)態(tài)的數(shù)據(jù)。盡管如此，它已經(jīng)展現(xiàn)出了其獨(dú)特的潛力和魅力。

在 Vector DB 出現(xiàn)之前，大家普遍使用的是關(guān)系型數(shù)據(jù)庫，如 MySQL、Oracle 等，這些數(shù)據(jù)庫以表格的形式存儲(chǔ)數(shù)據(jù)，適合存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)，但對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，如文本、圖像、音頻等，處理起來就相對(duì)困難。而且，關(guān)系型數(shù)據(jù)庫在處理大規(guī)模數(shù)據(jù)時(shí)，性能會(huì)下降，不適合大數(shù)據(jù)處理。這就像是在一個(gè)擁擠的圖書館里找一本書，你知道它在哪個(gè)書架上，但是找到它還需要花費(fèi)大量的時(shí)間。但是在當(dāng)時(shí)，這已經(jīng)足夠了。

隨著時(shí)間的推移，我們看到 Vector DB 在不同的領(lǐng)域和應(yīng)用中不斷成長和進(jìn)化。從 20 世紀(jì) 90 年代末到 2000 年初，美國國立衛(wèi)生研究院和斯坦福大學(xué)都開始使用 Vector DB，他們利用 Vector DB 進(jìn)行了一系列的基因研究，發(fā)表了多篇高質(zhì)量的論文 [2]。隨著 2005 年到 2015 年間基因研究的深入和加速，Vector DB 也在并行中增長，像 UniVec 數(shù)據(jù)庫這樣的工具在 2017 年就已經(jīng)被廣泛使用 [5]，它們?cè)诨蛐蛄斜葘?duì)、基因組注釋等領(lǐng)域發(fā)揮了重要作用 [3，4]。

此時(shí)，隨著數(shù)據(jù)類型和規(guī)模的多樣化，關(guān)系型數(shù)據(jù)庫的局限性也逐漸暴露出來。首先，關(guān)系型數(shù)據(jù)庫主要適用于結(jié)構(gòu)化數(shù)據(jù)，對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，如文本、圖像、音頻等，處理起來就相對(duì)困難。其次，關(guān)系型數(shù)據(jù)庫在處理大規(guī)模數(shù)據(jù)時(shí)，性能會(huì)下降，不適合大數(shù)據(jù)處理。最后，關(guān)系型數(shù)據(jù)庫的查詢語言（如 SQL）雖然強(qiáng)大，但對(duì)于復(fù)雜的查詢和分析任務(wù)，可能需要編寫復(fù)雜的 SQL 語句，這對(duì)于非專業(yè)的用戶來說，可能是一個(gè)挑戰(zhàn)。

在 2017 年和 2019 年之間，我們見證了 Vector DB 的爆炸式增長，它開始被應(yīng)用于自然語言處理、計(jì)算機(jī)視覺、推薦系統(tǒng)等領(lǐng)域。這些領(lǐng)域都需要處理大量和多樣化的數(shù)據(jù)，并從中提取有價(jià)值的信息。Vector DB 通過使用諸如余弦相似度、歐氏距離、Jaccard 相似度等度量方法 [6]，以及諸如倒排索引、局部敏感哈希、乘積量化等索引技術(shù) [18]，實(shí)現(xiàn)了高效和準(zhǔn)確的向量檢索。大家大多應(yīng)該聽說過或者用過推薦系統(tǒng)、以圖搜圖 (淘寶的用圖搜產(chǎn)品)、哼唱搜歌、問答機(jī)器人等等，這些的內(nèi)核都是 Vector DB。

就在我們以為故事已經(jīng)到達(dá)高潮的時(shí)候，Vector DB 又給我們帶來了一個(gè)驚喜。在今年，Vector DB 開始被用于與大語言模型結(jié)合的應(yīng)用。它為大語言模型提供了一個(gè)外部知識(shí)庫，使得大語言模型可以根據(jù)用戶的查詢，在 Vector DB 中檢索相關(guān)的數(shù)據(jù)，并根據(jù)數(shù)據(jù)的內(nèi)容和語義來更新上下文，從而生成更相關(guān)和準(zhǔn)確的文本。這些大語言模型通常使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本數(shù)據(jù)中隱含的規(guī)律和結(jié)構(gòu)，并能夠生成流暢和連貫的文本。Vector DB 通過使用諸如 BERT、GPT 等預(yù)訓(xùn)練模型將文本轉(zhuǎn)換為向量，并使用諸如 FAISS、Milvus 等開源平臺(tái)來構(gòu)建和管理向量數(shù)據(jù)庫。

Vector DB 成功地解決了很多挑戰(zhàn)，并為人們帶來了很多價(jià)值。它采用了一種新的數(shù)據(jù)結(jié)構(gòu)和算法，可以有效地存儲(chǔ)和檢索向量，可以保證檢索的準(zhǔn)確性和效率，可以處理大規(guī)模和復(fù)雜的數(shù)據(jù)。它還可以與其他工具和平臺(tái)結(jié)合，提供更多功能和服務(wù)。它已經(jīng)成為了一個(gè)不可或缺的工具，為人們提供了更好的信息獲取和交流體驗(yàn)。它不僅打敗了其他 DB，還贏得了用戶的心。

然而，這部大片依然未完待續(xù)，Vector DB 仍有改進(jìn)的空間。例如，它在處理大規(guī)模數(shù)據(jù)時(shí)，可能會(huì)面臨存儲(chǔ)和計(jì)算資源的挑戰(zhàn)，這就像是在一個(gè)無底的大海中尋找一顆珍珠；在處理復(fù)雜的查詢時(shí)，可能會(huì)面臨性能和準(zhǔn)確性的挑戰(zhàn)，這就像是在一個(gè)復(fù)雜的迷宮中尋找出口；在處理動(dòng)態(tài)的數(shù)據(jù)時(shí)，可能會(huì)面臨數(shù)據(jù)更新和同步的挑戰(zhàn)，這就像是在一個(gè)不斷變化的沙漠中尋找一個(gè)固定的地標(biāo)。

然而，我們有理由相信，隨著技術(shù)的不斷發(fā)展和進(jìn)步，Vector DB 將會(huì)越來越強(qiáng)大，越來越完善，為我們的生活帶來更多的便利和價(jià)值。就像我們的勵(lì)志英雄，無論面臨多大的困難和挑戰(zhàn)，都會(huì)不斷地前進(jìn)，不斷地成長，最終實(shí)現(xiàn)自己的目標(biāo)。這部大片還沒有結(jié)束，Vector DB 依然在刻苦努力著，保持著這來之不易的成功。

在介紹 Vector DB 近期做出的努力之前，不得不說的是，Vector DB 和關(guān)系型數(shù)據(jù)庫是各有優(yōu)勢(shì)的，選擇哪種數(shù)據(jù)庫取決于具體的應(yīng)用需求。如果你需要處理的是結(jié)構(gòu)化數(shù)據(jù)，并且數(shù)據(jù)規(guī)模不大，那么關(guān)系型數(shù)據(jù)庫可能是一個(gè)好選擇。但如果你需要處理的是非結(jié)構(gòu)化數(shù)據(jù)，或者需要處理大規(guī)模的數(shù)據(jù)，那么 Vector DB 可能是一個(gè)更好的選擇。

Vector DB 的技術(shù)內(nèi)核 —— 超級(jí)英雄的武器

為了更加了解我們的超級(jí)英雄，我們先從超級(jí)英雄的日常生活開始。想象一下，你是一個(gè)超級(jí)英雄，你的任務(wù)是理解和處理海量的信息。你的工具是一種叫做 Vector DB 的新型數(shù)據(jù)庫，它可以存儲(chǔ)和處理嵌入向量 (Embeddings)。Sounds cool， right? 但是，這并不是一件輕松的事情。你需要處理的問題包括如何將數(shù)據(jù)轉(zhuǎn)化為向量 (向量嵌入)，如何度量向量之間的相似性 (相似度度量)，如何索引和檢索向量 (向量索引和檢索)，以及如何壓縮向量以節(jié)省存儲(chǔ)空間 (向量壓縮)。這些都是 Vector DB 的核心技術(shù)，也是你作為超級(jí)大腦的主要煩惱。

那讓我們來一起探索 Vector DB 的技術(shù)內(nèi)核，看看這個(gè)超級(jí)英雄每天是如何工作的。讓我們用一個(gè)例子來更方便的理解這些步驟。假設(shè)作為超級(jí)英雄，你的任務(wù)是管理一個(gè)巨大的圖書館。這個(gè)圖書館有各種各樣的書，包括小說、詩歌、科學(xué)論文、歷史書籍等等。你的目標(biāo)是讓讀者能夠快速準(zhǔn)確地找到他們想要的書。

首先，你需要將每本書轉(zhuǎn)化為一個(gè)向量。這就像是給每本書創(chuàng)建一個(gè)獨(dú)特的指紋，這個(gè)指紋可以反映出書的內(nèi)容、風(fēng)格、主題等關(guān)鍵信息。這個(gè)過程就是向量嵌入。這是一個(gè)很大的話題，這篇文章里暫時(shí)不會(huì)很詳細(xì)的涉及，但是得益于 AI 的發(fā)展，現(xiàn)在嵌入都能較好的表征他們想要表征的數(shù)據(jù)了 [7]。

在假設(shè)我們能夠得到很好的表征之后，你就需要度量向量之間的相似性了。這就像是比較兩本書的指紋，看看它們有多么相似。這個(gè)過程就是相似度度量。在早期，我們可能會(huì)使用歐幾里得距離或者余弦相似度來度量相似性。但是，隨著時(shí)間的推移，我們發(fā)現(xiàn)這些方法在處理高維數(shù)據(jù)時(shí)可能會(huì)遇到困難。

因此，現(xiàn)代的相似度度量方法，如最近鄰搜索 (Nearest Neighbor Search) 和局部敏感哈希 (Locality-Sensitive Hashing) 等，被開發(fā)出來 [8]。這些方法可以更有效地處理高維數(shù)據(jù)，提供更準(zhǔn)確的相似度度量。接下來，你需要索引和檢索向量。這就像是創(chuàng)建一個(gè)圖書館的目錄，讓讀者可以根據(jù)他們的需求快速找到他們想要的書。這個(gè)過程就是向量索引和檢索。在早期，我們可能會(huì)使用線性搜索或者樹形結(jié)構(gòu)來索引和檢索向量。但是，隨著數(shù)據(jù)量的增長，這些方法可能會(huì)變得效率低下。因此，現(xiàn)代的向量索引和檢索方法，如倒排索引 (Inverted Index) 和乘積量化 (Product Quantization) 等，被開發(fā)出來 [9]。這些方法可以更有效地處理大規(guī)模數(shù)據(jù)，提供更快速的索引和檢索。

最后，你需要壓縮向量以節(jié)省存儲(chǔ)空間。這就像是將書的內(nèi)容進(jìn)行壓縮，讓它們占用更少的空間。這個(gè)過程就是向量壓縮。在早期，我們可能會(huì)使用簡單的壓縮算法，如 Huffman 編碼或者 Run-Length 編碼來壓縮向量。但是，隨著數(shù)據(jù)量的增長，這些方法可能無法滿足壓縮需求。因此，現(xiàn)代的向量壓縮方法，如乘積量化 (Product Quantization) 和優(yōu)化乘積量化 (Optimized Product Quantization) 等，被開發(fā)出來 [10]。這些方法可以更有效地壓縮向量，提供更高的壓縮比。

讀到這里，如果你是 AI 專業(yè)的人，你可能已經(jīng)意識(shí)到，雖然向量嵌入和相似度度量都是重要的問題，但是在 Vector DB 的發(fā)展中，得益于 AI 的發(fā)展，嵌入已經(jīng)不算最大的問題了。當(dāng)下要解決的最主要的問題其實(shí)是向量索引和向量檢索。這是因?yàn)椋S著數(shù)據(jù)量的增長，如何有效地索引和檢索向量成為了一個(gè)巨大的挑戰(zhàn)。

索引，檢索，壓縮 —— 超級(jí)英雄的煩惱

（非技術(shù)人員撤離警告）

但是你知道嗎，即使已經(jīng)成了超級(jí)英雄，也有自己的煩惱。超級(jí)英雄的故事已經(jīng)講完了，我們來看看 VectorDB 究竟做了什么努力。首先，我們正式的定義一下這個(gè)過程（圖 2）：

首先，我們用一個(gè)嵌入模型把我們要索引的數(shù)據(jù)轉(zhuǎn)換成向量嵌入。
然后，向量嵌入被存儲(chǔ)到向量數(shù)據(jù)庫里，并保留了它們對(duì)應(yīng)的原始數(shù)據(jù)的引用。
最后，當(dāng)應(yīng)用程序發(fā)起一個(gè)查詢時(shí)，我們用同樣的嵌入模型把查詢變成一個(gè)向量嵌入，并用它來在數(shù)據(jù)庫中搜索最相似的向量嵌入。正如我們所說的，這些相似的向量嵌入反映了它們生成它們的原始數(shù)據(jù)的含義。

圖 2. VectotDB 應(yīng)用流程。圖源：https://www.pinecone.io/lear

圖 2. VectotDB 應(yīng)用流程。圖源：https://www.pinecone.io/learn/vector-database/

在這里其中對(duì)于 Vector DB 來說最主要的瓶頸還是在于第二步和第三步的索引，檢索和壓縮，因?yàn)?Vector DB 的目標(biāo)和優(yōu)勢(shì)就是更好的處理大規(guī)模的數(shù)據(jù)：

向量索引與檢索，這就像是超級(jí)英雄的重要武器之一，是 Vector DB 處理大規(guī)模數(shù)據(jù)的關(guān)鍵。向量索引的任務(wù)就是在海量的向量中，快速找到與查詢向量最相似的向量。這就像是在一個(gè)巨大的超市里，快速找到你想要的商品。想象一下，如果超市里的商品沒有分類，沒有標(biāo)簽，你要找到你想要的商品可能需要花費(fèi)大量的時(shí)間。而向量索引就是這個(gè)超市的分類標(biāo)簽，它可以幫助你快速找到你想要的商品。
超級(jí)英雄的另一個(gè)武器是向量壓縮，主要是指對(duì)向量進(jìn)行編碼，以減少其存儲(chǔ)空間和傳輸時(shí)間的過程。這個(gè)過程通常涉及到兩個(gè)方面：壓縮率和失真率。壓縮率是指壓縮后的向量與原始向量的大小比例；失真率是指壓縮后的向量與原始向量的相似度差異。一般來說，提高壓縮率會(huì)降低失真率，反之亦然。因此，在不同的應(yīng)用場景下，需要根據(jù)需求選擇合適的壓縮方法和參數(shù)。向量壓縮就像是超市在進(jìn)行商品打包銷售。例如，超市可能會(huì)把一些常用的廚房用品（比如鹽、糖、醋、油）打包成一個(gè)套餐進(jìn)行銷售，這樣可以節(jié)省顧客購物的時(shí)間，也可以節(jié)省超市的貨架空間。這就像是壓縮率，即通過打包銷售，我們可以減少商品的存儲(chǔ)空間和顧客的購物時(shí)間。然而，打包銷售也可能會(huì)帶來一些問題。例如，顧客可能只需要其中的一部分商品，但是他們不得不購買整個(gè)套餐?；蛘?，打包的商品可能與顧客原本需要的商品有一些差異。這就像是失真率，即通過打包銷售，我們可能會(huì)降低商品的滿足度。因此，超市需要根據(jù)顧客的需求和貨架的空間，來選擇合適的打包方法和參數(shù)。同樣，向量壓縮也需要根據(jù)應(yīng)用的需求和存儲(chǔ)的空間，來選擇合適的壓縮方法和參數(shù)。

超級(jí)英雄武器的發(fā)展歷程也是這部好萊塢電影的重要組成部分，從最早的線性掃描到現(xiàn)在的復(fù)雜的結(jié)構(gòu)，每一步都是為了解決一個(gè)問題，為了提高效率，為了更好地服務(wù)于用戶。

在最早的時(shí)候，人們使用的是線性掃描。這就像是在一個(gè)沒有分類的超市里，你需要逐個(gè)查看每個(gè)商品，直到找到你想要的商品。這種方法簡單直觀，但是效率非常低，特別是當(dāng)數(shù)據(jù)量非常大的時(shí)候。這就像是在一個(gè)超大的超市里找商品，你可能需要花費(fèi)一整天的時(shí)間。

為了解決線性掃描的效率問題，基于哈希 (hash-based) 或者樹 (tree-based) 的方法就出現(xiàn)了。哈希方法是把高維向量映射到低維空間或者二進(jìn)制編碼，然后用哈希表或者倒排索引來存儲(chǔ)和檢索 [12]。樹方法是把高維空間劃分成若干個(gè)子空間或者聚類中心，然后用樹形結(jié)構(gòu)來存儲(chǔ)和檢索 [13]。這些方法都是基于精確距離計(jì)算或者近似距離計(jì)算的方法。這就像是在超市里，商品被分成了多個(gè)區(qū)域，每個(gè)區(qū)域包含一類商品。這樣，你就可以直接去你想要的商品的區(qū)域，而不需要查看所有的商品。這大大提高了效率。

但是，這些方法在處理高維數(shù)據(jù)時(shí)，效率會(huì)下降，這就像是在一個(gè)超大的超市里，商品的種類非常多，區(qū)域劃分得非常細(xì)，你可能需要花費(fèi)大量的時(shí)間在不同的區(qū)域之間穿梭。

圖 3. 樹（tree-based）。圖源：https://www.displayr.com/how-is-splitting-decided-for-decision-trees/

為了解決這個(gè)問題，基于乘積量化（Product Quantization， PQ）的向量索引算法也被提了出來 [14]。PQ 方法是把高維向量分割成若干個(gè)子向量，然后對(duì)每個(gè)子向量進(jìn)行獨(dú)立的標(biāo)量量化（Scalar Quantization， SQ），即用一個(gè)有限集合中最接近的值來近似表示每個(gè)子向量。這樣做可以大大減少存儲(chǔ)空間和計(jì)算時(shí)間，并且可以用乘積距離（Product Distance， PD）來近似表示原始距離。這就像是在超市里，商品不僅按照區(qū)域分類，還按照品牌分類，你可以直接去你喜歡的品牌的區(qū)域，而不需要在所有的區(qū)域之間穿梭。這大大提高了效率。

圖 4. 乘積量化（Product Quantization， PQ）圖源：https://www.displayr.com/how-is-splitting-decided-for-decision-trees/

然后，為了解決樹處理高維數(shù)據(jù)的問題，人們提出了 BBF（Best Bin First）算法 [15]。BBF 算法是一種基于優(yōu)先隊(duì)列的搜索算法，它可以在 KD 樹中更快地找到最近鄰。根據(jù) KD 樹 (樹結(jié)構(gòu)的一種) 的搜索過程我們可以知道，在搜索時(shí)首先沿著 kd 樹找到葉子節(jié)點(diǎn)，然后依次回溯，而回溯的路程就是前面我們查找葉子節(jié)點(diǎn)時(shí)逆序，因此進(jìn)行回溯時(shí)并沒有利用這些點(diǎn)的信息。BBF 就是利用這些信息，回溯時(shí)給各個(gè)需要回溯的結(jié)點(diǎn)以優(yōu)先級(jí)，這樣找到最近鄰會(huì)更快。

其實(shí) BBF 算法的思想比較簡單，通過對(duì)回溯可能需要的路過的結(jié)點(diǎn)加入隊(duì)列，并按照查找點(diǎn)到該結(jié)點(diǎn)確定的超平面的距離進(jìn)行排序，然后每次首先遍歷的是優(yōu)先級(jí)最高（即距離最短的結(jié)點(diǎn)），直到隊(duì)列為空算法結(jié)束。同時(shí) bbf 算法也設(shè)立了一個(gè)時(shí)間限制，如果算法運(yùn)行時(shí)間超過該限制，不管是不是為空，一律停止運(yùn)行，返回當(dāng)前的最近鄰點(diǎn)作為結(jié)果。應(yīng)用了 BBF 之后，就像是在超市里，你不僅知道每個(gè)商品的區(qū)域，還知道每個(gè)區(qū)域的熱門商品，你可以直接去找這些熱門商品，而不需要在區(qū)域內(nèi)逐個(gè)查看商品。這進(jìn)一步提高了效率。但是，BBF 算法在處理大規(guī)模數(shù)據(jù)時(shí)，效率仍然不高，這就像是在一個(gè)超大的超市里，即使你知道每個(gè)區(qū)域的熱門商品，你仍然需要在大量的區(qū)域之間穿梭。

同時(shí)，在 20 世紀(jì) 10 年代中期，一種改進(jìn)版的 PQ 方法出現(xiàn)了，它叫做倒排多重索引（Inverted Multi-Index， IMI）[11]。IMI 方法是把高維向量分割成兩個(gè)子向量，然后對(duì)每個(gè)子向量進(jìn)行獨(dú)立的 PQ，得到兩個(gè)子碼本（sub-codebook）。然后，把所有的向量按照它們的第一個(gè)子碼本的索引分組，得到若干個(gè)列表，每個(gè)列表中的向量都有相同的第一個(gè)子碼本的索引。這樣做可以把高維空間劃分成更細(xì)粒度的子空間，并且可以用倒排索引來存儲(chǔ)和檢索。例如，在 2014 年 CVPR 提出的基于 IMI 的最近鄰搜索方法，它可以用于處理百萬級(jí)別的高維數(shù)據(jù)集。IMI 方法將高維向量分割成兩個(gè)子向量，然后對(duì)每個(gè)子向量進(jìn)行獨(dú)立的 PQ，得到兩個(gè)子碼本。這就像在超市里，我們不僅按照商品類型（如食品、飲料、日用品等）來分類，還進(jìn)一步按照品牌來分類。這樣，顧客可以更精確地找到他們需要的商品，提高了購物效率。

同時(shí)，除了數(shù)據(jù)維度高以外，還有一個(gè)數(shù)據(jù)量大的問題。為了解決處理大規(guī)模數(shù)據(jù)的問題，人們提出了局部敏感哈希（LSH）。LSH 是一種基于哈希的索引方法，它可以將相似的向量哈希到同一個(gè)桶中。這就像在一個(gè)大型超市里，我們不僅按照商品類型和品牌來分類，還進(jìn)一步按照價(jià)格區(qū)間來分類。這樣，顧客可以更快地找到他們的目標(biāo)商品。然而，當(dāng)超市的規(guī)模變得非常大時(shí)，即使有這樣的分類系統(tǒng)，顧客仍然需要在大量的商品之間進(jìn)行選擇，這就增加了購物的復(fù)雜性。同樣，當(dāng)處理高維數(shù)據(jù)時(shí)，LSH 的效率仍然面臨挑戰(zhàn)。

此時(shí)，在 IMI 的基礎(chǔ)上，一種更先進(jìn)的向量索引算法出現(xiàn)了，它叫做各向異性向量量化（AVQ）[17]。AVQ 方法是把高維向量分割成若干個(gè)子空間，然后對(duì)每個(gè)子空間進(jìn)行獨(dú)立的 PQ，得到若干個(gè)子碼本。然后，把所有的向量按照它們的子碼本的組合分組，得到若干個(gè)列表，每個(gè)列表中的向量都有相同的子碼本的組合。這樣做可以根據(jù)數(shù)據(jù)的分布自適應(yīng)地劃分高維空間，并且可以用多重倒排索引來存儲(chǔ)和檢索。這就像是在超市里，商品不僅按照區(qū)域分類，還按照品牌分類，還按照價(jià)格分類，你可以直接去你喜歡的品牌和價(jià)格的區(qū)域，而不需要在所有的區(qū)域之間穿梭。這大大提高了效率。

雖然這個(gè)武器一直在進(jìn)化，但是它都存在一個(gè)比較大的問題，就是召回精度不夠，隨著維度變大，召回精度可能會(huì)變得越來越低。所以時(shí)間拉到現(xiàn)在，最近的向量索引大多是基于圖（graph-based）或者深度學(xué)習(xí)（deep learning-based）的方法。

基于圖（graph-based）的方法則與上述算法有所不同。圖方法是把高維空間看作是一個(gè)圖，每個(gè)節(jié)點(diǎn)是一個(gè)向量，每條邊是一個(gè)距離或者相似度。然后用一些啟發(fā)式或者優(yōu)化的算法來構(gòu)建和遍歷這個(gè)圖，從而找到最相似的向量。例如，在 2018 年發(fā)表在 NIPS 上的論文《Hierarchical Navigable Small World Graphs》中，作者提出了一種基于分層可導(dǎo)航小世界（Hierarchical Navigable Small World， HNSW）圖的最近鄰搜索方法，它可以用于處理任意度量空間的數(shù)據(jù)。HNSW 方法是把高維向量分層地組織成一個(gè)圖，每個(gè)節(jié)點(diǎn)是一個(gè)向量，每條邊是一個(gè)距離或者相似度。每一層都是一個(gè)可導(dǎo)航小世界（Navigable Small World， NSW）圖，即一個(gè)具有短路徑和局部連通性的圖。每一層的節(jié)點(diǎn)數(shù)目隨機(jī)地減少，從而形成一個(gè)金字塔狀的結(jié)構(gòu)。這樣做可以利用不同層次的邊來加速搜索過程，并且可以用貪心算法來遍歷圖。這就像是在超市里，你有一個(gè)詳細(xì)的地圖，這個(gè)地圖上標(biāo)記了每個(gè)商品的位置，你可以通過這個(gè)地圖來找到你想要的商品，而不需要在所有的區(qū)域之間穿梭。這也大大提高了效率。

最后，深度學(xué)習(xí)方法是用一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一個(gè)映射函數(shù)，把高維向量映射到低維空間或者二進(jìn)制編碼，然后用哈希表或者倒排索引來存儲(chǔ)和檢索。這就像是在超市里，你有一個(gè)智能助手，這個(gè)助手可以根據(jù)你的需求，快速地找到你想要的商品，而不需要你自己去尋找。這個(gè)智能助手就是神經(jīng)網(wǎng)絡(luò)，它可以學(xué)習(xí)和理解你的需求，然后幫助你找到你想要的商品。一個(gè)具體的例子 [16] 提出了一種基于圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network， GNN）的最近鄰搜索方法，它可以用于學(xué)習(xí)任意圖結(jié)構(gòu)數(shù)據(jù)的表示。GNN 方法是用一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一個(gè)映射函數(shù)，把高維向量映射到低維空間，并且保留圖結(jié)構(gòu)信息。然后用哈希表或者倒排索引來存儲(chǔ)和檢索。這樣做可以利用神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力來捕捉復(fù)雜的圖特征，并且可以用哈?；蛘叩古偶夹g(shù)來加速搜索過程。

向量索引面臨的問題是如何在保證檢索質(zhì)量和效率的同時(shí)，適應(yīng)不同類型和領(lǐng)域的數(shù)據(jù)，以及不同場景和需求的應(yīng)用。不同的數(shù)據(jù)可能有不同的分布、維度、密度、噪聲等特征，不同的應(yīng)用可能有不同的準(zhǔn)確性、速度、可擴(kuò)展性、可解釋性等指標(biāo)。因此，沒有一種通用的向量索引算法可以滿足所有情況，而需要根據(jù)具體情況選擇或者設(shè)計(jì)合適的向量索引算法。這就像是在超市里，不同的顧客可能有不同的需求，需要不同的商品，所以超市需要提供各種各樣的商品，以滿足不同顧客的需求。

基于現(xiàn)在這些問題，我們未來還是有很多方向可以去探索：

動(dòng)態(tài)向量索引：大多數(shù)現(xiàn)有的向量索引算法都是針對(duì)靜態(tài)數(shù)據(jù)集設(shè)計(jì)的，即數(shù)據(jù)集在建立索引后不會(huì)發(fā)生變化。然而，在實(shí)際應(yīng)用中，數(shù)據(jù)集往往是動(dòng)態(tài)變化的，即會(huì)有新的數(shù)據(jù)加入或者舊的數(shù)據(jù)刪除。如何在保持高效檢索性能的同時(shí)，支持動(dòng)態(tài)更新數(shù)據(jù)集是一個(gè)重要而困難的問題。這就像是在超市里，新的商品會(huì)不斷上架，舊的商品會(huì)被售完或者下架，如何在保持高效服務(wù)的同時(shí)，支持動(dòng)態(tài)更新商品是一個(gè)重要而困難的問題。
分布式向量索引：隨著數(shù)據(jù)規(guī)模和維度的增長，單機(jī)內(nèi)存和計(jì)算能力可能無法滿足向量索引和檢索的需求。如何把數(shù)據(jù)集和索引結(jié)構(gòu)分布到多臺(tái)機(jī)器上，并且實(shí)現(xiàn)高效并行檢索是另一個(gè)重要而困難的問題。這就像是在超市里，隨著商品種類和數(shù)量的增長，單個(gè)超市可能無法滿足顧客的需求，需要開設(shè)多個(gè)分店，并且實(shí)現(xiàn)高效并行服務(wù)。
多模態(tài)向量索引：在實(shí)際應(yīng)用中，數(shù)據(jù)往往是多模態(tài)（multimodal）的，即由不同類型或者來源的信息組成，如文本、圖像、音頻、視頻等。如何把不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一或者兼容的向量空間，并且實(shí)現(xiàn)跨模態(tài)（cross-modal）或者聯(lián)合模態(tài)（joint-modal）的檢索是一個(gè)有趣而有挑戰(zhàn)的問題。這就像是在超市里，商品不僅有食品、飲料、日用品、電器等不同類型，還有中文、英文、日文、韓文等不同來源的標(biāo)簽，如何把不同類型和來源的商品分類到統(tǒng)一或者兼容的區(qū)域，并且實(shí)現(xiàn)跨類型或者聯(lián)合類型的服務(wù)是一個(gè)有趣而有挑戰(zhàn)的問題。

總的來說，向量索引就像是超市的分類標(biāo)簽，它可以幫助我們快速找到我們想要的商品，即最相似的向量。雖然現(xiàn)有的向量索引算法已經(jīng)取得了很大的進(jìn)步，但是還有很多問題需要解決，還有很多方向可以探索。

Vector DB 產(chǎn)品展示會(huì)

看完 Vector DB 的技術(shù)，歡迎來到我們的向量數(shù)據(jù)庫產(chǎn)品展示會(huì)！在這里，我們將帶你走進(jìn)五個(gè)主要的向量數(shù)據(jù)庫產(chǎn)品的世界，包括開源和商業(yè)的 vector DB，例如 Milvus， Pinecone， Chroma， Weaviate， Zilliz 等。我們將比較它們的特性，性能，和應(yīng)用場景。而且，我們將幫你輕松的獲取各個(gè)產(chǎn)品的不同，以及什么時(shí)候應(yīng)該選用什么產(chǎn)品。那么，讓我們開始吧！

Milvus

首先，讓我們來看看 Milvus。Milvus 就像是一個(gè)開源的向量數(shù)據(jù)庫超市，提供了各種各樣的向量索引算法，如 IVF-Flat、IVF-SQ8、HNSW 等，以及多種相似度度量，如 L2、IP、Hamming 等。它就像是一個(gè)多語言的世界公民，提供了 Python、Java、Go 等多種語言的客戶端接口，以及與 TensorFlow、PyTorch 等深度學(xué)習(xí)框架的集成。如果你是圖像檢索、視頻檢索、語音識(shí)別、自然語言處理等基于向量檢索的場景的粉絲，那么 Milvus 就是你的不二之選。而且，它還有一個(gè)可視化工具叫做 Milvus Insight，可以讓你像在游樂園一樣方便地查看和管理向量數(shù)據(jù)。

Pinecone

接下來，我們來看看 Pinecone。Pinecone 就像是一個(gè)高級(jí)的向量數(shù)據(jù)庫餐廳，提供了一個(gè)簡單易用的 API 菜單，讓你可以快速地創(chuàng)建和部署向量數(shù)據(jù)庫。它的廚師使用了一種基于圖的向量索引算法，稱為 Hierarchical Navigable Small World (HNSW)，它可以在保證高精度的同時(shí)提供高效率和可擴(kuò)展性。如果你是推薦系統(tǒng)、個(gè)性化廣告、內(nèi)容匹配等需要實(shí)時(shí)和準(zhǔn)確的相似度搜索的場景的食客，那么 Pinecone 就是你的理想之選。而且，它還有一個(gè)控制臺(tái)，可以讓你像在舞臺(tái)后臺(tái)一樣方便地監(jiān)控和管理向量數(shù)據(jù)庫的狀態(tài)和性能。

Chroma

然后，我們來看看 Chroma。Chroma 就像是一個(gè)專業(yè)的向量數(shù)據(jù)庫實(shí)驗(yàn)室，專注于提供高性能和高可靠性的向量搜索和分析功能。它的科學(xué)家使用了一種基于乘積量化的向量壓縮算法，稱為 Optimized Product Quantization (OPQ)，它可以在減少存儲(chǔ)空間和傳輸時(shí)間的同時(shí)保持高精度。如果你是生物信息學(xué)、醫(yī)療影像、金融風(fēng)控等需要處理海量和高維的向量數(shù)據(jù)的場景的研究者，那么 Chroma 就是你的最佳之選。而且，它還有一個(gè)查詢語言，可以讓你像在圖書館一樣方便地構(gòu)建復(fù)雜和靈活的查詢條件。

Weaviate

接著，我們來看看 Weaviate。Weaviate 就像是一個(gè)創(chuàng)新的向量數(shù)據(jù)庫工廠，不僅可以存儲(chǔ)和查詢向量數(shù)據(jù)，還可以自動(dòng)地為任何類型的數(shù)據(jù)生成向量表示。它的工程師使用了一種基于深度學(xué)習(xí)的向量嵌入算法，稱為 Universal Sentence Encoder (USE)，它可以將文本、圖像、音頻等數(shù)據(jù)轉(zhuǎn)換成語義相關(guān)的向量。如果你是知識(shí)圖譜、問答系統(tǒng)、智能搜索等需要對(duì)復(fù)雜和多模態(tài)的數(shù)據(jù)進(jìn)行語義理解和匹配的場景的創(chuàng)新者，那么 Weaviate 就是你的首選。而且，它還有一個(gè) GraphQL 風(fēng)格的查詢語言，可以讓你像在設(shè)計(jì)工作室一樣方便地構(gòu)建復(fù)雜和靈活的查詢條件。

Zilliz

再來看看 Zilliz。Zilliz 就像是一個(gè)強(qiáng)大的向量數(shù)據(jù)庫運(yùn)動(dòng)場，支持多種硬件加速技術(shù)，如 GPU、TPU 等，以提高向量搜索和分析的速度。它的教練提供了多種應(yīng)用場景的解決方案，如人臉識(shí)別、商品檢索、文本分類等。如果你是安防監(jiān)控、電子商務(wù)、社交媒體等需要利用強(qiáng)大的計(jì)算資源來處理大規(guī)模和高質(zhì)量的向量數(shù)據(jù)的場景的運(yùn)動(dòng)員，那么 Zilliz 就是你的冠軍之選。而且，它還有一個(gè)可視化工具叫做 Zilliz Insight，可以讓你像在體育館一樣方便地查看和管理向量數(shù)據(jù)。

Tencent Cloud VectorDB

最后，我們來看看國內(nèi)騰訊云發(fā)布的AI 原生（AI Native）向量數(shù)據(jù)庫 Tencent Cloud VectorDB。該數(shù)據(jù)庫能夠被廣泛應(yīng)用于大模型的訓(xùn)練、推理和知識(shí)庫補(bǔ)充等場景，是國內(nèi)首個(gè)從接入層、計(jì)算層、到存儲(chǔ)層提供全生命周期 AI 化的向量數(shù)據(jù)庫，重新定義了 AI Native 的開發(fā)范式，使用戶在使用向量數(shù)據(jù)庫的全生命周期都能應(yīng)用到 AI 能力。Tencent Cloud VectorDB 最高支持 10 億級(jí)向量檢索規(guī)模，延遲控制在毫秒級(jí)，相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫檢索規(guī)模提升 10 倍，同時(shí)具備百萬級(jí)每秒查詢（QPS）的峰值能力。

那么，這就是我們的向量數(shù)據(jù)庫產(chǎn)品展示會(huì)。希望你能在這里找到你的理想之選，讓你的向量數(shù)據(jù)管理和分析更加輕松和高效。如果你希望及時(shí)的看到當(dāng)前大家對(duì)各個(gè)產(chǎn)品的偏愛度，DB-engines 每個(gè)月都會(huì)更新排名。

圖 5. 當(dāng)前 vectorDB 排名結(jié)果（2023.07）

為了幫助你更好地選擇適合你的 Vector DB 產(chǎn)品，我們?yōu)槟銣?zhǔn)備了這個(gè) Cheat Sheet。在這里，你可以快速地比較各個(gè)產(chǎn)品的主要特性和適用場景。

VectorDB —— 未完待續(xù)

在我們深入探討了 Vector DB 的現(xiàn)狀之后，讓我們把目光投向未來，探索一下作為研究者我們可以關(guān)注的一些研究方向。

首先，向量算法的優(yōu)化和創(chuàng)新將是一個(gè)重要的研究方向。隨著數(shù)據(jù)規(guī)模和維度的增加，我們需要開發(fā)出更高效和精確的向量索引和壓縮算法。此外，深度學(xué)習(xí)技術(shù)的發(fā)展也為我們提供了新的機(jī)會(huì)，我們可以研究如何利用深度學(xué)習(xí)來生成更好的向量表示，這將對(duì)于各種類型的數(shù)據(jù)，如文本、圖像、音頻等，都有重要的意義。

其次，向量數(shù)據(jù)庫的功能增強(qiáng)也是一個(gè)值得關(guān)注的研究方向。隨著用戶需求和應(yīng)用場景的多樣化，我們需要研究如何提供更豐富和完善的向量功能。例如，如何更好地支持各種數(shù)據(jù)源和數(shù)據(jù)格式，以方便地導(dǎo)入和導(dǎo)出向量數(shù)據(jù)；如何設(shè)計(jì)更靈活的查詢語言和相似度度量，以滿足復(fù)雜和靈活的查詢需求；如何開發(fā)更有效的數(shù)據(jù)管理和監(jiān)控工具，以方便地查看和管理向量數(shù)據(jù)。

然后，向量數(shù)據(jù)庫的應(yīng)用擴(kuò)展也是一個(gè)重要的研究方向。隨著人工智能和大數(shù)據(jù)技術(shù)的發(fā)展，我們可以研究如何利用 Vector DB 來實(shí)現(xiàn)更多的基于相似度搜索和匹配的應(yīng)用場景。例如，在推薦系統(tǒng)中，我們可以研究如何利用 Vector DB 實(shí)現(xiàn)基于用戶興趣或商品特征的個(gè)性化推薦；在內(nèi)容匹配中，我們可以研究如何利用 Vector DB 實(shí)現(xiàn)基于文本或圖像內(nèi)容的智能搜索；在安防監(jiān)控中，我們可以研究如何利用 Vector DB 實(shí)現(xiàn)基于人臉或聲紋特征的身份識(shí)別。

深入的向量研究也會(huì)是一個(gè)長期且深遠(yuǎn)的研究方向。隨著 Vector DB 技術(shù)的成熟和普及，我們需要更深入的理論探索和實(shí)踐探索。例如，在理論方面，我們需要更好地理解、度量和優(yōu)化向量空間中的相似度問題；在實(shí)踐方面，我們需要更好地結(jié)合、應(yīng)用和評(píng)估 Vector DB 技術(shù)在不同領(lǐng)域中的效果。

作為研究者，我們有很多可以探索和研究的方向，包括向量算法的優(yōu)化和創(chuàng)新，向量數(shù)據(jù)庫的功能增強(qiáng)，向量數(shù)據(jù)庫的應(yīng)用擴(kuò)展，以及深入的向量研究。讓我們一起期待 Vector DB 的未來，一起探索向量數(shù)據(jù)的無限可能！

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)庫

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營