自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不要輕易押寶“向量數(shù)據(jù)庫(kù)”

原創(chuàng) 精選
數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)
放眼如今的數(shù)據(jù)庫(kù)市場(chǎng),堪稱(chēng)百花齊放。有基于傳統(tǒng)路線的,以MySQL,Oracle為基礎(chǔ)的;有走新理論的,基于Aurora,Spanner等;有面向應(yīng)用場(chǎng)景的,比如工業(yè)數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)等。更有向量數(shù)據(jù)庫(kù)這種以黑馬之姿為繚亂的數(shù)據(jù)庫(kù)江湖增添異色的。

編譯丨千山

“為什么你不應(yīng)該投資向量數(shù)據(jù)庫(kù)?”

前段時(shí)間,流數(shù)據(jù)庫(kù)公司 RisingWave創(chuàng)始人&CEO吳英駿公開(kāi)發(fā)文,闡述了這一有違“時(shí)潮”的觀點(diǎn)。在文中,吳英駿表示,盡管他對(duì)向量數(shù)據(jù)庫(kù)的前景頗有信心,但目前并不鼓勵(lì)進(jìn)入向量數(shù)據(jù)庫(kù)市場(chǎng)。

圖源:medium圖源:medium

今年以來(lái),大模型熱居高不下。而在近幾個(gè)月的大模型相關(guān)發(fā)布會(huì)或研討會(huì)上,“向量數(shù)據(jù)庫(kù)(Vector Database)”一詞頻頻出現(xiàn),或多或少會(huì)成為話(huà)題點(diǎn)之一。

回溯一下,在今年3月的NVIDIA GTC Keynote 中, 英偉達(dá)CEO黃仁勛首次提及向量數(shù)據(jù)庫(kù),并強(qiáng)調(diào)對(duì)于構(gòu)建專(zhuān)有大型語(yǔ)言模型的組織而言,向量數(shù)據(jù)庫(kù)至關(guān)重要。此后,在平靜已久的數(shù)據(jù)庫(kù)行業(yè),向量數(shù)據(jù)庫(kù)就像是突入的石子,攪亂了一池春水。

僅4月,四家向量數(shù)據(jù)庫(kù)初創(chuàng)公司Chroma、Qdrant、Weaviate和Pinecone就斬獲了10多億融資,資本市場(chǎng)對(duì)這一賽道的看好可見(jiàn)一斑。

  • Chroma:4月6日宣布獲得1800萬(wàn)美元(當(dāng)前約合人民幣1.3億元)種子輪融資
  • Qdrant:4月19日宣布獲得 750 萬(wàn)美元(當(dāng)前約合人民幣5400萬(wàn)元)種子輪融資
  • We­a­v­i­a­te:4月22日宣布獲得5000萬(wàn)美元(當(dāng)前約合人民幣3.6億元)B輪融資
  • Pi­n­e­c­o­ne:4月28日宣布獲得1億美元(當(dāng)前約合人民幣7.2億元)B輪融資

那么吳英駿為何提出這一論點(diǎn)?向量數(shù)據(jù)庫(kù)的熱度能維持到幾時(shí),此時(shí)押注后續(xù)又要擠出多少泡沫?我們不妨冷靜地觀望一下。

1、一夜之間,新范式誕生

數(shù)據(jù)庫(kù)發(fā)展已歷經(jīng)半個(gè)多世紀(jì),經(jīng)歷了各種不同的階段,可謂發(fā)展迅猛。最古老的類(lèi)型是SQL或關(guān)系型數(shù)據(jù)庫(kù)。Web 2.0公司不斷增長(zhǎng)的需求引發(fā)了NoSQL革命,其中數(shù)據(jù)庫(kù)變得更加靈活,能夠更好地應(yīng)對(duì)爆炸式增長(zhǎng)的數(shù)據(jù)量。現(xiàn)在,隨著ChatGPT的出現(xiàn)以及AIGC狂潮的爆發(fā),向量數(shù)據(jù)庫(kù)的市場(chǎng)被點(diǎn)燃了。

與傳統(tǒng)數(shù)據(jù)庫(kù)不同,向量數(shù)據(jù)庫(kù)更擅長(zhǎng)在非結(jié)構(gòu)化數(shù)據(jù)中尋找意義。這些數(shù)據(jù)庫(kù)使用向量嵌入以數(shù)值表示數(shù)據(jù),并將它們排列在彼此相似的集群中。

傳統(tǒng)數(shù)據(jù)庫(kù),常見(jiàn)的關(guān)系數(shù)據(jù)庫(kù)(如MySQL,PostgreSQL,Oracle)和NoSQL數(shù)據(jù)庫(kù)(如MongoDB,Cassandra),幾十年來(lái)一直是業(yè)務(wù)數(shù)據(jù)管理的支柱。它們以結(jié)構(gòu)化格式(如表、文檔或鍵值對(duì))存儲(chǔ)和組織數(shù)據(jù),從而更容易使用標(biāo)準(zhǔn)編程語(yǔ)言進(jìn)行查詢(xún)和操作。

這些數(shù)據(jù)庫(kù)擅長(zhǎng)處理具有固定模式的結(jié)構(gòu)化數(shù)據(jù),但它們經(jīng)常在處理非結(jié)構(gòu)化數(shù)據(jù)或高維數(shù)據(jù)(如圖像、音頻和文本)方面遇到困難。缺少標(biāo)簽或未對(duì)齊的格式意味著非結(jié)構(gòu)化條目可能會(huì)在搜索中丟失或錯(cuò)誤地從過(guò)濾中排除。這給許多數(shù)據(jù)庫(kù)操作帶來(lái)了出錯(cuò)的風(fēng)險(xiǎn),必須通過(guò)手動(dòng)構(gòu)建數(shù)據(jù)來(lái)解決這個(gè)問(wèn)題。因此通常需要我們手動(dòng)審查非結(jié)構(gòu)化條目。但人工審查必然又會(huì)耗費(fèi)大量時(shí)間。

此外,隨著數(shù)據(jù)量和速度的增加,它們可能還會(huì)面臨性能瓶頸,從而引發(fā)響應(yīng)時(shí)間變慢和可擴(kuò)展性問(wèn)題。

而向量數(shù)據(jù)庫(kù)不同,它不依賴(lài)于結(jié)構(gòu)化格式,不是依靠不同的類(lèi)別和列表來(lái)組織記錄,而是將數(shù)據(jù)作為數(shù)學(xué)向量存儲(chǔ)在高維空間中并對(duì)其進(jìn)行索引。這種方法稱(chēng)為“向量化”,可以更有效地搜索相似性并更好地處理復(fù)雜的數(shù)據(jù)類(lèi)型(圖像、音視頻、自然語(yǔ)言)。某種程度上,向量數(shù)據(jù)庫(kù)代表了數(shù)據(jù)存儲(chǔ)和檢索的范式轉(zhuǎn)變。

2、成為大模型的“海馬體”

一方面,向量數(shù)據(jù)庫(kù)簡(jiǎn)化了人工智能開(kāi)發(fā)者對(duì)向量數(shù)據(jù)的管理。通過(guò)把來(lái)源權(quán)威可信的圖片、視頻和文本這樣的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成向量,并儲(chǔ)存到向量數(shù)據(jù)庫(kù)中,它就能幫助大模型具有“長(zhǎng)期記憶”,進(jìn)而減少大模型產(chǎn)生“幻覺(jué)”的可能性。

另一方面,向量數(shù)據(jù)庫(kù)能夠執(zhí)行近似最近鄰 (ANN) 搜索,快速識(shí)別大型數(shù)據(jù)集中的類(lèi)似項(xiàng)目。其主要優(yōu)勢(shì)在于它們使用降維和索引算法等技術(shù),向量數(shù)據(jù)庫(kù)可以大規(guī)模執(zhí)行這些搜索,提供閃電般的響應(yīng)時(shí)間,這使其成為推薦系統(tǒng)、異常檢測(cè)和自然語(yǔ)言處理等應(yīng)用的理想選擇。

打個(gè)比方,如果向量數(shù)據(jù)庫(kù)是一個(gè)巨大的倉(cāng)庫(kù),那么人工智能就是熟練的倉(cāng)庫(kù)經(jīng)理。在這個(gè)倉(cāng)庫(kù)中,每件物品(數(shù)據(jù))都存儲(chǔ)在一個(gè)盒子(向量)中,整齊地組織在多維空間的貨架上。倉(cāng)庫(kù)經(jīng)理(AI)知道每個(gè)盒子的確切位置,可以根據(jù)物品的相似性快速檢索或比較物品。

倉(cāng)庫(kù)的組織和優(yōu)化程度越高,倉(cāng)庫(kù)經(jīng)理就能更快、更準(zhǔn)確地找到各種任務(wù)所需的物品,例如提出建議、識(shí)別模式或檢測(cè)異常。正如管理良好的倉(cāng)庫(kù)對(duì)于順利的業(yè)務(wù)運(yùn)營(yíng)至關(guān)重要一樣,向量數(shù)據(jù)庫(kù)在人工智能驅(qū)動(dòng)的應(yīng)用程序和解決方案的成功中起著至關(guān)重要的作用。

向量數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司Qdrant的CEO兼聯(lián)合創(chuàng)始人Andre Zayarni曾提到,絕大多數(shù)人工智能研發(fā)項(xiàng)目從未投入生產(chǎn)的關(guān)鍵因素是缺乏正確的工具。(如果能)將大模型連接到實(shí)時(shí)的非結(jié)構(gòu)化數(shù)據(jù)可以為任何希望構(gòu)建更有用AI應(yīng)用的人打開(kāi)大量機(jī)會(huì)。顯然,向量數(shù)據(jù)庫(kù)在這里充當(dāng)了這樣的橋梁作用。

3、熱錢(qián)涌入,挑戰(zhàn)依舊

值得一提的是,向量技術(shù)并不新鮮,但在ChatGPT橫空出世之前,向量數(shù)據(jù)庫(kù)非常小眾。前文提到的兩家初創(chuàng)公司Pinecone和Weaviate都成立于2019年,但此前無(wú)論是融資還是營(yíng)收都是乏善可陳的狀態(tài)。

Pinecone聯(lián)合創(chuàng)始人兼首席執(zhí)行官Edo Liberty曾坦率地提到,如果沒(méi)有ChatGPT的出現(xiàn),我們根本不可能獲得巨額融資。

如今大量開(kāi)發(fā)者涌入AIGC開(kāi)發(fā)領(lǐng)域,這些向量數(shù)據(jù)庫(kù)廠商也等到了黎明。風(fēng)口常有,而時(shí)代不常有。軟件服務(wù)初創(chuàng)公司Heltar的創(chuàng)始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數(shù)據(jù)庫(kù)?!懊看翁越馃岫紩?huì)有人賣(mài)鏟子。對(duì)于生成式AI,鏟子是什么?向量數(shù)據(jù)庫(kù)。幾乎每一個(gè)LLM支持的應(yīng)用程序都在使用它們或即將使用它們。”

隨著部署到企業(yè)生產(chǎn)中的AI應(yīng)用程序與日俱增,對(duì)向量數(shù)據(jù)庫(kù)的需求必定會(huì)直線上升。所以稱(chēng)向量數(shù)據(jù)庫(kù)為鏟子或許也并不算太過(guò)夸張。

但是在這蒸蒸日上的發(fā)展態(tài)勢(shì)下,向量數(shù)據(jù)庫(kù)依然面臨著不可忽視的幾項(xiàng)挑戰(zhàn)。騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云在接受媒體采訪時(shí)表示,其一,成本。向量化數(shù)據(jù)有著高昂的計(jì)算成本,尋求存儲(chǔ)成本替代是必要的。另外,在檢索層面成本也非常高昂。據(jù)他判斷,短期內(nèi)在成本方面不會(huì)發(fā)生數(shù)量級(jí)差異。其二,平臺(tái)產(chǎn)品與開(kāi)源社區(qū)之間的關(guān)系。向量化技術(shù)目前已十分成熟,并存在大量開(kāi)源解決方案,在不同的領(lǐng)域也存在不同的向量化方案,先發(fā)者與后來(lái)者,老牌廠商與新生力量之間的競(jìng)爭(zhēng)正在持續(xù)升溫。

4、現(xiàn)在押注,為時(shí)尚早

與任何有效的新技術(shù)一樣,熱度的攀升到底是基于炒作還是潛力,旁觀者其實(shí)很難辨別。向量數(shù)據(jù)庫(kù)到底是大模型時(shí)代的天選之子,還是正在經(jīng)歷曇花一現(xiàn)式的虛假繁榮,很多投資者也極難判斷。

但有一點(diǎn)可以明確的是,向量數(shù)據(jù)庫(kù)的出現(xiàn)并不代表大模型時(shí)代已經(jīng)將像Postgres或NoSQL這樣的傳統(tǒng)數(shù)據(jù)庫(kù)拒之門(mén)外了。事實(shí)上,Postgres本身就有一個(gè)內(nèi)置的Pgvector功能可以進(jìn)行向量或相似性搜索。

除了PostgreSQL之外,包括OpenSearch,ClickHouse和Cassandra在內(nèi)的幾個(gè)開(kāi)源數(shù)據(jù)庫(kù)已經(jīng)實(shí)現(xiàn)了自己的向量搜索功能。如果你已經(jīng)使用這些系統(tǒng),則無(wú)需采用新的向量數(shù)據(jù)庫(kù)。

此外,還有老牌數(shù)據(jù)庫(kù)公司為了不落伍,正在通過(guò)與人工智能相關(guān)的服務(wù)來(lái)鞏固自己。甲骨文提供了一系列人工智能算法,同時(shí)也以“數(shù)據(jù)庫(kù)內(nèi)學(xué)習(xí)的速度”提供它們。IBM的老式Db2也已更名為“AI數(shù)據(jù)庫(kù)”,現(xiàn)在有ML來(lái)提高查詢(xún)性能和“基于信心的查詢(xún)”。

在《為什么你不應(yīng)該投資向量數(shù)據(jù)庫(kù)?》一文中,吳英駿表示,現(xiàn)在入局向量數(shù)據(jù)庫(kù)可能并非合適的時(shí)機(jī)。其理由主要集中于以下幾點(diǎn):

其一,先發(fā)優(yōu)勢(shì)明顯。市場(chǎng)上已經(jīng)充斥著大量的向量數(shù)據(jù)庫(kù)產(chǎn)品,潛在用戶(hù)可以很容易地在現(xiàn)有市場(chǎng)中找到合適的選擇。

其二,需求層次不同。如果一家公司已經(jīng)采用了Elastic,Redis,SingleStore或Rockset等商業(yè)數(shù)據(jù)庫(kù),并且不需要高度先進(jìn)的向量搜索功能,則可以充分利用這些數(shù)據(jù)庫(kù)的現(xiàn)有功能。盡管在向量數(shù)據(jù)處理方面的表現(xiàn)不如專(zhuān)業(yè)的向量數(shù)據(jù)庫(kù),但依然可以滿(mǎn)足多數(shù)用戶(hù)的一般要求。

其三,技術(shù)在不斷前進(jìn)。隨著數(shù)據(jù)庫(kù)領(lǐng)域技術(shù)的進(jìn)步,越來(lái)越多的數(shù)據(jù)庫(kù)會(huì)考慮納入向量搜索功能,以滿(mǎn)足當(dāng)前用戶(hù)群的需求。對(duì)于目前缺乏向量搜索功能的數(shù)據(jù)庫(kù),實(shí)現(xiàn)這些功能或許只是時(shí)間問(wèn)題。

簡(jiǎn)言之,“與其投資新的向量數(shù)據(jù)庫(kù)項(xiàng)目,不如集中精力于現(xiàn)有數(shù)據(jù)庫(kù),并探索利用向量引擎增強(qiáng)這些數(shù)據(jù)庫(kù)的機(jī)會(huì),使其更加健壯和強(qiáng)大”。

5、寫(xiě)在最后

放眼如今的數(shù)據(jù)庫(kù)市場(chǎng),堪稱(chēng)百花齊放。有基于傳統(tǒng)路線的,以MySQL,Oracle為基礎(chǔ)的;有走新理論的,基于Aurora,Spanner等;有面向應(yīng)用場(chǎng)景的,比如工業(yè)數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)等。更有向量數(shù)據(jù)庫(kù)這種以黑馬之姿為繚亂的數(shù)據(jù)庫(kù)江湖增添異色的。

“于無(wú)聲處聽(tīng)驚雷”。每一次表層應(yīng)用需求的轉(zhuǎn)變,都會(huì)推動(dòng)底層基礎(chǔ)設(shè)施技術(shù)的更新。數(shù)據(jù)庫(kù)同樣如是。大模型時(shí)代的到來(lái),生成式AI的日新月異,牽引著數(shù)據(jù)量和數(shù)據(jù)類(lèi)型發(fā)生質(zhì)的變化。這催生了對(duì)于向量數(shù)據(jù)庫(kù)的需求。向量數(shù)據(jù)庫(kù)十分契合AI大模型非結(jié)構(gòu)化場(chǎng)景,仿佛天選,但長(zhǎng)遠(yuǎn)來(lái)看,其市場(chǎng)需求尚處于初期,中遠(yuǎn)期規(guī)模還不到夸張之時(shí)。在若干輪優(yōu)勝劣汰之后,我們或許才能看清誰(shuí)是真正的執(zhí)棋者。

參考鏈接:

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://www.yicai.com/news/101799505.html

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://venturebeat.com/ai/how-vector-databases-can-revolutionize-our-relationship-with-generative-ai/

https://medium.com/data-engineer-things/why-you-shouldnt-invest-in-vector-databases-c0cd3f59d23c

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2023-11-27 00:58:00

數(shù)據(jù)庫(kù)AI

2023-07-28 08:00:00

人工智能向量數(shù)據(jù)庫(kù)

2024-05-22 12:07:12

向量數(shù)據(jù)庫(kù)AI

2023-01-05 08:00:00

2022-12-05 08:00:00

數(shù)據(jù)庫(kù)向量化數(shù)據(jù)庫(kù)性能

2025-04-03 16:02:14

2023-10-09 14:51:53

向量數(shù)據(jù)庫(kù)

2023-11-17 07:30:30

線段pgvector實(shí)踐

2019-06-11 15:05:51

數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)技巧SQL調(diào)優(yōu)

2023-08-30 09:00:00

向量數(shù)據(jù)庫(kù)大語(yǔ)言模型

2025-04-02 00:00:00

2025-04-03 11:04:40

2021-03-03 20:43:17

ChromeXPathHTML

2019-03-25 14:53:35

人工智能AI開(kāi)發(fā)者

2020-04-02 11:06:47

數(shù)據(jù)庫(kù)Docker容器

2023-12-10 20:37:48

Kafka數(shù)據(jù)庫(kù)工具

2011-05-10 10:07:53

Windows

2023-07-17 10:45:03

向量數(shù)據(jù)庫(kù)NumPy
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)