自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分布式向量數(shù)據(jù)庫:賦能大模型長期記憶與精準(zhǔn)檢索

原創(chuàng) 精選
數(shù)據(jù)庫
盡管向量數(shù)據(jù)庫收到的歡呼聲不斷,但它們也面臨著不小的爭議。向量數(shù)據(jù)庫真的是一個(gè)偽需求嗎?向量數(shù)據(jù)庫是否可以助力企業(yè)發(fā)掘數(shù)據(jù)價(jià)值,創(chuàng)造新商機(jī)?帶著這些問題,51CTO采訪了星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙。

2023年初,ChatGPT爆火,越來越多的企業(yè)決策者和技術(shù)人員對(duì)生成式人工智能產(chǎn)生了濃厚興趣。他們開始探索如何利用這種技術(shù)改善企業(yè)的運(yùn)營效率,優(yōu)化決策過程。乘著AIGC火熱的浪潮,向量數(shù)據(jù)庫作為處理非結(jié)構(gòu)化數(shù)據(jù)的重要工具受到越來越多的關(guān)注,甚至?xí)x升為明星數(shù)據(jù)庫。

盡管向量數(shù)據(jù)庫收到的歡呼聲不斷,但它們也面臨著不小的爭議。有人認(rèn)為,向量的存儲(chǔ)與檢索是真實(shí)需求,而且會(huì)隨著AI發(fā)展水漲船高,前途光明。但這和專用的向量數(shù)據(jù)庫并沒有關(guān)系——加裝向量擴(kuò)展的經(jīng)典數(shù)據(jù)庫會(huì)成為絕對(duì)主流,而專用的向量數(shù)據(jù)庫是一個(gè)偽需求。向量數(shù)據(jù)庫真的是一個(gè)偽需求嗎?向量數(shù)據(jù)庫是否可以助力企業(yè)發(fā)掘數(shù)據(jù)價(jià)值,創(chuàng)造新商機(jī)?帶著這些問題,51CTO采訪了星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙。

專才專用,向量數(shù)據(jù)庫助力企業(yè)高性能讀取語義特征

相比于向量數(shù)據(jù)庫,很多傳統(tǒng)數(shù)據(jù)庫也具備向量存儲(chǔ)與檢索功能,在部分企業(yè)的實(shí)踐中也表現(xiàn)出不錯(cuò)的性能。那么,當(dāng)一個(gè)傳統(tǒng)數(shù)據(jù)庫具備了向量檢索和存儲(chǔ)功能時(shí),是否就能被認(rèn)為是向量數(shù)據(jù)庫?它們是否可以被當(dāng)做專門的向量數(shù)據(jù)庫來進(jìn)行實(shí)踐應(yīng)用?

劉熙表示,基于星環(huán)科技服務(wù)企業(yè)的實(shí)踐經(jīng)驗(yàn)來看,如果企業(yè)的數(shù)據(jù)量相對(duì)較小,在訪問、并發(fā)、延遲要求不?的情況下,從原有數(shù)據(jù)庫中封裝向量計(jì)算的方法具有一定的可行性。但是,如果企業(yè)數(shù)據(jù)規(guī)模增大、訪問并發(fā)指標(biāo)提升,考慮到性能、擴(kuò)展性和資源彈性等多方面因素,企業(yè)就需要專業(yè)的向量數(shù)據(jù)庫進(jìn)行業(yè)務(wù)處理?!熬拖駥⒆孕熊嚰由习l(fā)動(dòng)機(jī),再改裝成四個(gè)輪子,也能在路上跑一跑,三四十邁的速度也不在話下,但它真的能被當(dāng)作汽車來使用嗎?答案當(dāng)然是不能,因?yàn)樵趯?duì)性能、安全性等方面有一定要求的公路上,這個(gè)僅有一個(gè)框架的四輪車顯然是捉襟見肘的?!?/span>

此外,劉熙還認(rèn)為,向量數(shù)據(jù)庫最鮮明的特征是通過AI技術(shù)提取圖像、音視頻數(shù)據(jù)背后的語義特征,再將這些語義特征映射到高維向量空間中,使語義問題轉(zhuǎn)化成向量檢索問題,從而能夠讀取圖像、音視頻數(shù)據(jù)背后的含義。而語義問題的向量轉(zhuǎn)化恰恰是傳統(tǒng)數(shù)據(jù)庫不能勝任的。

當(dāng)然,向量數(shù)據(jù)庫也并不是萬能的,在特定的業(yè)務(wù)場景下,通過合理結(jié)合向量數(shù)據(jù)庫與其他傳統(tǒng)數(shù)據(jù)庫的優(yōu)勢,因地制宜施策,才能事半功倍,高效完成工作。劉熙舉例說,針對(duì)文本搜索場景,向量搜索和全文搜索擅長解決的問題并不完全相同,全文搜索更適合做關(guān)鍵字匹配,而向量搜索能找出文字不同但語義相近的內(nèi)容。根據(jù)劉熙團(tuán)隊(duì)的實(shí)踐經(jīng)驗(yàn),在文本搜索場景中,相比單獨(dú)使用向量或搜索者全文搜索,使用向量加全文的聯(lián)合召回,可以實(shí)現(xiàn)更高的精度。

錦上添花,分布式部署提高向量數(shù)據(jù)庫水平擴(kuò)展能力

劉熙在采訪中表示,分布式向量數(shù)據(jù)庫具備三方面的關(guān)鍵能力:首先,作為一個(gè)數(shù)據(jù)庫產(chǎn)品,它需要具備安全、運(yùn)維等關(guān)鍵能力;其次,它需要具有分布式特性,包含分布式存儲(chǔ)、分布式計(jì)算、分布式事務(wù)和分布式資源管理等四個(gè)方面的分布式技術(shù)能力;最后,與傳統(tǒng)數(shù)據(jù)庫不同,向量數(shù)據(jù)庫需要具備AI能力。因此,分布式向量數(shù)據(jù)庫涉及多個(gè)領(lǐng)域的知識(shí),并且需要多方的人才來共同實(shí)施完成。據(jù)介紹,劉熙團(tuán)隊(duì)的成員就來自不同的技術(shù)部門,包括存儲(chǔ)、計(jì)算、安全、AI等。

而由于向量索引大部分情況下是內(nèi)存索引,對(duì)內(nèi)存容量要求較大。但有些業(yè)務(wù)場景如新聞?lì)?,即便是清洗過的數(shù)據(jù),日增量也是巨大的,這無疑是對(duì)向量數(shù)據(jù)庫廠商的考驗(yàn)。對(duì)此,劉熙團(tuán)隊(duì)一方面對(duì)向量數(shù)據(jù)庫進(jìn)行分布式部署,提高其水平擴(kuò)展能力,另一方面,通過閃存的向量索引方式來提升性能。劉熙舉例說,在其公司大模型外掛的向量數(shù)據(jù)庫場景中,單是一年某一品類的金融新聞數(shù)據(jù)就有近1T的內(nèi)存開銷,可見數(shù)據(jù)量之龐大。由此,除了選擇內(nèi)存較大的設(shè)備,分布式的部署方式也在很大程度上可以提高向量數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)量。分布式部署使向量數(shù)據(jù)庫具有更加靈活的水平擴(kuò)展能力,從而助力大模型提高數(shù)據(jù)收集、處理和分析的能力。

為虎添翼,向量數(shù)據(jù)庫助力大模型檢索精確度不斷提升

ChatGPT爆火,“百模大戰(zhàn)”打響。隨著非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的發(fā)展,大模型對(duì)語言、音視頻、圖像的向量檢索需求飛速增長,專業(yè)的向量數(shù)據(jù)庫憑借巨大的性能優(yōu)勢與獨(dú)有的特征優(yōu)勢助力大模型緩解“人工智能幻想”,提高“長期記憶能力”,從而提升檢索精確度。

劉熙團(tuán)隊(duì)從兩方面施策助力大語言模型改善“人工智能幻覺”現(xiàn)象。

一方面,企業(yè)需要在數(shù)據(jù)鏈路上進(jìn)行工程化處理,從而增強(qiáng)檢索技術(shù)。另一方面,在文本檢索場景中引入稀疏向量,通過稀疏、稠密向量的混合檢索提升向量數(shù)據(jù)庫的召回精度。

此外,大模型的“長期記憶能力”的欠缺也是一個(gè)不足之處。劉熙認(rèn)為,解決這個(gè)問題,本質(zhì)上依賴外部存儲(chǔ)來存取當(dāng)下的或者私域的各類數(shù)據(jù),而存儲(chǔ)的首選肯定是向量數(shù)據(jù)庫,畢竟向量召回從語義上更符合用戶的需求。

劉熙團(tuán)隊(duì)利用向量數(shù)據(jù)庫為大模型提供三種輔助能力:

首先,將向量數(shù)據(jù)庫作為新知識(shí)的載體。劉熙團(tuán)隊(duì)通過向量數(shù)據(jù)庫Hippo內(nèi)置的向量轉(zhuǎn)化工具將實(shí)時(shí)的知識(shí)轉(zhuǎn)化成向量數(shù)據(jù)存儲(chǔ)在Hippo中,從而讓大模型能夠及時(shí)感知前沿知識(shí)和信息,降低大模型二次訓(xùn)練的時(shí)間和成本。

其次,借助向量數(shù)據(jù)庫存儲(chǔ)單次上傳的超大文本、對(duì)話內(nèi)容等信息,為大模型提供理論上沒有上限的長期記憶,使企業(yè)不必因存儲(chǔ)超長token而耗費(fèi)大量資源。

最后,語義緩存能力。企業(yè)在建立自己的知識(shí)庫時(shí),可以將問答知識(shí)存儲(chǔ)在向量數(shù)據(jù)庫中,存儲(chǔ)方式為數(shù)據(jù)含義,這意味著如果有相似問題,用戶就可以基于語義內(nèi)容命中緩存給出結(jié)果,減少對(duì)大模型的訪問,從而降低成本并提升檢索的效率。

劉熙認(rèn)為,向量數(shù)據(jù)庫作為一種基礎(chǔ)的AI設(shè)施,可以有效地解決AI技術(shù)在實(shí)際應(yīng)用中的問題。它源自AI,同時(shí)又為解決AI技術(shù)應(yīng)用問題提供了有效的解決方案。

未來展望:一站式、公有云托管或成向量數(shù)據(jù)庫發(fā)展趨勢

在信息價(jià)值越來越受到重視的今天,企業(yè)也急切希望通過對(duì)已有數(shù)據(jù)的分析獲得新的突破口,實(shí)現(xiàn)業(yè)務(wù)增長。

那么,企業(yè)該如何選擇向量數(shù)據(jù)庫?劉熙表示,在數(shù)據(jù)不斷膨脹、計(jì)算需求指數(shù)級(jí)增長、需求快速變化的情況下,企業(yè)應(yīng)該選擇專業(yè)的向量數(shù)據(jù)庫。同時(shí),企業(yè)還需要關(guān)注向量數(shù)據(jù)庫是否具有高擴(kuò)展性、高準(zhǔn)確性、高性能以及易用性等特性,即企業(yè)在簡易的操作下,可以實(shí)現(xiàn)大規(guī)模向量數(shù)據(jù)的存儲(chǔ)和檢索,通過支持多類型索引、檢索優(yōu)化等方式實(shí)現(xiàn)高準(zhǔn)確性檢索,能夠使軟硬件深度優(yōu)化,充分發(fā)揮CPU多核、高內(nèi)存帶寬等優(yōu)勢,擁有強(qiáng)勁算力。此外,劉熙還認(rèn)為,由于廠商(或與合作伙伴共研)推出的大模型已經(jīng)與向量數(shù)據(jù)庫經(jīng)過充分地磨合,因此使用效果會(huì)更佳,同時(shí)也幫助企業(yè)節(jié)省了單獨(dú)選型與適配的成本。因此,一站式,即整體采購領(lǐng)域大模型+向量數(shù)據(jù)庫的模式,可能是向量數(shù)據(jù)庫市場的發(fā)展趨勢之一。

談到向量數(shù)據(jù)庫的未來發(fā)展方向,劉熙認(rèn)為主要有以下四點(diǎn):

第一,向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫會(huì)進(jìn)行直接競爭。大體而言,目前向量數(shù)據(jù)庫有2條技術(shù)路線,一種是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫封裝向量計(jì)算功能,另一種是專業(yè)的向量數(shù)據(jù)庫。

第二,向量數(shù)據(jù)庫與大模型的生態(tài)兼容性至關(guān)重要。隨著大模型和向量數(shù)據(jù)庫的組合方案更加成熟,未來用戶可能會(huì)選擇整體方案,以此來避免分別采購成本高、兼容性認(rèn)證復(fù)雜等問題。

第三,除語言模型外,對(duì)于圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)在大模型中應(yīng)用時(shí),向量數(shù)據(jù)庫的價(jià)值會(huì)更加凸顯。

第四,以基于公有云的全托管方式來為用戶提供服務(wù),可能會(huì)成為向量數(shù)據(jù)庫的主流形式。在保障數(shù)據(jù)安全的情況下,用戶不需要獨(dú)立部署和管理向量數(shù)據(jù)庫,可以將主要精力放在大模型方面,從而提高管理效率。

結(jié)語

向量數(shù)據(jù)庫自AIGC爆火以來收獲了眾多期待,也經(jīng)受了不小的非議,而從星環(huán)科技服務(wù)企業(yè)的實(shí)踐經(jīng)驗(yàn)來看,專用的向量數(shù)據(jù)庫有它存在的價(jià)值,而向量數(shù)據(jù)庫與AI大模型的組合,也值得更多期待。

責(zé)任編輯:梁佳樂 來源: 51CTO
相關(guān)推薦

2014-06-30 14:20:05

NoSQL數(shù)據(jù)庫

2024-12-23 11:31:05

大模型檢索人工智能

2023-10-26 18:10:43

分布式并行技術(shù)系統(tǒng)

2021-11-08 10:52:02

數(shù)據(jù)庫分布式技術(shù)

2023-12-14 14:49:05

SQL數(shù)據(jù)庫分布式 SQL

2019-06-10 14:31:24

MySQL存儲(chǔ)數(shù)據(jù)庫

2023-11-01 20:10:53

分布式并行技術(shù)

2023-11-27 08:33:42

2013-04-26 16:18:29

大數(shù)據(jù)全球技術(shù)峰會(huì)

2021-12-20 15:44:28

ShardingSph分布式數(shù)據(jù)庫開源

2023-03-26 12:43:31

數(shù)據(jù)庫KeyValue

2023-12-05 07:30:40

KlustronBa數(shù)據(jù)庫

2021-08-16 09:55:41

鴻蒙HarmonyOS應(yīng)用

2015-10-16 18:03:25

Docker分布式CoreOS

2021-08-27 09:57:18

鴻蒙HarmonyOS應(yīng)用

2022-06-10 09:00:00

數(shù)據(jù)庫分布式數(shù)據(jù)庫集群

2025-01-14 10:29:34

2023-10-06 13:52:40

數(shù)據(jù)庫模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)