自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG與本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),以及知識(shí)圖譜的聯(lián)系與區(qū)別 原創(chuàng)

發(fā)布于 2024-11-29 20:54
瀏覽
0收藏

?“ RAG的本質(zhì)是高效檢索,而知識(shí)庫(kù),向量數(shù)據(jù)庫(kù)和知識(shí)圖譜只是組織數(shù)據(jù)的一種形式”

這兩天在之前的一篇關(guān)于RAG檢索增強(qiáng)的文章中有一個(gè)評(píng)論,問(wèn)RAG和知識(shí)圖譜的區(qū)別;這時(shí)才發(fā)現(xiàn),原來(lái)很多人對(duì)RAG技術(shù)還沒(méi)有一個(gè)本質(zhì)的認(rèn)識(shí),以及與其相關(guān)的本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù)等。

所以,今天就來(lái)介紹一下上面的這些概念,以及其聯(lián)系與區(qū)別。

RAG——檢索增強(qiáng)生成

前面寫過(guò)好幾篇關(guān)于RAG的文章,但可能到現(xiàn)在很多人還不明白什么是RAG——檢索增強(qiáng)生成。

先說(shuō)RAG技術(shù)產(chǎn)生的背景,RAG技術(shù)是基于大模型文本生成而產(chǎn)生的一種技術(shù);目的是解決大模型的缺陷問(wèn)題,因此就有了RAG技術(shù)來(lái)幫助大模型,簡(jiǎn)單來(lái)說(shuō)RAG就相當(dāng)于給大模型配備了一個(gè)資料庫(kù),遇到不懂的問(wèn)題不要胡扯,先去查查資料。

大模型主要缺陷:

知識(shí)更新不及時(shí):大模型的知識(shí)僅限于訓(xùn)練數(shù)據(jù)的截止時(shí)間,無(wú)法獲取之后的知識(shí)

大模型幻覺(jué)問(wèn)題:大模型一本正經(jīng)的胡說(shuō)八道,

大模型知識(shí)不足:大模型的知識(shí)有限,很多垂直領(lǐng)域的知識(shí)它都不知道

RAG技術(shù)的運(yùn)作流程是什么樣的呢?

RAG與本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),以及知識(shí)圖譜的聯(lián)系與區(qū)別-AI.x社區(qū)

如上圖所示,完整呈現(xiàn)了RAG的運(yùn)作流程;RAG技術(shù)主要分為三個(gè)部分:

1. 創(chuàng)建資料庫(kù)

2. 查資料

3. 帶著資料問(wèn)問(wèn)題

舉個(gè)生活中的例子,你是一個(gè)學(xué)生,有一天遇到一個(gè)你不懂的問(wèn)題;然后,你爸媽就讓你去問(wèn)鄰居家上大學(xué)的哥哥姐姐;如果是一些常識(shí)性的問(wèn)題,那么他們可以直接告訴你結(jié)果。

但你這個(gè)問(wèn)題比較特殊,涉及到具體的專業(yè)知識(shí),比如說(shuō)化學(xué),物理等;這時(shí)上大學(xué)的哥哥姐姐可能也不知道該怎么回答你的問(wèn)題,但以他多年的學(xué)習(xí)經(jīng)驗(yàn),他覺(jué)得這個(gè)問(wèn)題他可以解決,但需要先看一下你的課本或資料。

這個(gè)步驟就是RAG中的第三步,你就是用戶,大模型就是鄰家的哥哥姐姐;而你比較聰明,在來(lái)的時(shí)候就怕哥哥姐姐需要看你的課本,你隨身就把課本和資料給帶著了;這個(gè)就是第二步。

然后,鄰家的哥哥姐姐看了一會(huì)你的課本,然后告訴你這個(gè)問(wèn)題應(yīng)該怎么巴拉巴拉的給你講,然后你的問(wèn)題就解決了。

現(xiàn)在回到RAG的問(wèn)題,為什么需要這三步?

因?yàn)榇竽P蜕厦娴娜毕荩詫?dǎo)致大模型能力并不是很強(qiáng),因此有些東西需要查資料才能知道;但怎么才給大模型建一個(gè)資料庫(kù)呢?

這就是第一步,比如需要從不同的文檔加載數(shù)據(jù),如word,pdf,txt,音頻,視頻等;然后需要把這些文檔中有關(guān)聯(lián)的數(shù)據(jù)放到一塊,這個(gè)就叫做嵌入(embedding),最后把這些數(shù)據(jù)存儲(chǔ)到一個(gè)地方,比如向量數(shù)據(jù)庫(kù)。

第二步就是檢索,有了這些資料之后,怎么才能根據(jù)不同的問(wèn)題,從中找到相關(guān)聯(lián)的資料;比如,你不可能因?yàn)橐粋€(gè)歷史問(wèn)題就去翻閱整個(gè)永樂(lè)大典;所以這就需要一種檢索技術(shù),比如目錄/索引。

接著是第三步,你帶著第二步檢索到的數(shù)據(jù)給到大模型,然后大模型就可以根據(jù)這些數(shù)據(jù)來(lái)回答你的問(wèn)題;這時(shí)你可能會(huì)說(shuō),既然有了這些資料我自己看不就行了,還要大模型干什么;那如果你是公司客服,你會(huì)為每個(gè)用戶都重新介紹一下你們公司的產(chǎn)品和企業(yè)文化嗎? 

RAG與本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),以及知識(shí)圖譜的聯(lián)系與區(qū)別-AI.x社區(qū)

而這就是整個(gè)RAG技術(shù)的實(shí)現(xiàn)流程,每個(gè)環(huán)節(jié)又涉及到不同的技術(shù);比如第一步創(chuàng)建資料庫(kù),需要文檔加載技術(shù),分詞技術(shù),嵌入技術(shù)等;第二步需要向量化技術(shù),準(zhǔn)確高效的檢索技術(shù)等;第三步需要提示詞技術(shù),大模型調(diào)用技術(shù)等,因?yàn)榈诙讲榈降馁Y料需要放到提示詞中讓大模型自己去“看”。

所以,從這里也可以看出,嚴(yán)格來(lái)說(shuō)RAG技術(shù)和大模型沒(méi)太大直接關(guān)系(這里的沒(méi)關(guān)系是指進(jìn)行業(yè)務(wù)處理的大模型,而文檔嵌入本質(zhì)上使用的也是嵌入大模型);大模型不管你使用的是什么資料庫(kù),也不關(guān)心你查到了哪些資料,大模型關(guān)心的只是你最后在提示詞中攜帶的資料。

大模型與本地知識(shí),向量數(shù)據(jù)和知識(shí)圖譜

那么,RAG和本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),還有知識(shí)圖譜有什么關(guān)系呢?

什么是本地知識(shí)庫(kù)?

本地知識(shí)庫(kù)說(shuō)白了就是資料庫(kù)的一種,比如說(shuō)你們公司的技術(shù)檔案,銷售記錄,公司的規(guī)章制度等都屬于本地知識(shí)庫(kù)的范圍;本地知識(shí)庫(kù)的作用是把一個(gè)組織內(nèi)部的資料梳理出來(lái)方便大家使用。

所以,本地知識(shí)庫(kù)的本質(zhì)是資料庫(kù);而這個(gè)資料庫(kù)可以有多種不同的組織形式,比如以文檔,書籍,或者網(wǎng)頁(yè),視頻,甚至是會(huì)議記錄等形式存在,也可能是多種形式的混合。

而向量數(shù)據(jù)庫(kù)是一種存儲(chǔ)數(shù)據(jù)的方式,只不過(guò)由于大模型的出現(xiàn),導(dǎo)致基于以前的字符存儲(chǔ)變成了基于語(yǔ)義的向量存儲(chǔ);向量數(shù)據(jù)庫(kù)從功能上來(lái)說(shuō)和傳統(tǒng)的數(shù)據(jù)庫(kù)沒(méi)有本質(zhì)區(qū)別,不論是mysql,還是redis;只不過(guò)傳統(tǒng)的數(shù)據(jù)庫(kù)是基于字符匹配,而向量數(shù)據(jù)庫(kù)基于語(yǔ)義匹配(本質(zhì)上一種數(shù)學(xué)模型,如歐式距離和余弦函數(shù))。

向量數(shù)據(jù)庫(kù)既然是數(shù)據(jù)庫(kù),那么它就具備數(shù)據(jù)庫(kù)的特性,存儲(chǔ)數(shù)據(jù)和查詢數(shù)據(jù);它是數(shù)據(jù)存儲(chǔ)的載體,就類似于工作中的文件夾。

而知識(shí)圖譜又是什么? 

所謂的知識(shí)圖譜是由谷歌推出的一種搜索引擎技術(shù),面對(duì)互聯(lián)網(wǎng)中日益增長(zhǎng)的數(shù)據(jù),怎么表示這些數(shù)據(jù),以及這些數(shù)據(jù)之間的關(guān)系成為了一個(gè)難題;因此,谷歌就推出了知識(shí)圖譜技術(shù),用這個(gè)方式去記錄這些數(shù)據(jù)以及其關(guān)聯(lián)關(guān)系。說(shuō)白了知識(shí)圖譜就是一種組織數(shù)據(jù)的方式,比如我們?nèi)粘9ぷ骱蜕钪?,?huì)按照日期,地點(diǎn),任務(wù)名稱等來(lái)存放不同的文件,資料。


RAG與本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),以及知識(shí)圖譜的聯(lián)系與區(qū)別-AI.x社區(qū)

所以,本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),還有知識(shí)圖譜有什么關(guān)系?

本地知識(shí)庫(kù)即可以使用簡(jiǎn)單的日期,部門,工作任務(wù)來(lái)組織資料,也可以使用知識(shí)圖譜這種更加專業(yè)的方式來(lái)搭建本地知識(shí)庫(kù);而搭建的本地知識(shí)庫(kù)存儲(chǔ)在什么地方?

即可以存儲(chǔ)在傳統(tǒng)的關(guān)系性數(shù)據(jù)庫(kù)中,也可以存儲(chǔ)在文本文件中,當(dāng)然也可以存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。

這就是其三者之間的關(guān)系。

那么它們和RAG又有什么關(guān)系?

前面說(shuō)了,RAG是為了解決大模型本身存在的幾個(gè)缺陷;大模型需要的是你在提示詞中拼接的最終資料,而不會(huì)關(guān)心你這個(gè)資料從哪里來(lái)。而RAG就是從外部檢索資料然后拼接到大模型提示詞中的一種方法論。

RAG最終的目的就是準(zhǔn)確,高效的檢索到相關(guān)的資料;而不管是去知識(shí)圖譜中檢索,還是去本地知識(shí)庫(kù)中檢索,還是去向量數(shù)據(jù)庫(kù)中檢索,亦或者是從傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中檢索,或者直接去網(wǎng)絡(luò)上搜索。

比如說(shuō),你想讓大模型告訴你怎么做西紅柿炒蛋,你需要的是使用RAG技術(shù)檢索到做番茄炒蛋的內(nèi)容,而不是告訴大模型哪里大米產(chǎn)量高,哪里發(fā)生了自然災(zāi)害,原子彈怎么造。

而至于你這個(gè)資料是從哪家餐廳的菜譜中找到的,還是從網(wǎng)絡(luò)上搜索到的,或者還是路邊聽(tīng)說(shuō)的都可以。

問(wèn)題,傳統(tǒng)數(shù)據(jù)庫(kù)可以用來(lái)做RAG嗎?

答案是可以,比如說(shuō)價(jià)格表這種精確的不需要語(yǔ)義檢索的數(shù)據(jù);使用傳統(tǒng)數(shù)據(jù)庫(kù)效果會(huì)更好。一般企業(yè)場(chǎng)景中是把語(yǔ)義檢索和字符匹配同時(shí)使用,需要語(yǔ)義理解的就使用語(yǔ)義檢索庫(kù),比如向量數(shù)據(jù)庫(kù);精確的數(shù)據(jù)就放到傳統(tǒng)數(shù)據(jù)庫(kù)中。

總結(jié)

RAG是一種從外部檢索數(shù)據(jù)的方式;本地知識(shí)庫(kù)相當(dāng)于一個(gè)資料庫(kù);而知識(shí)圖譜是組織數(shù)據(jù)的一種更加科學(xué)的方式;向量數(shù)據(jù)庫(kù)是用來(lái)存儲(chǔ)向量化數(shù)據(jù)的一個(gè)載體。

所以,本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù)和知識(shí)圖譜和RAG沒(méi)什么直接關(guān)系,如果說(shuō)有關(guān)系就是它們?nèi)呖梢宰鳛镽AG技術(shù)的一種具體實(shí)現(xiàn);但RAG也可以使用其它的實(shí)現(xiàn)方式。

RAG,本地知識(shí)庫(kù),向量數(shù)據(jù)庫(kù),知識(shí)圖譜是四個(gè)完全獨(dú)立的技術(shù),它們之間沒(méi)有任何直接關(guān)系,但又可以互相合作以達(dá)到某種效果。

?

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/07N-0FXwFFxoZI-WbJHs8g??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦