大模型檢索增強(RAG)技術(shù)之——GraphRAG,知識庫產(chǎn)品必不可少的技術(shù) 原創(chuàng)
“ RAG技術(shù)的重難點,是怎么更高效和更準(zhǔn)確的檢索數(shù)據(jù) ”
知識庫技術(shù)作為大模型技術(shù)的一個重要應(yīng)用方向,也是對大模型技術(shù)的一個重要補充;特別是在問答系統(tǒng),如智能客服等領(lǐng)域,知識庫有著非同一般的作用。
從技術(shù)的角度來說,一個智能客服的好壞,除了大模型本身的質(zhì)量之外,更多的是由知識庫決定的。因此,知識庫的作用不言而喻,而怎么才能做出一個合格的知識庫,需要使用哪些技術(shù)。
今天,我們就來討論一下GraphRAG知識庫技術(shù)。
GraphRAG
在之前的文章中,也有介紹過關(guān)于知識庫技術(shù)的一些文章,如??爆火的本地知識庫項目是什么?什么是RAG?本地知識庫與大模型的關(guān)系??。
其實對很多不是特別了解知識庫的人來說,總以為知識庫和RAG是一個東西。
但事實上,知識庫和大模型并沒有直接關(guān)系,甚至可以說知識庫是知識庫,大模型是大模型兩者之間沒有什么關(guān)聯(lián)。它們是兩種完全不同的技術(shù),而且知識庫的出現(xiàn)并不是因為大模型。
現(xiàn)在網(wǎng)上常把大模型和知識庫放在一塊,也經(jīng)常聽到有人說大模型知識庫,包括作者自己。
從技術(shù)的角度來說,知識庫和大模型是獨立的兩個技術(shù)或者說兩個產(chǎn)品;而把它們兩個進(jìn)行關(guān)聯(lián)的技術(shù)叫做——RAG 檢索生成增強。
在之前的文章中也介紹過,知識庫就相當(dāng)于我們現(xiàn)實世界中的圖書館,檔案室,資料庫;里面存放了大量的資料,而我們平常遇到不懂的東西就可以去這些資料庫里查資料。
大模型也是如此,由于大模型自身的缺陷等問題,導(dǎo)致大模型在某些方面會表現(xiàn)出知識不足的問題;因此,就給大模型配置了一個外部資料庫,讓它可以隨時進(jìn)行查閱,而這個外部資料庫就叫做大模型知識庫。
對大模型來說,這個資料庫是什么樣的不重要,怎么管理的,怎么運營的都不重要。
甚至很多人會認(rèn)為,搭建知識庫就必須要用到向量數(shù)據(jù)庫,就必須使用向量檢索。但事實上并非如此,知識庫可以是任何形式,包括向量數(shù)據(jù)庫,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫,甚至是一些亂七八糟的文本文件,音視頻等。
因為,從RAG的技術(shù)流程上來說,用戶發(fā)出提問之后,是有RAG去知識庫中做知識匹配,然后把匹配到的知識和用戶的問題通過提示詞的方式一塊輸入給大模型,然后大模型根據(jù)這些知識做出回答。
上面就是RAG技術(shù)完整的執(zhí)行流程,可以看出知識庫和大模型并沒有直接的交集,而是由RAG和知識庫進(jìn)行交流,然后把檢索結(jié)果交給大模型。
因此,知識庫的重難點是怎么更加高效和準(zhǔn)確的存儲和檢索知識;簡單來說就是,如果有一個圖書館存儲了全世界所有的書籍,資料;然后用戶想問一個了解什么是大模型的問題,這時怎么用最快的速度,找到其中最準(zhǔn)確,最權(quán)威的回答。
而不是給你巴拉巴拉,要想了解什么是大模型就要學(xué)習(xí)線性代數(shù),概率論,編程,算法等等。雖然它們也和大模型相關(guān),但它們并沒有準(zhǔn)確的回答問題,而這就是RAG需要做的事情。
那什么是GraphRAG呢?
在傳統(tǒng)的RAG技術(shù)中,施壓的是向量格式的存儲與檢索,簡單來說就是用embedding模型分析內(nèi)容的語義,然后把它們存儲到向量數(shù)據(jù)庫中進(jìn)行檢索。
而GraphRAG技術(shù)采用的是一種新的方式來存儲和檢索數(shù)據(jù),那就是知識圖譜。
知識圖譜其實是著名的搜索引擎巨頭——Google谷歌提出的一種智能搜索引擎;它的定義是結(jié)構(gòu)化的語義數(shù)據(jù)庫——用于迅速描述物理世界中的概念與其相互關(guān)系。
從技術(shù)的角度來說,知識圖譜是通過圖結(jié)構(gòu)的形式,把錯綜復(fù)雜的數(shù)據(jù)整理成一種簡單的實體,關(guān)系實體的三元組,最后聚合大量知識從而實現(xiàn)知識的快速響應(yīng)和推理。
如下圖所示,就是一個簡單的知識圖譜:
而簡單的理解知識圖譜,就是一種更加高效組織和檢索數(shù)據(jù)的一種技術(shù);它能讓RAG更加準(zhǔn)確和快速的從復(fù)雜的知識中檢索中需要的數(shù)據(jù)。
在前面的內(nèi)容也說過,大模型其實并不和知識庫打交道,它是通過RAG技術(shù)給大模型提供知識;因此,RAG技術(shù)的好壞就是它檢索數(shù)據(jù)的效率和準(zhǔn)確性。
因為基于知識圖片構(gòu)建的RAG技術(shù),檢索能力更強,也更準(zhǔn)確;因此GraphRAG技術(shù)成為了一個熱門的研究方向。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/sV-mSnaaG_GRwknnsGFTXQ???
