再談大模型檢索增強(qiáng)生成——RAG 原創(chuàng)
“ RAG的核心部件有大模型,embedding模型和檢索系統(tǒng);而RAG的重點(diǎn)和難點(diǎn)都在于檢索系統(tǒng)”
RAG檢索增強(qiáng)生成——也是很多人理解的本地知識(shí)庫(kù),但RAG和本地知識(shí)庫(kù)還是有很大區(qū)別的;但這不是今天討論的重點(diǎn),重點(diǎn)是為什么會(huì)有RAG技術(shù),以及RAG技術(shù)解決了哪些問(wèn)題?
大模型存在的幾個(gè)主要問(wèn)題,知識(shí)的局限性 實(shí)時(shí)性和幻覺(jué)問(wèn)題 以及隱私數(shù)據(jù)
RAG并不能完全解決幻覺(jué)問(wèn)題,但可以減少幻覺(jué)的發(fā)生
in context learning 語(yǔ)境學(xué)習(xí)/上下文學(xué)習(xí)
RAG與大模型
想知道為什么會(huì)有RAG技術(shù),首先要知道大模型的幾個(gè)缺陷。
大模型主要有以下幾個(gè)問(wèn)題:
- 知識(shí)的局限性
- 知識(shí)的實(shí)時(shí)性
- 大模型的幻覺(jué)
目前的大模型都是基于預(yù)訓(xùn)練模式,也就是說(shuō)設(shè)計(jì)出來(lái)的模型需要經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練之后才能夠使用;但預(yù)訓(xùn)練有一個(gè)很嚴(yán)重的缺點(diǎn)就是,訓(xùn)練的數(shù)據(jù)都是之前,大模型無(wú)法獲取訓(xùn)練數(shù)據(jù)之后的信息。
比如說(shuō),昨天訓(xùn)練了一個(gè)新的模型,那這個(gè)模型就不可能知道今天發(fā)生了哪些事情;所以模型的知識(shí)是截止到其訓(xùn)練數(shù)據(jù)收集的那一天。而這就是大模型知識(shí)的實(shí)時(shí)性問(wèn)題。
其次是知識(shí)的局限性,大模型預(yù)訓(xùn)練的數(shù)據(jù)基本上來(lái)自于互聯(lián)網(wǎng)中;但互聯(lián)網(wǎng)中只有很小一部分?jǐn)?shù)據(jù)是公開(kāi)的,大部分?jǐn)?shù)據(jù)都是不公開(kāi)的;因此,訓(xùn)練模型就很難獲取到這些不公開(kāi)的數(shù)據(jù),因此大模型的知識(shí)是有局限的。
這也是為什么,在問(wèn)到大模型一些比較專業(yè)的問(wèn)題時(shí),大模型只能泛泛而談,而無(wú)法給出一個(gè)詳細(xì)的答案;原因就是因?yàn)樗约阂膊恢馈?/p>
最后就是大模型的幻覺(jué)問(wèn)題,幻覺(jué)問(wèn)題其實(shí)也可以理解為一種特殊的知識(shí)局限性;那就是大模型在遇到一些不懂的問(wèn)題時(shí),它會(huì)根據(jù)自己的經(jīng)驗(yàn),然后一本正經(jīng)的胡說(shuō)八道。
這就是大模型的幻覺(jué)問(wèn)題,產(chǎn)生幻覺(jué)問(wèn)題的原因有很多,知識(shí)不足只是其中的一個(gè)原因而且也不是本質(zhì)上的原因。眾所周知,大模型的本質(zhì)是一種數(shù)學(xué)模型,其是用概率和高維向量之間的運(yùn)算來(lái)得到具體的結(jié)果。
但不論是概率還是向量之間的運(yùn)算,都無(wú)法保證絕對(duì)的正確性,因此這就導(dǎo)致大模型會(huì)出現(xiàn)一本正經(jīng)的胡說(shuō)八道的現(xiàn)象,也就是幻覺(jué)的問(wèn)題。
還有一個(gè)問(wèn)題就是,數(shù)據(jù)的隱私性問(wèn)題,比如說(shuō)公司內(nèi)部的經(jīng)營(yíng)數(shù)據(jù),財(cái)務(wù)數(shù)據(jù)和科研數(shù)據(jù)等;這都屬于公司的絕密信息,因此一般不能直接用來(lái)進(jìn)行大模型的訓(xùn)練;但有時(shí)候又需要大模型使用這些隱私數(shù)據(jù)。
所以,為了解決以上問(wèn)題業(yè)內(nèi)就提出了一種補(bǔ)償措施,那就是RAG技術(shù)。RAG技術(shù)主要包括兩個(gè)方面,檢索與生成;所謂的檢索就是在向大模型提問(wèn)之前,先從外部資料中檢索到相關(guān)的資料,然后一起帶給大模型;大模型就可以根據(jù)這些資料進(jìn)行更加精準(zhǔn)的回答。
而大模型使用RAG技術(shù)的原理就是In Context Learning(語(yǔ)義學(xué)習(xí)/上下文學(xué)習(xí))技術(shù);本質(zhì)上來(lái)說(shuō)就是一種提示詞技術(shù),通過(guò)RAG技術(shù)從外部資料中檢索到數(shù)據(jù)之后,把這些數(shù)據(jù)當(dāng)做上下文拼接到提示詞中,然后大模型就可以理解這些提示詞,然后做出正確的回答。
不過(guò)RAG技術(shù)雖然能夠解決大模型以上的幾個(gè)問(wèn)題,但并不是完全解決;主要依賴于以下幾個(gè)方面:
- embedding模型
- 外部資料的質(zhì)量問(wèn)題
- 檢索的準(zhǔn)確性問(wèn)題
- 大模型的質(zhì)量問(wèn)題
后面兩個(gè)應(yīng)該很好理解,主要就是embedding模型,所謂的embedding模型就是,RAG的檢索并不是傳統(tǒng)的數(shù)據(jù)庫(kù)方式的字符匹配,而是基于向量模型的語(yǔ)義匹配的方式。
因此,就需要一種方式把資料從文本/視頻/語(yǔ)音等多種格式的數(shù)據(jù)轉(zhuǎn)化為向量模式,而這個(gè)就是embedding模型的作用;而embedding模型本質(zhì)上也是一個(gè)大模型。
還有就是,大模型并沒(méi)有解決幻覺(jué)問(wèn)題,只是減少了幻覺(jué)的發(fā)生;以目前的技術(shù)來(lái)看,大模型幻覺(jué)問(wèn)題還無(wú)法徹底解決,只能盡量地減少。
所以,一個(gè)好的RAG系統(tǒng),不但需要一個(gè)好的大模型和embedding模型,更重要的是要有一個(gè)強(qiáng)大的檢索系統(tǒng);能夠更加高效和準(zhǔn)確地檢索到準(zhǔn)確的數(shù)據(jù)。
否則,就像你拿著一個(gè)錯(cuò)誤的復(fù)習(xí)資料,即使你成績(jī)?cè)俸?,你又能考多少分?/p>
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/UBcbUw22aVcjyifqGYEAjw??
