大型語言模型(LLM)能夠在短時間內(nèi)生成非常流暢和連貫的文本,為人工智能的對話、創(chuàng)造性寫作和其他廣泛的應(yīng)用開辟了新的可能性,然而,LLM也有著一些關(guān)鍵的局限性。它們的知識僅限于從訓(xùn)練數(shù)據(jù)中識別出的模式,這意味著缺乏對世界的真正理解。同時,推理能力也是有限的,不能進(jìn)行邏輯推理或從多種數(shù)據(jù)源來融合事實。面對更復(fù)雜、更開放的問題時,回答開始變得荒謬或矛盾,美其名曰“幻覺”。
為了彌補(bǔ)這些差距,檢索增強(qiáng)生成(RAG)系統(tǒng)開始涌現(xiàn),其核心思想是從外部來源檢索相關(guān)知識,為 LLM 提供上下文,以便作出更明智的反應(yīng)?,F(xiàn)有的系統(tǒng)大多使用向量嵌入的語義相似度來檢索段落。然而,這種方法有它自己的缺點(diǎn),如缺乏真正的相關(guān)性,無法聚合事實,也沒有推理鏈。這正是知識圖譜的應(yīng)用領(lǐng)域。知識圖譜是..現(xiàn)實世界實體和關(guān)系的結(jié)構(gòu)化表達(dá)。它們通過編碼上下文事實之間的相互聯(lián)系,克服了純向量搜索的缺陷,通過圖搜索可以跨多種信息源進(jìn)行復(fù)雜的多級推理。
向量嵌入和知識圖譜的結(jié)合可以開啟更高水平的推理能力,進(jìn)而提升LLM的準(zhǔn)確性和可解釋性。這種伙伴關(guān)系提供了表層語義以及結(jié)構(gòu)化知識和邏輯的完美融合,LLM 既需要統(tǒng)計學(xué)習(xí),也需要符號表示。
圖片
1. 向量搜索的局限
大多數(shù) RAG 系統(tǒng)依賴于通過文檔集合中段落的向量搜索過程來查找 LLM 的相關(guān)上下文。這一過程有幾個關(guān)鍵步驟:
- 文本編碼: 系統(tǒng)使用像 BERT 這樣的嵌入模型將文本從語料庫中的段落編碼成向量表示。每篇文章都被壓縮成一個密集的向量來捕捉語義。
- 索引: 這些通道向量在高維向量空間中進(jìn)行索引,以實現(xiàn)快速的最近鄰搜索。流行的方法包括 Faiss 和 Pinecone等。
- 查詢編碼: 用戶的查詢語句也被編碼為使用相同嵌入模型的向量表示。
- 相似性檢索: 一個最近鄰搜索在索引的段落中運(yùn)行,根據(jù)距離指標(biāo)(如余弦距離)找到與查詢向量最接近的段落。
- 返回段落結(jié)果: 返回最相似的段落向量,提取原始文本為 LLM 提供上下文。
這種流水線有幾個主要的局限性:
- 通道向量可能無法完全捕獲查詢的語義意圖,嵌入不能表示某些推理連接,重要的上下文最終會被忽視。
- 把整個段落壓縮成單個向量會丟失細(xì)微差別,嵌入在句子中的關(guān)鍵相關(guān)細(xì)節(jié)會變得模糊。
- 匹配是為每個段落獨(dú)立完成的,沒有跨越不同段落的聯(lián)合分析,缺乏連接事實和得出需要匯總的答案。
- 排名和匹配過程是不透明的,沒有透明度來解釋為什么某些段落被認(rèn)為更相關(guān)。
- 只有語義相似性被編碼,沒有表示關(guān)系,結(jié)構(gòu),規(guī)則和其他不同的連接之間的內(nèi)容。
- 對語義向量相似性的單一關(guān)注導(dǎo)致檢索缺乏真正的理解。
隨著查詢變得越來越復(fù)雜,這些限制在無法對檢索到的內(nèi)容進(jìn)行推理方面變得越來越明顯。
2. 整合知識圖譜
知識圖譜表示實體和關(guān)系在相互連接的網(wǎng)絡(luò)中的信息,能夠?qū)崿F(xiàn)跨內(nèi)容的復(fù)雜推理,進(jìn)而增強(qiáng)檢索的能力:
- 顯式的事實,事實直接作為節(jié)點(diǎn)和邊捕獲,而不是壓縮成不透明的向量,這保留了關(guān)鍵的細(xì)節(jié)。
- 上下文細(xì)節(jié),實體包含了豐富的屬性,如提供關(guān)鍵上下文的描述、別名和元數(shù)據(jù)等。
- 網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)了關(guān)系建模實體之間的真實連接、捕獲規(guī)則、層次結(jié)構(gòu)、時間線等。
- 多級推理基于關(guān)系遍歷以及連接來自不同來源的事實,可以推導(dǎo)出需要跨多個步驟進(jìn)行推理的答案。
- 聯(lián)合推理通過實體解析鏈接到同一個現(xiàn)實世界的對象,從而允許進(jìn)行集體分析。
- 可解釋的相關(guān)性,圖形拓?fù)涮峁┝艘环N透明度,可以解釋為什么某些基于連接的事實是相關(guān)的。
- 個性化,捕獲用戶屬性、上下文和歷史交互以定制結(jié)果。
知識圖譜不是孤立的匹配,而是通過圖遍歷的過程能夠收集與查詢相關(guān)的相互關(guān)聯(lián)的上下文事實??山忉尩膔anking基于圖的拓?fù)浣Y(jié)構(gòu),通過編碼結(jié)構(gòu)化事實、關(guān)系和上下文來增強(qiáng)檢索能力,從而實現(xiàn)精確的多步推理。與純向量搜索相比,這提供了更大的相關(guān)性和解釋能力。
3. 利用簡單約束改進(jìn)知識圖譜的嵌入
在連續(xù)向量空間中嵌入知識圖譜是當(dāng)前的研究熱點(diǎn)。知識圖譜可以將實體和關(guān)系表示為向量嵌入,以支持?jǐn)?shù)學(xué)運(yùn)算,額外的約束可以使表示更加優(yōu)化,例如:
- 非負(fù)性約束,將實體嵌入限制為0到1之間的正值會導(dǎo)致稀疏性,明確地模擬了它們的正性質(zhì),并提高了可解釋性。
- 蘊(yùn)涵約束,將對稱、反轉(zhuǎn)、合成等邏輯規(guī)則直接編碼為關(guān)系嵌入的約束來強(qiáng)制這些模式。
- 置信度建模,帶松弛變量的軟約束可以根據(jù)證據(jù)對邏輯規(guī)則的置信度進(jìn)行編碼。
- 正則化,施加了有用的歸納偏差,只增加了一個投影步驟,而沒有使優(yōu)化變得更加復(fù)雜。
- 可解釋性,結(jié)構(gòu)化約束為模型所學(xué)習(xí)的模式提供了透明度,這解釋了推理過程。
- 精確性,約束通過將假設(shè)空間減少到符合要求的表示方法來提高泛化能力。
簡單通用的約束增加到知識圖譜的嵌入,從而產(chǎn)生更優(yōu)化、更易于解釋和邏輯兼容的表示。嵌入獲得模仿真實世界結(jié)構(gòu)和規(guī)則的歸納偏差,這對更準(zhǔn)確和可解釋的推理并沒有引入太多額外的復(fù)雜性。
4. 集成多種推理框架
知識圖譜需要推理來得出新的事實,回答問題,并做出預(yù)測,不同的技術(shù)有著互補(bǔ)的優(yōu)勢:
邏輯規(guī)則將知識表述為邏輯公理和本體,通過定理證明進(jìn)行合理和完整的推理,實現(xiàn)有限的不確定性處理。而圖嵌入用于向量空間運(yùn)算的嵌入式知識圖結(jié)構(gòu),能處理不確定性但缺乏表達(dá)性。神經(jīng)網(wǎng)絡(luò)結(jié)合向量查找具有自適應(yīng)性,但推理不透明。通過對圖結(jié)構(gòu)和數(shù)據(jù)的統(tǒng)計分析能夠自動創(chuàng)建規(guī)則,但質(zhì)量不確定?;旌狭魉€通過邏輯規(guī)則進(jìn)行編碼明確的約束,嵌入提供向量空間操作,神經(jīng)網(wǎng)絡(luò)通過聯(lián)合訓(xùn)練獲得融合的收益。使用基于案例、模糊或概率邏輯的方法來增加透明度,表達(dá)不確定性和對規(guī)則的置信度。通過將推斷的事實和學(xué)到的規(guī)則具體化到圖譜中來擴(kuò)展知識,提供反饋循環(huán)。
關(guān)鍵是確定所需的推理類型,并將它們映射到適當(dāng)?shù)募夹g(shù),結(jié)合邏輯形式、向量表示和神經(jīng)元組件的可組合流水線提供了健壯性和可解釋性。
4.1 保持 LLM 的信息流
為 LLM 檢索知識圖譜中的事實會引入信息瓶頸,需要通過設(shè)計保持相關(guān)性。將內(nèi)容分成小塊可以提高隔離性,但會失去周圍的上下文,這會阻礙分塊之間的推理。生成塊的摘要可以提供更簡潔的上下文,關(guān)鍵細(xì)節(jié)被壓縮以突出顯示意義。將附加摘要、標(biāo)題、標(biāo)記等作為元數(shù)據(jù),以維護(hù)有關(guān)源內(nèi)容的上下文。將原始查詢重寫為更詳細(xì)的版本,可以更好地針對 LLM 的需求進(jìn)行檢索。知識圖譜的遍歷功能保持了事實之間的聯(lián)系,維護(hù)上下文。按時間順序或按相關(guān)性排序可以優(yōu)化 LLM 的信息結(jié)構(gòu),將隱式知識轉(zhuǎn)換為為 LLM 所陳述的顯式事實可以使推理變得更容易。
目標(biāo)是優(yōu)化檢索知識的相關(guān)性、上下文、結(jié)構(gòu)和顯性表達(dá),以最大限度地提高推理能力。需要在粒度和內(nèi)聚性之間取得平衡。知識圖關(guān)系有助于為孤立的事實構(gòu)建上下文。
4.2 解鎖推理能力
知識圖表和嵌入式技術(shù)結(jié)合起來都有克服對方弱點(diǎn)的優(yōu)勢。
知識圖譜提供了實體和關(guān)系的結(jié)構(gòu)化表達(dá)。通過遍歷功能來增強(qiáng)復(fù)雜推理能力,處理多級推理;嵌入是在向量空間中為基于相似性的操作編碼信息,支持在一定尺度上進(jìn)行有效的近似搜索,將潛在模式表面化。聯(lián)合編碼為知識圖譜中的實體和關(guān)系生成嵌入。圖神經(jīng)網(wǎng)絡(luò)通過可微消息傳遞對圖結(jié)構(gòu)和嵌入元素進(jìn)行操作。
知識圖譜首先收集結(jié)構(gòu)化知識,然后嵌入聚焦于相關(guān)內(nèi)容的搜索和檢索,外顯知識圖關(guān)系為推理過程提供了可解釋性。推斷知識可以擴(kuò)展為圖譜,GNN 提供了連續(xù)表示的學(xué)習(xí)。
這種伙伴關(guān)系可以通過模式識別!力和神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展性增強(qiáng)了結(jié)構(gòu)化知識的表示。這是推進(jìn)語言人工智能需要統(tǒng)計學(xué)習(xí)和符號邏輯的關(guān)鍵。
4.3 用協(xié)同過濾改進(jìn)搜索
協(xié)同過濾利用實體之間的聯(lián)系來加強(qiáng)搜索,一般過程如下:
- 構(gòu)造一個節(jié)點(diǎn)表示實體和以邊表示關(guān)系的知識圖譜。
- 為某些關(guān)鍵節(jié)點(diǎn)屬性(如標(biāo)題、描述等)生成一個嵌入向量。
- 向量索引ーー構(gòu)建節(jié)點(diǎn)嵌入的向量相似度索引。
- 最近鄰搜索ーー對于搜索查詢,查找具有大多數(shù)相似嵌入的節(jié)點(diǎn)。
- 協(xié)作調(diào)整ーー基于節(jié)點(diǎn)的連接,使用 PageRank 等算法傳播和調(diào)整相似性得分。
- 邊緣權(quán)重ー根據(jù)邊緣類型、強(qiáng)度、置信度等進(jìn)行權(quán)重調(diào)整。
- 分?jǐn)?shù)標(biāo)準(zhǔn)化ーー將調(diào)整后的分?jǐn)?shù)標(biāo)準(zhǔn)化以保持相對排名。
- 結(jié)果重新排序ーー基于調(diào)整后協(xié)作分?jǐn)?shù)的初始結(jié)果重新排序。
- 用戶上下文ーー進(jìn)一步根據(jù)用戶配置文件、歷史記錄和首選項進(jìn)行調(diào)整。
圖片
5. 為 RAG 引擎加油——數(shù)據(jù)飛輪
構(gòu)建一個不斷改進(jìn)的高性能檢索增強(qiáng)生成(RAG)系統(tǒng)可能需要實現(xiàn)數(shù)據(jù)飛輪。知識圖譜通過提供結(jié)構(gòu)化的世界知識為語言模型開啟了新的推理能力。但是,構(gòu)建高質(zhì)量的圖譜仍然具有挑戰(zhàn)性。這就是數(shù)據(jù)飛輪的用武之地,通過分析系統(tǒng)交互,不斷改進(jìn)知識圖。
記錄所有系統(tǒng)查詢、響應(yīng)、分?jǐn)?shù)、用戶操作等數(shù)據(jù),提供如何使用知識圖表的可視性,使用數(shù)據(jù)聚合到表面不良響應(yīng),聚類并分析這些響應(yīng),以識別表明知識差距的模式。人工回顧那些有問題的系統(tǒng)響應(yīng),并將問題追溯到圖譜中缺少的或不正確的事實。然后,直接修改圖表以添加那些缺失的事實數(shù)據(jù)、改進(jìn)結(jié)構(gòu)、提高清晰度等。不斷循環(huán)完成上述步驟,每次迭代都進(jìn)一步增強(qiáng)知識圖。
像新聞和社交媒體這樣的流媒體實時數(shù)據(jù)源提供了新信息的不斷流動,以保持知識圖表的最新性。如果使用查詢生成來識別和填補(bǔ)關(guān)鍵的知識空白,就超出了流提供的范圍。發(fā)現(xiàn)圖譜中的漏洞,提出問題,檢索缺失的事實,然后添加它們。對于每個循環(huán),通過分析使用模式和修復(fù)數(shù)據(jù)問題,知識圖譜會逐漸增強(qiáng),改進(jìn)后的圖增強(qiáng)了系統(tǒng)的性能。
這個飛輪過程使得知識圖譜和語言模型能夠基于來自現(xiàn)實世界使用的反饋進(jìn)行協(xié)同演化。圖譜被積極地修改以適應(yīng)模型的需要。
總之,數(shù)據(jù)飛輪通過分析系統(tǒng)交互,為知識圖譜的持續(xù)、自動改進(jìn)提供了一個支架。這為依賴于圖表的語言模型的準(zhǔn)確性、相關(guān)性和適應(yīng)性提供了動力。
6. 小結(jié)
人工智能需要結(jié)合外部知識和推理,這就是知識圖譜的用武之地。知識圖譜提供了真實世界實體和關(guān)系的結(jié)構(gòu)化表示,編碼了關(guān)于世界的事實以及它們之間的聯(lián)系。通過遍歷那些相互關(guān)聯(lián)的事實,這使得復(fù)雜的邏輯推理可以跨越多個步驟
然而,知識圖譜有其自身的局限性,如稀疏性和缺乏不確定性處理,這就是圖譜嵌入的幫助所在。通過在向量空間中編碼知識圖譜元素,嵌入允許從大型語料庫到潛在模式表征化的統(tǒng)計學(xué)習(xí),還支持高效的基于相似性的操作。
無論是知識圖譜還是向量嵌入本身都不足以形成類人的語言智能,但是,它們共同提供了結(jié)構(gòu)化知識表示、邏輯推理和統(tǒng)計學(xué)習(xí)的有效結(jié)合,而知識圖譜覆蓋了神經(jīng)網(wǎng)絡(luò)模式識別能力之上的符號邏輯和關(guān)系,像圖神經(jīng)網(wǎng)絡(luò)這樣的技術(shù)通過信息傳遞圖結(jié)構(gòu)和嵌入進(jìn)一步統(tǒng)一了這些方法。這種共生關(guān)系使得系統(tǒng)既能利用統(tǒng)計學(xué)習(xí),又能利用符號邏輯,結(jié)合了神經(jīng)網(wǎng)絡(luò)和結(jié)構(gòu)化知識表示的優(yōu)勢。
在構(gòu)建高質(zhì)量的知識圖譜、基準(zhǔn)測試、噪音處理等仍然存在著挑戰(zhàn)。但是,跨越符號和神經(jīng)網(wǎng)絡(luò)的混合技術(shù)仍然是前景光明的。隨著知識圖譜和語言模型的不斷發(fā)展,它們的集成將開辟了可解釋AI 的新領(lǐng)域。