AI知識庫的真相,你知道嗎?
很多人對AI知識庫的想象是這樣的,他們以為只需將所有資料一股腦地拖進AI客戶端,比如 Cherry Studio 內。
圖片
這樣,AI就會認真閱讀所有內容,并自動生成完美結論。
然而,實際體驗后,許多人發(fā)現(xiàn)AI知識庫的效果遠沒有想象中理想,經(jīng)常遇到各種奇怪的問題。
本文將從知識庫的原理出發(fā),探討AI知識庫的技術局限。同時,我會介紹一些進階方案,例如引入重排序模型、數(shù)據(jù)庫(mcp server),以及使用超大上下文模型等方法。
目前,大模型知識庫最常見的技術是RAG(檢索增強生成)。
當用戶將資料加入知識庫時,程序會先將其拆分為多個文本塊。
圖片
隨后,使用嵌入模型將這些文本塊向量化。
向量化指將拆分后的文本轉化為一組超長的數(shù)字序列。
圖片
以我自己的知識庫為例,這里用到的嵌入模型輸出的是1024維:
圖片
也就是說,每個文本塊都被轉換成一個由1024個數(shù)值組成的向量:
圖片
之后,程序會將向量及其對應文本存儲到向量數(shù)據(jù)庫中。
圖片
接下來,當用戶發(fā)起提問時,問題本身也會被向量化,轉化為一個1024維向量。
圖片
然后,系統(tǒng)會將用戶問題的向量與數(shù)據(jù)庫中的所有向量進行相似度計算,這一過程完全基于向量的數(shù)學運算。
圖片
最終,知識庫會選出與問題最相似的幾個原文片段,將它們與用戶的問題一同發(fā)送給大模型,由大模型進行歸納總結。
圖片
從這個流程可以看到,在RAG架構中,大模型主要負責歸納總結,答復質量在很大程度上取決于文本塊的檢索精度。事實上,RAG系統(tǒng)普遍存在切片粗暴、檢索不精準、缺乏整體視角等典型問題。