自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="rfpdc"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

搭建大模型知識庫流程，以及基于Langchain實現(xiàn)大模型知識庫案例原創(chuàng)

發(fā)布于 2024-9-5 16:00

瀏覽

0收藏

“ RAG檢索增強生成是為了解決大模型知識不足的問題 ”

大模型主要面臨三個問題：

垂直領域內(nèi)的知識不足
大模型知識有時間限制
大模型幻覺問題

第一個問題產(chǎn)生的原因是因為，沒有經(jīng)過垂直領域數(shù)據(jù)訓練的大模型普遍表現(xiàn)不好；其次是目前的大模型采用的是預訓練模式，也就是說需要先收集訓練數(shù)據(jù)進行訓練，但只能收集之前的數(shù)據(jù)，不能收集當前和以后的數(shù)據(jù)；最后就是大模型幻覺問題，幻覺問題產(chǎn)生的原因就是知識不足，導致在一些領域問題中一本正經(jīng)的胡說八道。

因此，說到底大模型產(chǎn)生以上三個問題的主要原因就是知識不足，因此RAG——檢索增強生成技術就出現(xiàn)了。

RAG技術配合知識庫技術，就能夠補充大模型知識不足的問題，知識庫的作用就相當于給大模型配置一個資料室，遇到不懂的就去資料室里查。

今天，我們就來討論一下本地知識庫的實現(xiàn)步驟，以及代碼。

知識庫的實現(xiàn)步驟及代碼

嚴格來說，解決大模型知識不足問題的技術是RAG——檢索增強生成，而不是知識庫技術。

知識庫技術在大模型之前就已經(jīng)出現(xiàn)了，簡單來說就是公司內(nèi)部的文檔系統(tǒng)，里面記錄了企業(yè)內(nèi)部的資料，文檔等，形式可以是一個web系統(tǒng)，甚至就是一個文件夾。

而我們今天說的大模型知識庫是基于RAG技術，結合知識庫技術產(chǎn)生的一個變種，主要區(qū)別就是數(shù)據(jù)格式問題。

RAG文檔檢索生成，就是通過把資料向量化，并為了提升查詢效率需要把向量化的文檔存入到向量數(shù)據(jù)庫，然后每次在問大模型之前，先去向量數(shù)據(jù)庫中查詢與問題相關的內(nèi)容，通過提示詞的方式一并傳入到大模型中，這樣就可以解決大模型知識不足的問題。

搭建大模型知識庫流程，以及基于Langchain實現(xiàn)大模型知識庫案例-AI.x社區(qū)

之所以要把資料向量化的原因是，在傳統(tǒng)的查詢搜索過程中，使用的主要是基于字符匹配的方式進行查詢，比如說你想查詢西紅柿炒蛋的做法，查詢的內(nèi)容中就必須包含西紅柿和炒蛋這幾個字。

而有了大模型技術，把資料向量化之后，就可以通過語義進行查詢，大模型會根據(jù)語義分析，知道西紅柿和番茄是一個東西。

大模型知識庫的原理就是給大模型外掛一個資料庫，但大模型畢竟不是人，需要把資料，文檔等轉(zhuǎn)化為大模型能夠識別的格式，就是文檔向量化。

搭建大模型知識庫，需要經(jīng)過以下幾個步驟：

文檔加載

在當今互聯(lián)網(wǎng)時代，知識的形式多種多樣，比如文本格式的就是txt，word，pdf等；還有其它格式如圖片，結構化數(shù)據(jù)以及非結構化數(shù)據(jù)等。

因此，打造一個知識庫需要支持多種文檔，以及不同文檔的加載路徑，如本地加載，網(wǎng)絡加載等；而這就是文檔加載需要解決的問題。

文檔分割

在大模型應用中，長文本處理是一個問題，并且大模型窗口都有上下文長度限制；并且，文檔還需要處理成大模型能夠識別的向量格式，因此對一些長文本文檔需要進行文本分割，解決文檔過長而導致的問題。

文檔分割根據(jù)不同的任務場景，需要進行不同的處理，比如文檔分割的長度，分割形式(比如，段落，標點符號等)，重疊長度等。

詞嵌入

在傳統(tǒng)的知識庫系統(tǒng)中，文檔是以文本，圖片，視頻等格式存在的，使用者主要是人，因此只需要能夠通過網(wǎng)絡加載文檔即可。

但在大模型應用中，大模型不認識字，它能夠處理的格式只有向量。而且，還需要進行語義分析，因此需要通過詞嵌入的方式，把文檔轉(zhuǎn)化為大模型能夠處理的，且語義連貫的形式，也就是向量格式，而這個技術就叫做詞嵌入。

詞嵌入工具本質(zhì)上也是一個大模型，只不過是專門訓練用來完成語義理解和向量轉(zhuǎn)化的模型。

Sentence-transformer 詞嵌入python 庫可以支持多種嵌入模型或者可以使用第三方提供的轉(zhuǎn)化工具，比如openAI，通義千問等。

文檔處理整體流程入下圖所示：

搭建大模型知識庫流程，以及基于Langchain實現(xiàn)大模型知識庫案例-AI.x社區(qū)

文檔存儲

文檔存儲的功能就是需要把通過詞嵌入轉(zhuǎn)化的大模型能夠識別的向量格式存儲起來，一般使用的是向量數(shù)據(jù)庫。

當大模型需要使用的時候，再通過檢索的形式從向量數(shù)據(jù)庫中獲取。

文檔存儲的作用是為了解決查詢效率的問題，但也并不是必須的；比如說，當你知識庫的內(nèi)容很少的時候，你也可以選擇每次提問的時候，重新加載文檔并向量化，這樣之前向量化過的文檔就存儲在向量數(shù)據(jù)庫中，下次使用的時候就可以直接從數(shù)據(jù)庫中查詢。

就類似于在web開發(fā)中，你也可以把用戶數(shù)據(jù)通過｜或某種符合間隔起來并保存到txt文件中，每次查詢的時候需要讀取文件并解析數(shù)據(jù)，這樣就會非常的麻煩；而如果把用戶信息存儲到數(shù)據(jù)庫中，就會方便的多。

搭建大模型知識庫流程，以及基于Langchain實現(xiàn)大模型知識庫案例-AI.x社區(qū)

文檔檢索

從向量數(shù)據(jù)庫中，通過語義對數(shù)據(jù)進行檢索，然后把檢索結果帶入到大模型中，供大模型使用。技術實現(xiàn)是通過數(shù)學計算，根據(jù)向量計算相對位置，位置越近語義相關度越高；比如歐式距離，cos值等。

RAG的難點和重點是數(shù)據(jù)的質(zhì)量和檢索質(zhì)量，也就是說本地知識庫的好壞和使用的模型(用來回答問題的模型，不是詞嵌入的模型)沒有什么關系，只是和你檢索的效果有關。

簡單來說就是，你的知識庫數(shù)據(jù)質(zhì)量和向量數(shù)據(jù)庫的質(zhì)量越好，RAG的效果才越好。

完整代碼用戶可以在公眾號回復 RAG案例即可獲得。

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/PhxFos15uHHcdLnmyHTlHg??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

已于2024-9-5 18:03:15修改

贊

收藏

回復

舉報

回復

相關推薦

怎么看大模型、RAG、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 5391瀏覽 ? 0回復
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系?。?/a>

玄姐聊AGI ? 1.2w瀏覽 ? 0回復
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關系

AI探索時代 ? 4355瀏覽 ? 0回復
基于Llama 3.1和一臺MacBook搭建商用級知識庫

玄姐聊AGI ? 2682瀏覽 ? 0回復
企業(yè)級智能知識庫搜索問答技術與應用

51CTO技術棧 ? 2217瀏覽 ? 0回復
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系！！

玄姐聊AGI ? 3281瀏覽 ? 0回復
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關系

AI探索時代 ? 2925瀏覽 ? 0回復
大模型檢索增強(RAG)技術之——GraphRAG，知識庫產(chǎn)品必不可少的技術

AI探索時代 ? 2595瀏覽 ? 0回復
如何基于一臺MacBook搞定企業(yè)級大模型知識庫部署

玄姐聊AGI ? 2211瀏覽 ? 0回復
【AI開源項目】FastGPT - 快速部署FastGPT以及使用知識庫的兩種方式！

唐克 ? 8313瀏覽 ? 0回復
RAG與本地知識庫，向量數(shù)據(jù)庫，以及知識圖譜的聯(lián)系與區(qū)別

AI探索時代 ? 4795瀏覽 ? 0回復
本地知識庫優(yōu)化，讓 AI 回答更精準

wsp_ping ? 3208瀏覽 ? 0回復
怎么解決大模型知識庫的檢索問題，RAG檢索增強之ReRank(重新排序)

AI探索時代 ? 3013瀏覽 ? 0回復
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 4218瀏覽 ? 0回復
大模型時代的知識工程：企業(yè)級智能知識庫構建與增強指南

九歌AI大模型 ? 2129瀏覽 ? 0回復
揭秘Embedding模型選型：如何用向量技術突破知識庫的智能天花板？

AI博物院 ? 863瀏覽 ? 0回復
【人工智能】AI如何精準匹配RAG知識庫？揭秘混合檢索的奧秘！

唐克 ? 1424瀏覽 ? 0回復
RAGFlow 入門指南：解鎖你的智能知識庫引擎

云原生AI百寶箱 ? 1239瀏覽 ? 0回復
MCP 實踐：基于 MCP 架構實現(xiàn)知識庫系統(tǒng)

玄姐聊AGI ? 156瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

關于RAG應用中怎么高質(zhì)量的進行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關于基于RAG技術的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：大模型提示詞進階，零樣本提示, 一次樣本提示和少樣本提示以及思維鏈(Chain of Thought, Cot)

下一篇：記一次關于人工智能應用方向的面試以及帶來的思考

社區(qū)精華內(nèi)容

目錄