自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系原創(chuàng)

AI探索時(shí)代

發(fā)布于 2024-7-2 11:52

瀏覽

0收藏

“ 本地知識(shí)庫(kù)就相當(dāng)于大模型的外部資料庫(kù)。”

很多人應(yīng)該都聽(tīng)過(guò)本地知識(shí)庫(kù)項(xiàng)目，它是當(dāng)今人工智能領(lǐng)域爆火的項(xiàng)目之一，那么到底什么是本地知識(shí)庫(kù)？它和大模型有什么關(guān)系？怎么構(gòu)建本地知識(shí)庫(kù)？

01、為什么需要本地知識(shí)庫(kù)？

其實(shí)本地知識(shí)庫(kù)和大模型本身沒(méi)有什么直接關(guān)系，可以說(shuō)它們是兩個(gè)完全獨(dú)立的技術(shù)。

但因?yàn)榇竽Ｐ偷幕糜X(jué)問(wèn)題和大模型的數(shù)據(jù)更新遲緩，因此才把知識(shí)庫(kù)技術(shù)與大模型技術(shù)相結(jié)合，產(chǎn)生了大模型知識(shí)庫(kù)技術(shù)。

什么是知識(shí)庫(kù)？

知識(shí)庫(kù)簡(jiǎn)單來(lái)說(shuō)就是資料庫(kù)，比如國(guó)家圖書(shū)館收錄了我國(guó)幾千年來(lái)的歷史書(shū)籍和資料；每家企業(yè)都會(huì)有一些內(nèi)部數(shù)據(jù)；各個(gè)領(lǐng)域都有自己領(lǐng)域內(nèi)的數(shù)據(jù)和資料。

而怎么管理這些資料和數(shù)據(jù)，就是知識(shí)庫(kù)技術(shù)，知識(shí)庫(kù)的核心有兩點(diǎn)，一是數(shù)據(jù)的存儲(chǔ)，二是數(shù)據(jù)的檢索。

在互聯(lián)網(wǎng)技術(shù)出現(xiàn)之前，知識(shí)庫(kù)都是以檔案室或資料室的形式存在；而計(jì)算機(jī)技術(shù)出現(xiàn)之后，特別是大數(shù)據(jù)技術(shù)出現(xiàn)之后，知識(shí)庫(kù)就可以從線下走到了線上。

而大數(shù)據(jù)技術(shù)也為處理大量復(fù)雜數(shù)據(jù)提供了可能。

大模型技術(shù)是當(dāng)前人工智能領(lǐng)域爆火的技術(shù)之一，但它有一個(gè)致命的缺陷就是，它的訓(xùn)練數(shù)據(jù)是有時(shí)間限制的，比如chatGPT的數(shù)據(jù)還是兩年前的，它對(duì)近兩年的情況就什么都不知道了。

解決這個(gè)問(wèn)題其實(shí)有多種方式，比如用最新的數(shù)據(jù)對(duì)大模型進(jìn)行重新訓(xùn)練，或者使用微調(diào)技術(shù)比如lora，用最新的數(shù)據(jù)進(jìn)行微調(diào)。

但這兩種方式一來(lái)成本太高，二來(lái)門(mén)檻太高，對(duì)很多小公司是不可接受的。其次就是，哪怕重新訓(xùn)練出來(lái)的大模型，在一些垂直領(lǐng)域的問(wèn)題上經(jīng)常會(huì)出現(xiàn)“幻覺(jué)”問(wèn)題。

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系-AI.x社區(qū)

所以，大模型知識(shí)庫(kù)技術(shù)就出現(xiàn)了，大模型就類(lèi)似于一個(gè)大學(xué)生；它有足夠的基礎(chǔ)知識(shí)，然后在一些沒(méi)有接觸過(guò)的領(lǐng)域或者不懂的問(wèn)題，就去圖書(shū)館查資料。

更形象的表達(dá)應(yīng)該是類(lèi)似于學(xué)生期末考試之前，會(huì)發(fā)考前資料，然后告訴你考試內(nèi)容在資料里。

這樣既解決了大模型的時(shí)間限制問(wèn)題，也解決了成本和門(mén)檻問(wèn)題，也大大減少了幻覺(jué)的產(chǎn)生。

02、怎么實(shí)現(xiàn)大模型知識(shí)庫(kù)？

實(shí)現(xiàn)大模型知識(shí)庫(kù)理論上很簡(jiǎn)單，就是在問(wèn)大模型的時(shí)候，帶上“資料”，大模型根據(jù)資料內(nèi)容進(jìn)行回答。

但這里需要解決幾個(gè)問(wèn)題：

第一，資料的加載問(wèn)題，隨著技術(shù)的發(fā)展資料的類(lèi)型也是多種多樣，比如有文本文檔，圖片，視頻，聲音等等；文本文檔還有txt，word，excel等多種格式，還有很多格式化及非格式化數(shù)據(jù)，因此文檔的加載是一個(gè)非常麻煩的事情。

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系-AI.x社區(qū)

第二，資料的存儲(chǔ)問(wèn)題，有了資料之后，需要把資料進(jìn)行加載然后統(tǒng)一處理，而如果這些資料是給人看，那么只需要把文檔按照原本的格式保存即可。但因?yàn)榇竽Ｐ椭徽J(rèn)識(shí)向量格式的數(shù)據(jù)，因此需要把文檔轉(zhuǎn)化為向量格式存儲(chǔ)，而這就是向量數(shù)據(jù)庫(kù)。

第三，數(shù)據(jù)的檢索問(wèn)題，數(shù)據(jù)加載到向量數(shù)據(jù)庫(kù)之后，應(yīng)該怎么檢索就是一個(gè)問(wèn)題。因?yàn)槿绻Y料庫(kù)比較小問(wèn)題還不大，如果資料庫(kù)很龐大，怎么快速的檢索，也是一個(gè)值得思考的問(wèn)題。

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系-AI.x社區(qū)

大模型知識(shí)庫(kù)的使用流程

大模型知識(shí)庫(kù)加載流程如下：

文檔加載，通過(guò)加載工具把各種格式的文檔加載到向量數(shù)據(jù)庫(kù)中；其次，需要對(duì)文檔進(jìn)行轉(zhuǎn)換拆分，比如按照固定長(zhǎng)度進(jìn)行拆分；然后，通過(guò)embedding大模型，把拆分后的文檔根據(jù)語(yǔ)義轉(zhuǎn)換為向量格式；最后存儲(chǔ)到向量數(shù)據(jù)中。

然后使用的時(shí)候，從向量數(shù)據(jù)庫(kù)中檢索數(shù)據(jù)。

embedding模型的作用是為了把文檔進(jìn)行有意義的語(yǔ)義轉(zhuǎn)換，否則文檔數(shù)據(jù)直接存儲(chǔ)到數(shù)據(jù)庫(kù)中就會(huì)出現(xiàn)資料錯(cuò)誤的問(wèn)題。

流程如下圖所示：

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系-AI.x社區(qū)

上一步加載完文檔之后，就可以進(jìn)行使用了。

使用的步驟是，用戶(hù)對(duì)大模型進(jìn)行提問(wèn)，然后通過(guò)embedding把用戶(hù)提問(wèn)轉(zhuǎn)化為向量格式，然后根據(jù)提問(wèn)從向量數(shù)據(jù)庫(kù)中檢索和提問(wèn)內(nèi)容有關(guān)的資料。如下圖8-11步所示。

檢索到資料之后，根據(jù)用戶(hù)提問(wèn)和檢索資料，構(gòu)建prompt template(提示詞模板)，最后輸入到大模型中，獲得結(jié)果。

整個(gè)知識(shí)庫(kù)的流程如下圖所示：

爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系-AI.x社區(qū)

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/Dd-vshBMUNDAoE7IFdWCtg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-7-3 05:53:26修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

怎么看大模型、RAG、Agent、知識(shí)庫(kù)、向量數(shù)據(jù)庫(kù)、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 5378瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識(shí)庫(kù)、向量數(shù)據(jù)庫(kù)、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系??！

玄姐聊AGI ? 1.2w瀏覽 ? 0回復(fù)
基于Llama 3.1和一臺(tái)MacBook搭建商用級(jí)知識(shí)庫(kù)

玄姐聊AGI ? 2676瀏覽 ? 0回復(fù)
企業(yè)級(jí)智能知識(shí)庫(kù)搜索問(wèn)答技術(shù)與應(yīng)用

51CTO技術(shù)棧 ? 2209瀏覽 ? 0回復(fù)
Agentic RAG Golden-Retriever：顯著提升企業(yè)知識(shí)庫(kù)問(wèn)答準(zhǔn)確性、檢索效率！

PaperAgent ? 2679瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識(shí)庫(kù)、向量數(shù)據(jù)庫(kù)、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系！！

玄姐聊AGI ? 3263瀏覽 ? 0回復(fù)
搭建大模型知識(shí)庫(kù)流程，以及基于Langchain實(shí)現(xiàn)大模型知識(shí)庫(kù)案例

AI探索時(shí)代 ? 3212瀏覽 ? 0回復(fù)
爆火的本地知識(shí)庫(kù)項(xiàng)目是什么？什么是RAG？本地知識(shí)庫(kù)與大模型的關(guān)系

AI探索時(shí)代 ? 2918瀏覽 ? 0回復(fù)
大模型檢索增強(qiáng)(RAG)技術(shù)之——GraphRAG，知識(shí)庫(kù)產(chǎn)品必不可少的技術(shù)

AI探索時(shí)代 ? 2589瀏覽 ? 0回復(fù)
如何基于一臺(tái)MacBook搞定企業(yè)級(jí)大模型知識(shí)庫(kù)部署

玄姐聊AGI ? 2202瀏覽 ? 0回復(fù)
【AI開(kāi)源項(xiàng)目】FastGPT - 快速部署FastGPT以及使用知識(shí)庫(kù)的兩種方式！

唐克 ? 8303瀏覽 ? 0回復(fù)
RAG與本地知識(shí)庫(kù)，向量數(shù)據(jù)庫(kù)，以及知識(shí)圖譜的聯(lián)系與區(qū)別

AI探索時(shí)代 ? 4775瀏覽 ? 0回復(fù)
本地知識(shí)庫(kù)優(yōu)化，讓 AI 回答更精準(zhǔn)

wsp_ping ? 3200瀏覽 ? 0回復(fù)
怎么解決大模型知識(shí)庫(kù)的檢索問(wèn)題，RAG檢索增強(qiáng)之ReRank(重新排序)

AI探索時(shí)代 ? 3010瀏覽 ? 0回復(fù)
Deepseek 671B + Milvus 重新定義知識(shí)庫(kù)搭建！

玄姐聊AGI ? 4207瀏覽 ? 0回復(fù)
大模型時(shí)代的知識(shí)工程：企業(yè)級(jí)智能知識(shí)庫(kù)構(gòu)建與增強(qiáng)指南

九歌AI大模型 ? 2112瀏覽 ? 0回復(fù)
揭秘Embedding模型選型：如何用向量技術(shù)突破知識(shí)庫(kù)的智能天花板？

AI博物院 ? 846瀏覽 ? 0回復(fù)
【人工智能】AI如何精準(zhǔn)匹配RAG知識(shí)庫(kù)？揭秘混合檢索的奧秘！

唐克 ? 1412瀏覽 ? 0回復(fù)
RAGFlow 入門(mén)指南：解鎖你的智能知識(shí)庫(kù)引擎

云原生AI百寶箱 ? 1139瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：企業(yè)或個(gè)人構(gòu)建人工智能上層應(yīng)用的幾種方式，以及每種方式的優(yōu)劣

下一篇：大模型的“手和腳”——連接外部應(yīng)用的通道函數(shù)調(diào)用(function calling)，AI Agent的實(shí)現(xiàn)方式之一

社區(qū)精華內(nèi)容

目錄